实验配置¶
max_runtime_minutes¶
Max. runtime in minutes before triggering the ‘Finish’ button. Approximately enforced. (0 = disabled) (Number)
默认值 1440
若实验未在设定时间(分钟)内完成,请尽快停止特征工程和模型调优,并继续构建最终建模管道和部署工件,无需考虑模型分数收敛或预确定的迭代次数。只有活动状态不处于可复制模式。整体实验运行时间可能会与此设置相差很大,具体取决于数据和实验设置。
max_runtime_minutes_until_abort¶
Max. runtime in minutes before triggering the ‘Abort’ button.(0 = disabled) (Number)
默认值 10080
如果实验未在设定时间(分钟)内完成,按下中止按钮。保存至今为止为摘要和日志压缩文件所做的实验工件,后续会制作更多工件。
time_abort¶
Time to trigger the ‘Abort’ button. (String)
默认值 ''
如果实验未在设定时间内完成,按下中止按钮。接受 time_abort_format 指定的格式呈现的时间(默认设置为 %Y-%m-%d %H:%M:%S)假设 time_abort_timezone 设置的时区(默认设置为 UTC)。还可指定 UTC 时间 1970-01-01 00:00:00 之后的整数秒数。适用于运行实验的 DAI 工作节点的时间。保存至今为止为摘要和日志压缩文件所做的实验工件,后续会制作更多工件。注意:如果用相同参数启动新实验,重启,或重新拟合,则此绝对时间将适用于此类实验或排行榜实验。
time_abort_format¶
Time string format for time_abort. (String)
默认值 '%Y-%m-%d %H:%M:%S'
允许使用 datetime.strptime 接受的任何格式。
time_abort_timezone¶
Time zone for time_abort. (String)
默认值 'UTC'
任何采用 datetime.strptime 可接受格式的时区。
delete_model_dirs_and_files¶
delete_model_dirs_and_files (Boolean)
默认值 True
调用 do_delete_model 时是否删除所有与实验模式匹配的目录和文件 (True),或是否仅删除目录 (False)。False 设置可用于保存占用空间不多的实验日志。
recipe¶
Pipeline Building Recipe (String)
默认值 'auto'
# 插件类型 ## 插件覆盖任何 GUI 设置 - ‘auto’: 所有模型和特征由实验设置、toml 设置和 feature_engineering_effort 自动确定
- ‘compliant’类似于 ‘auto’,不同之处是:
可解释性=10 (以避免复杂性,将覆盖为可解释性选择的 GUI 或 Python Client)
enable_glm=’on’ (其余为 ‘关闭’ 状态,以避免复杂性并可与 MLI 支持的算法兼容)
fixed_ensemble_level=0: 不使用任何集成
feature_brain_level=0 (不使用任何特征大脑(以确保每次重启都完全相同))
max_feature_interaction_depth=1: 将交互深度设置为 1(无多特征交互,以避免复杂性)
target_transformer=’identity’: 用于回归问题(以避免复杂性)
check_distribution_shift_drop=’off’: 不在训练、验证和测试数据之间使用分布位移来丢弃特征(如果不进行微调,会有一定风险)
- ‘monotonic_gbm’类似于 ‘auto’,不同之处是:
monotonicity_constraints_interpretability_switch=1: 启用 Monotonicity Constraints
self.config.monotonicity_constraints_correlation_threshold = 0.01: 见下文
Monotonicity_constraints_drop_low_correlation_features=true: 丢弃与目标的相关性差异至少达 0.01 的特征(由上述参数指定)
fixed_ensemble_level=0:不使用任何集成(以避免复杂性)
included_models=[‘LightGBMModel’]
included_transformers=[‘OriginalTransformer’]: 仅使用原始(数值)特征
feature_brain_level=0: 不使用任何特征大脑(以确保每次重启都完全相同)
monotonicity_constraints_log_level=’high’
Autodoc_pd_max_runtime=-1: 在 AutoDoc 中创建 PDP 未超时
- ‘kaggle’类似于 ‘auto’,不同之处是:
外部验证集将与训练集串联,并且目标被标记为缺失
测试集将与训练集串联,并且目标被标记为缺失
不使用此目标的转换器将被允许对所有训练、验证和测试进行 fit_transform
多个配置 toml 专家选项开放限制(例如更多数值被视为分类值)
- 注意:如果有大量内存,可以:
选择 kaggle 模式,然后将 fixed_feature_interaction_depth 更改为大的负数,
- 否则,提供给转换器的默认特征数默认限制为 50
选择 mutation_mode = “full”,使每个转换器一次完成的转换类型更多
‘nlp_model’: 仅启用处理纯文本的 NLP 模型
‘nlp_transformer’: 仅启用处理纯文本的 NLP 转换器,但允许任何模型类型
‘image_model’: 仅启用处理纯图像的图像模型
‘image_transformer’: 仅启用处理纯图像的 Image Transformer,但允许任何模型类型
‘unsupervised’: 仅启用无监督转换器、模型和评分器
‘gpus_max’: 最大限度利用 GPU(例如使用在 XGBoost、rapids、Optuna 超参数搜索等)
‘more_overfit_protection’: 通过禁用目标编码,并使 GA 在树计数和学习率方面与最终模型相当,可以潜在地改善过拟合(对小数据尤其有效)
可以选择每种管道构建插件模式,然后使用各个专家设置进行微调。更改管道构建插件会将所有管道构建插件选项重设为默认值,然后重新应用新模式的特定规则,这将撤销对管道构建插件规则中的专家选项进行的任何微调。
如果选择根据父实验执行新/持续/调整/重新训练实验,则不会重新应用所有插件规则,而且保留任何微调。要重置插件行为,可以在“自动”和所需模式之间切换。这样,新的子实验将使用所选插件的默认设置。
enable_genetic_algorithm¶
Enable genetic algorithm for selection and tuning of features and models (String)
默认值 'auto'
是否启用遗传算法进行特征和模型的选择和超参数调整。- 若禁用 (‘off’), 将直接进入最终的管道训练(使用默认的特征工程和特征选择)。- 除非是纯 NLP 或图像实验,否则 ‘auto’ 与 ‘on’ 功能相同。- “Optuna”:使用 DAI 遗传算法执行特征工程,但模型超参数的调优由 Optuna 执行。
在 Optuna 案例中,迭代面板中显示的分数是最佳评分和试验评分。
Optuna 模式目前仅对 XGBoost、LightGBM 和 CatBoost(自定义插件)使用 Optuna。
若启用了 Pruner,默认情况下,Optuna 模式禁用 eval_metric 的突变,因此修剪在试验中使用相同指标来进行适当的比较。
目前此模式不支持使用 pre_transformer 或多层管道,这种情况必须经过至少一轮调优或演变。
make_python_scoring_pipeline¶
Make Python scoring pipeline (String)
默认值 'auto'
是否在每次实验结束时创建 Python Scoring Pipeline。
make_mojo_scoring_pipeline¶
Make MOJO scoring pipeline (String)
默认值 'auto'
是否在每次实验结束时创建 MOJO Scoring Pipeline。若设置为 “auto”,则会在情况允许时尝试创建它(不会丢弃功能)。若设置为 “on”,可能需要丢弃部分模型、转换器或自定义插件。
inject_mojo_for_predictions¶
inject_mojo_for_predictions (Boolean)
默认值 True
若小验收测试通过,则将 MOJO 注入拟合的 Python 状态,以便能够在调用预测时使用 C++ MOJO 运行时 (enable_mojo=True, IS_SCORER=True, …)。mojo_for_predictions 的先决条件为 =’on’ 或 ‘auto’。
mojo_for_predictions¶
Allow use of MOJO for making predictions (String)
默认值 'auto'
在实验结束后使用 MOJO 进行低延迟快速预测(在适用的情况下,对于 AutoDoc/Diagnostics/Predictions/MLI 和独立 Python,通过 scorer.zip 进行评分)。对于 ‘auto’,若行数等于或小于 mojo_for_predictions_max_rows,则仅使用 MOJO。对于较大的帧,使用 Python 后端会更快,因为使用的库很可能已经向量化了。
mojo_for_predictions_max_rows¶
Max number of rows for C++ MOJO predictions (Number)
默认值 10000
对于较小的数据集,单线程但低延迟的 C++ MOJO 运行时的评分速度会显著高于 Driverless AI 中的 Python 评分环境。若 enable_mojo=True 传递到预测 API,且 MOJO 存在并适用,则将 MOJO 运行时用于行数小于或等于此阈值的数据集。MLI/AutoDoc 默认设置 enable_mojo=True,因此此设置适用。
mojo_for_predictions_batch_size¶
Batch size for C++ MOJO predictions. (Number)
默认值 100
用于 C++ MOJO 预测的批处理大小(行数)。仅当 enable_mojo=True 传递到预测 API,且 MOJO 适用时(例如,行数小于 mojo_for_predictions_max_rows)时。值越大,评分速度越快,但内存使用会更多。
mojo_acceptance_test_rtol¶
Relative tolerance for mini MOJO acceptance test. (Float)
默认值 0.0
小 MOJO 验收测试的相对公差。若 Python/C++ MOJO 与 Python 的差异大于此公差,则不会在 Python 中用 MOJO 进行后续的评分。仅当 mojo_for_predictions=True 时适用。若 <= 0 则禁用。
mojo_acceptance_test_atol¶
Absolute tolerance for mini MOJO acceptance test. (Float)
默认值 0.0
小 MOJO 验收测试的绝对公差。若 Python/C++ MOJO 与 Python 的差异大于此公差,则不会在 Python 中用 MOJO 进行后续的评分。仅当 mojo_for_predictions=True 时适用。若 <= 0 则禁用。
reduce_mojo_size¶
Attempt to reduce the size of the MOJO (Boolean)
默认值 False
是否尝试减小 MOJO Scoring Pipeline 的大小。MOJO 越小,评分期间占用的内存也越少。这是通过减少一些其他设置(如交互深度)来实现的,因此会影响模型的预测精度。
make_pipeline_visualization¶
Make pipeline visualization (String)
默认值 'auto'
是否在每次实验结束时创建管道可视化。
make_python_pipeline_visualization¶
Make python pipeline visualization (String)
默认值 'auto'
是否在每次实验结束时创建管道可视化。每个特征和转换器在末尾的括号中都包含一个变量重要性。仅在强制启用时才这么做,且工件会以 png 文件的格式显示在摘要 zip 中。每个实验的最终群体中的每个个体都有相关文件:1) preprune_False_0.0:在最终修剪之前,没有任何其他变量重要性阈值修剪 2) preprune_True_0.0:在最终修剪之前,有其他变量重要性 <=0.0 修剪 3) postprune_False_0.0:在最终修剪之后,没有任何其他变量重要性阈值修剪 4) postprune_True_0.0:在最终修剪之后,有其他变量重要性 <=0.0 修剪 5) posttournament_False_0.0:在最终修剪和联赛之后,没有任何其他变量重要性阈值修剪 6) posttournament_True_0.0:在最终修剪和联赛之后,有其他变量重要性 <=0.0 修剪。若设置为 ‘on’,则执行 1-5,若设置为 ‘auto’,则仅执行 6,对应于最终修剪后个体。修剪后,某些特征的重要性甚至为零,因为只有那些值+方差的变量重要性为 value=0.0 的基因被修剪掉。对于一个基因,GA 可以有许多正方差的折叠,如果它们是最终模型的有用特征,则不删除这些折叠。如果选择了小 mojo 选项 (reduce_mojo_size True),则忽略基因和特征被修剪以及图中所示内容的特征增益的方差。
max_cols_make_autoreport_automatically¶
Number of columns beyond which will not automatically build autoreport at end of experiment. (Number)
默认值 1000
max_cols_make_pipeline_visualization_automatically¶
Number of columns beyond which will not automatically build pipeline visualization at end of experiment. (Number)
默认值 5000
pass_env_to_deprecated_python_scoring¶
Pass environment variables to deprecated python scoring package (Boolean)
默认值 False
- 当环境变量被用于预测时,
- 将这些变量从运行的 Driverless AI 实例传递到 Python Scoring Pipeline。请谨慎使用。
如果 config.toml 覆盖由环境变量设置,且它们与实验环境在训练时的状态不同,则可能会发生意外的结果。
启用此功能仅会 “覆盖某些控制良好的设置,如 H2O-3 自定义插件服务器的端口。
transformer_description_line_length¶
Line length for autoreport descriptions of transformers. -1 means use autodoc_keras_summary_line_length (Number)
默认值 -1
benchmark_mojo_latency¶
Measure MOJO scoring latency (String)
默认值 'auto'
在创建 MOJO 时是否测量 MOJO 评分延迟。
benchmark_mojo_latency_auto_size_limit¶
Max size of pipeline.mojo file (in MB) for when benchmark_mojo_latency is set to ‘auto’ (Number)
默认值 500
Pipeline.mojo 文件的最大大小(单位为 MB),用于 MOJO 评分延迟测量的自动模式
mojo_building_timeout¶
Timeout in seconds to wait for MOJO creation at end of experiment. (Float)
默认值 1800.0
若实验结束时 MOJO 创建超时,仍可从 GUI 或 R/Py 客户端创建 MOJO(超时不适用此情况)。
mojo_building_parallelism¶
Number of parallel workers to use during MOJO creation (-1 = all cores) (Number)
默认值 -1
若 MOJO 创建太慢,增大此值。值越高,创建速度越快,但内存使用更多。若 MOJO 因内存不足创建失败,将此值减小至 1。对于所有物理核心,将此值设置为 -1。
max_workers¶
max_workers (Number)
默认值 1
Driverless AI 服务器池的工作节点最大数量(目前只需要 1 个)
max_cores_dai¶
max_cores_dai (Number)
默认值 -1
在所有 DAI 实验和任务中使用的 CPU 内核最大数量。设为 -1 表示全部可用,stall_subprocess_submission_dai_fork_threshold_count=0 表示限制为内核计数。
stall_subprocess_submission_dai_fork_threshold_count¶
stall_subprocess_submission_dai_fork_threshold_count (Number)
默认值 0
若 DAI 分叉总数超过计数(-1 表示禁用,0 表示自动 max_cores_dai),暂停提交任务
stall_subprocess_submission_mem_threshold_pct¶
stall_subprocess_submission_mem_threshold_pct (Number)
默认值 2
如果可用系统内存小于此百分比阈值(设置为 0 表示禁用),暂停提交任务。在此阈值之上,任何工作节点池中的工作节点数量一旦达到此阈值,就会线性减少至 1。
max_cores_by_physical¶
max_cores_by_physical (Boolean)
默认值 True
是否按物理 (True) 或逻辑 (False) 计数自动设置内核数。由于缓存颠簸,使用所有逻辑内核可能会导致性能低下。
max_cores_limit¶
max_cores_limit (Number)
默认值 100
内核计数的绝对限制
assumed_simultaneous_dt_forks_stats_openblas¶
assumed_simultaneous_dt_forks_stats_openblas (Number)
默认值 1
在摄取期间通过计算统计数据获取的预期最大叉数,用于确保数据表不会使系统超载
max_max_dt_threads_stats_openblas¶
max_max_dt_threads_stats_openblas (Number)
默认值 8
数据表的最大预期线程数,无论是否有更多内核
min_dt_threads_munging¶
min_dt_threads_munging (Number)
默认值 1
数据再处理期间数据表(和 OpenMP)的最小线程数(每个进程)。数据表是 Driverless ai 中使用的主要数据再处理工具(来源:https://github.com/h2oai/datatable)
min_dt_threads_final_munging¶
min_dt_threads_final_munging (Number)
默认值 1
类似于 min_datatable(和 OpenMP)_threads_munging,但用于最终管道再处理
max_dt_threads_do_timeseries_split_suggestion¶
max_dt_threads_do_timeseries_split_suggestion (Number)
默认值 1
在 TS 属性预览面板计算期间,数据表的最大线程数)。
kaggle_username¶
Kaggle username (String)
默认值 ''
用于测试集预测的自动提交和评分的 Kaggle 用户名。请参阅 https://github.com/Kaggle/kaggle-api#api-credentials for details on how to obtain Kaggle API credentials”,
kaggle_key¶
Kaggle key (String)
默认值 ''
用于测试集预测的自动提交和评分的 Kaggle 密钥。请参阅 https://github.com/Kaggle/kaggle-api#api-credentials for details on how to obtain Kaggle API credentials”,
kaggle_timeout¶
Kaggle submission timeout in seconds (Number)
默认值 120
等待 Kaggle API 调用返回给定预测的得分的最大秒数
kaggle_keep_submission¶
Whether to keep Kaggle submission file in experiment directory (Boolean)
默认值 False
kaggle_competitions¶
Custom Kaggle competitions to make automatic test set submissions for. (String)
默认值 ''
若提供此选项,可将列表扩展至未来任意潜在的可供提交的 Kaggle 竞赛。仅在使用 kaggle_key 和 kaggle_username 的情况下使用此选项。提供一个引起来的用逗号分隔的元组列表(目标列名、测试行数、竞赛、指标),如下所示:kaggle_competitions=’(“target”, 200000, “santander-customer-transaction-prediction”, “AUC”), (“TARGET”, 75818, “santander-customer-satisfaction”, “AUC”)’
ping_period¶
ping_period (Number)
默认值 60
由 Driverless AI 服务器 ping 到各个实验的周期(单位为秒)(为了获得日志记录器的信息,如磁盘空间和内存使用情况)。0 表示不打印任何东西。
ping_autodl¶
Whether to enable ping of system status during DAI experiments. (Boolean)
默认值 True
是否 DAI 实验期间启用系统状态的 ping 功能。
disk_limit_gb¶
disk_limit_gb (Number)
默认值 5
运行实验所需的最小磁盘空间 (GB)。如果超过此限值,实验将失败。此限值之所以存在,是因为 Driverless AI 需要为模型生成数据,用于训练特征工程、文档和其他此类进程。
stall_disk_limit_gb¶
stall_disk_limit_gb (Number)
默认值 1
实验期间,在暂停分叉新进程之前所需的最小磁盘空间(单位为 GB)。
memory_limit_gb¶
memory_limit_gb (Number)
默认值 5
启动实验所需的最小系统内存(单位为 GB)。类似于磁盘空间,需要一定数量的系统内存来运行一些基本操作。
min_num_rows¶
Min. number of rows needed to run experiment (Number)
默认值 100
运行实验所需的最小行数(值低于 100 可能无法正常工作)。设置一个最小阈值,确保有足够数据来创建统计意义上可靠的模型,避免其他小数据相关故障。
min_rows_per_class¶
min_rows_per_class (Number)
默认值 5
用于分类问题的各个类标签所需的最小行数(训练数据中)。
min_rows_per_split¶
min_rows_per_split (Number)
默认值 5
生成验证样本时,每次分割所需的最小行数。
reproducibility_level¶
Reproducibility Level (Number)
默认值 1
所需的再现性级别(用于相同的数据和输入)。仅在启用了 ‘可再现’ 模式的情况下激活(已启用 GUI 按钮,或从客户端 API 设置了种子)。支持的级别为:
reproducibility_level = 1,使用相同 O/S,相同 CPU 和相同 GPU 会得出相同实验结果;reproducibility_level = 2,使用相同 O/S,相同 CPU 架构和相同 GPU 架构会得出相同实验结果;reproducibility_level = 3;使用相同 O/S,相同 CPU 架构,不使用 GPU 会得出相同实验结果;reproducibility_level = 4,使用相同 O/S 会得出相同实验结果(尽最大努力)
seed¶
Random seed (Number)
默认值 1234
随机数发生器使用的种子,用于使实验具有可再现性,达到一定的可再现性水平(见上文)。仅在启用 ‘可再现’ 模式时激活(已启用 GUI 按钮,或从客户端 API 设置了种子)。
missing_values¶
missing_values (List)
默认值 ['', '?', 'None', 'nan', 'NA', 'N/A', 'unknown', 'inf', '-inf', '1.7976931348623157e+308', '-1.7976931348623157e+308']
数据导入期间应被解释为缺失值的值列表。适用于数字列和字符串列。请注意,在通过专家设置对该配置应用更改后,必须重新加载数据集。另请注意,’nan’ 始终被解释为数字列的缺失值。
glm_nan_impute_training_data¶
glm_nan_impute_training_data (Boolean)
默认值 False
是否针对训练数据为 GLM 插补(至平均值)。
glm_nan_impute_validation_data¶
glm_nan_impute_validation_data (Boolean)
默认值 False
是否针对验证数据为 GLM 插补(至平均值)。
glm_nan_impute_prediction_data¶
glm_nan_impute_prediction_data (Boolean)
默认值 True
是否针对预测数据(要与 MOJO 保持一致,必需提供)为 GLM 插补(至平均值)
tf_nan_impute_value¶
tf_nan_impute_value (Number)
默认值 -5
对于 tensorflow,应给缺失的值赋什么数值,其中的数值是标准化的。0 表示分布中心,若是正态分布,则 +-5 表示离中心 5 个标准偏差的距离。许多情况下,越界值是表示缺失的一种好方法,但某些情况下,均值 (0) 可能更适合。
statistical_threshold_data_size_small¶
statistical_threshold_data_size_small (Number)
默认值 100000
行数 x 列数的内部阈值,用于触发某些统计技术(小数据插件,如为所有模型类型包括一个热编码,以及较小的学习率),以提高模型精度
statistical_threshold_data_size_large¶
statistical_threshold_data_size_large (Number)
默认值 500000000
行数 x 列数的内部阈值,用于触发某些统计技术(创建更少的基因、删除树模型的高 max_depth 值等),以加快建模速度。另外,通过对 statistical_threshold_data_size_large/列数行数进行采样,还可以控制在训练最终模型中使用的最大行数
aux_threshold_data_size_large¶
aux_threshold_data_size_large (Number)
默认值 10000000
行数 x 列数的内部阈值,用于触发辅助数据采样,例如不平衡的数据集检测和自助法评分样本大小和迭代
set_method_sampling_row_limit¶
set_method_sampling_row_limit (Number)
默认值 5000000
基于集合的无替换采样方法的内部阈值。速度可能达到是 np_random_choice 内部优化方法的 10 倍,最快可能达到 np_random .choice 从 1B 行采样到 250k 行的方法的 30 倍等。
performance_threshold_data_size_small¶
performance_threshold_data_size_small (Number)
默认值 100000
行数 x 列数的内部阈值,用于触发某些性能变化(如果超过较大值,线程数会减少),以帮助避免 OOM 或不必要的降速(如果低于较小值,线程数会减少),防止出现过多的任务分叉
performance_threshold_data_size_large¶
performance_threshold_data_size_large (Number)
默认值 100000000
行数 x 列数的内部阈值,用于触发某些性能变化(如果超过较大值,线程数会减少),以帮助避免 OOM 或不必要的降速(如果低于较小值,线程数会减少),防止出现过多的任务分叉
max_relative_cols_mismatch_allowed¶
max_relative_cols_mismatch_allowed (Float)
默认值 0.5
在训练与有效/测试之间允许的不匹配列的最大分数。超过此值,实验将因无效数据错误而失败。
max_cols¶
max_cols (Number)
默认值 10000000
启动实验的最大列数。此阈值用于限制 Driverless AI 进程的 # 复杂性和长度。
max_rows_col_stats¶
max_rows_col_stats (Number)
默认值 1000000
用于列统计数据的最大行数,否则随机采样
max_rows_cv_in_cv_gini¶
max_rows_cv_in_cv_gini (Number)
默认值 100000
执行 gini 评分测试时,cv 中用于目标编码的最大行数
max_rows_constant_model¶
max_rows_constant_model (Number)
默认值 1000000
用于常量模型拟合的最大行数,否则随机采样
max_rows_final_ensemble_base_model_fold_scores¶
max_rows_final_ensemble_base_model_fold_scores (Number)
默认值 1000000
用于最终集成基本模型折叠内核的最大行数,否则随机采样
max_rows_final_blender¶
max_rows_final_blender (Number)
默认值 1000000
用于最终集成混合器的最大行数,否则随机采样
max_rows_final_train_score¶
max_rows_final_train_score (Number)
默认值 5000000
用于最终训练得分(无保持)的最大行数,否则随机采样
max_rows_final_roccmconf¶
max_rows_final_roccmconf (Number)
默认值 1000000
用于最终 ROC、提升增益、混淆矩阵、残差和实际值与预测值的最大行数。否则随机采样
max_rows_final_holdout_score¶
max_rows_final_holdout_score (Number)
默认值 5000000
用于最终保持得分的最大行数,否则随机采样
max_rows_final_holdout_bootstrap_score¶
max_rows_final_holdout_bootstrap_score (Number)
默认值 1000000
用于最终保持自助得分的最大行数,否则随机采样
max_rows_leak¶
Max. rows for leakage detection if wide rules used on wide data (Number)
默认值 100000
max_workers_fs¶
Num. simultaneous predictions for feature selection (0 = auto) (Number)
默认值 0
预测阶段的排列需要使用多少工作节点进行特征选择。(0 = 自动,> 0:DAI 最小值和此值,< 0:此值的负值)
max_workers_shift_leak¶
Num. simultaneous fits for shift and leak checks if using LightGBM on CPU (0 = auto) (Number)
默认值 0
若在 CPU 上使用 LightGBM,使用多少工作节点进行位移和泄露检查。(0 = 自动,> 0:DAI 最小值和此值,< 0:此值的负值)
num_folds¶
num_folds (Number)
默认值 3
特征工程进程中使用的模型的折叠次数。增大此值将使验证数据的占比降低,而训练数据的占比增加(例如,num_folds=3 意味着 67%/33% 的训练/验证划分比例)。对于小数据或大数据,实际值会有所不同。
fold_balancing_repeats_times_rows¶
fold_balancing_repeats_times_rows (Float)
默认值 100000000.0
max_fold_balancing_repeats¶
max_fold_balancing_repeats (Number)
默认值 10
fixed_split_seed¶
fixed_split_seed (Number)
默认值 0
show_fold_stats¶
show_fold_stats (Boolean)
默认值 True
allow_different_classes_across_fold_splits¶
Allow different sets of classes across all train/validation fold splits (Boolean)
默认值 True
仅针对多类问题。是否允许跨(交叉)验证折叠拆分使用不同的目标类集。在传递类分布不平衡的折叠列时,此设置尤为重要。
full_cv_accuracy_switch¶
full_cv_accuracy_switch (Number)
默认值 9
Accuracy 设置等于或大于此默认值时,在特征演化过程中启用完全交叉验证(多次折叠),而非仅进行一次保持拆分(例如 2/3 训练和 1/3 验证保持)
ensemble_accuracy_switch¶
ensemble_accuracy_switch (Number)
默认值 5
Accuracy 设置等于或大于设定值时,会使堆叠集成成为最终模型。特征演化进程结束时开始堆叠。它通常会提高模型性能,但它也会增加最终模型的复杂性和执行时间。
num_ensemble_folds¶
num_ensemble_folds (Number)
默认值 4
ensemble_level >= 2 时使用的折叠拆分数量。集成建模可能需要对折叠外样本进行预测,因此需要在不同折叠上对数据进行拆分,以生成这些预测。折叠越少(如 2 或 3),创建的模型通常会更稳定,但准确度可能变低。折叠越多,准确度越高,代价是花费时间增多,但在训练数据不足的情况下性能可能不太稳定(即过拟合机会更高)。对于小数据或大数据,实际值会有所不同。
save_validation_splits¶
Store internal validation split row indices (Boolean)
默认值 False
在实验摘要压缩包中包含所有内部验证折叠的元组(原始训练数据的 numpy 行索引)的 pickle(train_idx、valid_idx)。用于调试。
fold_reps¶
fold_reps (Number)
默认值 1
用于所有验证的每次折叠的重复次数(对于小数据或大数据,会稍作修改)
max_num_classes_hard_limit¶
max_num_classes_hard_limit (Number)
默认值 10000
max_num_classes¶
Max. number of classes for classification problems (Number)
默认值 200
分类问题允许的最大类数。类数越高,Driverless AI 的某些进程耗时可能就越长。内存需求也会因此而增加。
max_num_classes_compute_roc¶
Max. number of classes to compute ROC and confusion matrix for classification problems (Number)
默认值 200
用于计算 ROC 和 CM 的最大类数,超出此值,则应用 roc_reduce_type 选择进行删减。若类太多,花费时间会比模型构建时间更长。
max_num_classes_client_and_gui¶
Max. number of classes to show in GUI for confusion matrix (Number)
默认值 10
GUI 中显示的混淆矩阵的最大类数,显示第一个 max_num_classes_client_and_gui 标签。除了 6 个类之外,从 GUI 启动的诊断在视觉上被截断。如果在 config.toml 中更改了此值并重启了服务器,这将仅修改客户端 GUI 启动的诊断,同时可在专家设置中更改此值,以控制实验绘图。
roc_reduce_type¶
ROC/CM reduction technique for large class counts (String)
默认值 'rows'
若计算 roc 时有太多类,可按 “行数” 减少随机采样行数,或通过截断类减少至不超过 max_num_classes_compute_roc。若有足够行数进行类计数,可按行数减少。
min_roc_sample_size¶
min_roc_sample_size (Number)
默认值 1
max_rows_cm_ga¶
Maximum number of rows to obtain confusion matrix related plots during feature evolution (Number)
默认值 500000
用于在特征演变期间获得混淆矩阵相关绘图的最大行数。此选项并不会限制最终模型计算。
num_actuals_vs_predicted¶
num_actuals_vs_predicted (Number)
默认值 100
实际数据点与预测数据点的数量,用于在实验中生成显示在屏幕右侧的相关绘图/图表。
use_feature_brain_new_experiments¶
Whether to use Feature Brain for new experiments. (Boolean)
默认值 False
- 是否使用 feature_brain 结果(即使运行新实验)。
对实验设置进行某些类型的更改可能会对特征大脑造成风险。甚至重新评分也可能不够,所以此选项默认为 False。例如,实验可能偶然有 training=externa 验证并且获得高分,虽然 feature_brain_reset_score=’on’ 意味着我们将重新评分,但在训练外部验证期间将被看到,并将该数据作为其了解部分内容泄露出去。如果此选项为 False, feature_brain_level 只设置可能使用的模型,并进行记录/通知,但不会使用这些特征大脑缓存模型。
feature_brain_level¶
Model/Feature Brain Level (0..10) (Number)
默认值 2
是否显示(或使用)来自 H2O.ai 大脑的结果:对之前的实验执行本地缓存和智能重复使用,以便为新实验生成更多有用特征和模型。请参见 use_feature_brain_new_experiments,了解新实验如何默认不使用大脑缓存。此选项还可用于控制已暂停或中断的实验的检查点。如果缓存文件具有以下特征,DAI 会使用 H2O.ai 大脑缓存:a) 任何匹配的列名称和类型,用于类似实验类型 b) 完全匹配类 c) 完全匹配类标签 d) 匹配基本 Time Series 选择 e) 缓存的可解释性相同或更低 f) 新实验允许使用主模型(提升)。使用的大脑级别(用于选定级别,其中高级别也会自动完成所有低级别操作)-1 = 不使用任何大脑缓存,也不写入任何缓存 0 = 不使用任何大脑缓存,但仍然写入缓存
用例:想要保存模型留待后用,但想要不使用任何大脑模型构建当前模型
- 1 = 来自最新的最佳个体模型的智能检查点
用例:想要使用最新的匹配模型,但匹配可能不严谨,因此需要注意
- 2 = 来自个体最佳模型的 H2O.ai 大脑缓存的智能检查点
用例:DAI 扫描整个 H2O.ai 大脑缓存,寻找重启所用的最佳模型
- 3 = 智能检查点(类似于 1 级),但仅对整个群体设置。仅在大脑群体大小不够时才进行调优。
(将在单次迭代中对整个群体重新进行评分,因此完成首次迭代所需的时间看起来会更长)
- 4 = 智能检查点(类似于 2 级),但仅对整个群体设置。仅在大脑群体大小不够时才进行调优。
(将在单次迭代中对整个群体重新进行评分,因此完成首次迭代所需的时间看起来会更长)
- 5 = 类似于 4 级,但将扫描群体的整个大脑缓存,以获取最佳得分的个体
(若缓存很大,由于大脑缓存扫描之故,处理速度会较慢)
- 1000 + feature_brain_level(上述正值)= 使用 resumed_experiment_id 和实际 feature_brain_level,
以将其他特定的实验作为个体或群体的基础,而非从任何旧实验中采样
GUI 有 3 个选项和对应设置:1) 新实验:使用默认 2 级特征大脑 2) 使用相同设置的新实验:重复使用与父级实验相同的特征大脑级别 3) 从上一个检查点重启:将特征大脑级别重置为 1003 并设置要从中恢复的实验 ID
(继续遗传算法迭代)
重新训练最终管道:类似于 Restart,但 time=0,因此会跳过所有调优,直接进入最终模型(假设父级实验中有至少一个调优迭代)
其他用例:a) 使用不同数据重启:使用相同的列名称和较少或较多的行数(适用于 1 - 5) b) 仅重新拟合最终管道:类似于 (a),但选择 time=1,且 feature_brain_level=3 - 5 c) 使用更多列重启:添加列,使模型根据使用旧列名称 (1 - 5) 构建的旧模型进行构建 d) 重启时注重模型调优:重启,然后在专家设置中选择 feature_engineering_effort = 3 e) 可以重新训练最终模型,但忽略除最终管道中的特征之外的任何原始特征(正常重新训练,但设置 brain_add_features_for_new_columns=false)注意:1) 所有情况下,首先检查恢复的实验(若给出),然后是大脑缓存 2) 对于重启情况,可能需要将 min_dai_iterations 设置为非零值,以强制实施延迟早停法,否则可能没有足够迭代来查找更好的模型。3) 重启的 “使用相同设置的新实验” 会将 feature_brain_level=1003 用于默认重启模式(恢复至 2,甚至若是要以其他方式启动全新实验,可设置为 0)
feature_brain_reset_score¶
Whether to re-score models from brain cache (String)
默认值 'auto'
- 是否智能保留分数以避免重新处理/重新训练/重新评分步骤:
大脑模型(“自动”)始终强制所有大脑导入执行所有步骤(“开启”),或永不重新评分(“关闭”)。“自动”仅在当前实验与之前实验的差异需要重新评分时才会重新评分,比如列更改、指标更改。当智能相似性检查不够可靠时,“开启”很有用。当想要最终模型调整保持完全相同的特征和模型,“关闭”很有用,但如果在到达最终模型之前重新评分,特征中种子或其他行为的更改可能会导致结果发生更改。如果设置为关闭,则在大脑摄入期间不会对特征应用限制,而如果想忽略数据中的任何新列,则可以将 brain_add_features_for_new_columns 设置为 false。如果想要使用完全相同的最佳个体(分数最高的模型+特征),而不考虑任何得分变化,也可以将 refit_same_best_individual 设置为 True。
enable_strict_confict_key_check_for_brain¶
enable_strict_confict_key_check_for_brain (Boolean)
默认值 True
allow_change_layer_count_brain¶
For feature brain or restart/refit, whether to allow brain ingest to use different feature engineering layer count. (Boolean)
默认值 False
brain_maximum_diff_score¶
brain_maximum_diff_score (Float)
默认值 0.1
必须在当前参考个体和大脑个体之间匹配的相对列数。0.0:完美匹配 1.0:所有列都不同,最糟的匹配,例如 0.1 意味着参考列集和大脑个体之间不超过 10% 的列不匹配。
max_num_brain_indivs¶
max_num_brain_indivs (Number)
默认值 3
feature_brain_level=1, 2 时,从 H2O.ai 大脑缓存里提取的最大大脑个体数
feature_brain_save_every_iteration¶
Feature Brain Save every which iteration (0 = disable) (Number)
默认值 0
保存特征大脑迭代,每次 iter_num % feature_brain_iterations_save_every_iteration == 0,以便在 which_iteration_brain >= 0 时能进行重启/调整。将值设置为 0 即表示禁用
which_iteration_brain¶
Feature Brain Restart from which iteration (-1 = auto) (Number)
默认值 -1
在使用 resumed_experiment_id 执行重启或重新拟合类型 feature_brain_level 时,选择从哪个迭代启动,而非仅从上一个最好的迭代启动。-1 表示仅使用上一个最好的迭代 使用方法:1) 使用 feature_brain_iterations_save_every_iteration=1 或其他一些数字运行一个实验 2) 确定要从哪个迭代大脑转储重启/重新拟合 3) 从原始实验重启/重新拟合,在专家设置中将 which_iteration_brain 设置为该数字。注意:若从调优迭代中重启,这将拉入整个已评分的调优群体,并将其用于特征演化
refit_same_best_individual¶
Feature Brain refit uses same best individual (Boolean)
默认值 False
从特征大脑执行重新拟合时,如果更改列或特征,用于重新拟合的个体数可能会改变曾经的最佳顺序,从而选择更好的结果(False 情况)。但您有时会希望看到完全相同的模型/特征且仅增加一个特征,则需要将其设置为 True 情况。例如,如果重新拟合后仅额外增加 1 列且解释性=1,则最终模型将为相同特征,同时将有一个额外工程特征应用于新的原始特征上。
restart_refit_redo_origfs_shift_leak¶
For restart-refit, select which steps to do (List)
默认值 []
从特征大脑重启或重新拟合实验时,用户有时可能会对数据进行大幅更改,然后需要通过特征选择、位移检测、泄漏检测对原始特征重做还原。但在其他情况下,如果数据和所有选项几乎(或完全)相同,这些步骤则可能轻微更改特征(例如,如果未设置可再现模式,由于随机数种子导致),从而导致重新拟合后的特征和模型发生更改。假设数据和实验设置没有发生明显更改,重启和调整会默认避免这些步骤。如果 check_distribution_shift 被强制开启(而不是自动),则忽略此选项。为确保拟合完全相同的最终管道,还应设置:1) brain_add_features_for_new_columns = false 2) refit_same_best_individual = true 3) feature_brain_reset_score = ‘off’ 4) force_model_restart_to_defaults = false 如果所选实验指标发生更改,分数仍将重置,但对评分模型和特征的更改将更加固定。
brain_rel_dir¶
brain_rel_dir (String)
默认值 'H2O.ai_brain'
相对于 data_directory 的目录,用于存储 H2O.ai 大脑元模型文件
brain_max_size_GB¶
brain_max_size_GB (Number)
默认值 20
大脑将存储的最大字节数。我们保留此内存,用于保存数据,以确保我们能够在实验因为因故中断时检索到它。-1:无限 >=0 大脑限制至的 GB 数
brain_add_features_for_new_columns¶
Feature Brain adds features with new columns even during retraining final model (Boolean)
默认值 True
是否在管道中使用任何新列和添加额外特征,即使执行重新训练最终模型也如此。在某些情况下,您可能有一个新的数据集,但只想保持相同的管道,而无论是否有新列,在这种情况下,可以将此选项设置为 False。例如,由于位移或泄漏检测,新数据可能导致新特征删除。为避免特征集发生更改,可以禁用所有列删除,但将此选项设置为 False 可避免将任何列添加为新特征,这样在更改数据时就可以完美地保留管道。
force_model_restart_to_defaults¶
Restart-refit use default model settings if model switches (Boolean)
默认值 True
如果重启/调整且原始模型类不再适用,请谨慎操作,返回该模型类的默认设置。如果设置为 False,则会尝试保持原始超参数,但通常会失败。
early_stopping¶
early_stopping (Boolean)
默认值 True
是否启用早停法。早停法是指在一定次数的迭代后,若无性能提升,则停止特征演化/工程进程。触发早停法之后,Driverless AI 将启动集成进程(若选定)。
early_stopping_per_individual¶
early_stopping_per_individual (Boolean)
默认值 True
是否逐个个体启用早停法。如果没有改善,遗传算法中的每个个体都将提前停止,并且不再发生突变。而最佳个体将进行额外的突变。
min_dai_iterations¶
Min. DAI iterations (Number)
默认值 0
指定停止特征演化/工程进程之前 Driverless AI 迭代必须执行的最小次数(即使得分没有提高)。Driverless AI 至少需要运行这么多次迭代才能决定停止。这可以看作是防止次优(提早)收敛的一种保障措施。
tensorflow_nlp_have_gpus_in_production¶
tensorflow_nlp_have_gpus_in_production (Boolean)
默认值 False
bert_migration_timeout_secs¶
bert_migration_timeout_secs (Number)
默认值 600
enable_bert_transformer_acceptance_test¶
enable_bert_transformer_acceptance_test (Boolean)
默认值 False
enable_bert_model_acceptance_test¶
enable_bert_model_acceptance_test (Boolean)
默认值 False
string_col_as_text_min_relative_cardinality¶
string_col_as_text_min_relative_cardinality (Float)
默认值 0.1
将字符串列视为可能文本(否则为分类)的最小唯一值比例
string_col_as_text_min_absolute_cardinality¶
string_col_as_text_min_absolute_cardinality (Number)
默认值 10000
指定将字符串列视为可能文本(如果还不是)的最小唯一值数量
supported_image_types¶
supported_image_types (List)
默认值 ['jpg', 'jpeg', 'png', 'bmp', 'ppm', 'tif', 'tiff', 'JPG', 'JPEG', 'PNG', 'BMP', 'PPM', 'TIF', 'TIFF']
支持的图像类型。以这些类型结尾的 URI 将被视为图像路径(本地或远程)。
image_paths_absolute¶
image_paths_absolute (Boolean)
默认值 False
导入包含图像的数据集时,是否为图像创建绝对路径。便于测试或重用框架进行评分。
text_dl_token_pad_percentile¶
text_dl_token_pad_percentile (Number)
默认值 99
Nlp 深度学习模型的输入文本令牌长度的百分位值截止
text_dl_token_pad_max¶
text_dl_token_pad_max (Number)
默认值 512
Nlp 深度学习模型中使用的输入文本的最大令牌长度
tune_parameters_accuracy_switch¶
tune_parameters_accuracy_switch (Number)
默认值 3
Accuracy 设置,等于或大于此值时,启用模型参数调优。仅在 parameter_tuning_num_models=-1 时适用(自动)
tune_target_transform_accuracy_switch¶
tune_target_transform_accuracy_switch (Number)
默认值 5
Accuracy 设置,等于或大于此值时,启用对目标转换的调优以用于回归。如果比起预测实际目标值,预测转换后的目标变量(如 sqrt(target) 或 log(target))会更好,则此设置作为一种控制 Outliers 的手段,适用于Time Series。
target_transformer¶
Select target transformation of the target for regression problems (String)
默认值 'auto'
为回归问题选择一种目标转换。必须是以下之一:[‘auto’, ‘identity’, ‘identity_noclip’, ‘center’, ‘standardize’, ‘unit_box’, ‘log’, ‘log_noclip’, ‘square’, ‘sqrt’, ‘double_sqrt’, ‘inverse’, ‘anscombe’, ‘logit’, ‘sigmoid’]。如果设置为 ‘auto’,将自动挑选最佳目标转换器(若 Accuracy 设置为 tune_target_transform_accuracy_switch 或更大,考虑各个目标转换器的可解释性水平),否则将退回到 ‘identity_no_clip’(最容易解释,Shapley 值处于原始空间中,等等)。除 ‘center’、’standardize’、’identity_noclip’ 和 ‘log_noclip’ 之外的所有转换器都执行裁剪,以将预测限制到训练数据中的目标域内。使用 ‘center’、’standardize’、’identity_noclip’ 或 ‘log_noclip’ 禁用裁剪,以及允许在训练数据中观察到的目标域之外执行预测(对支持外推的参数化模型或自定义模型)。
target_transformer_tuning_choices¶
Select all allowed target transformations of the target for regression problems when doing target transformer tuning (List)
默认值 ['identity', 'identity_noclip', 'center', 'standardize', 'unit_box', 'log', 'square', 'sqrt', 'double_sqrt', 'anscombe', 'logit', 'sigmoid']
选择要用于调优的目标转换器列表。仅适用于 target_transformer=’auto’ 和 Accuracy >= tune_target_transform_accuracy_switch 的情况。
tournament_style¶
Tournament model for genetic algorithm (String)
默认值 'auto'
联赛风格(用于确定每次迭代中最佳模型的方法)’auto’:基于准确度和可解释性进行选择 ‘uniform’:群体中的所有个体进行竞争,争取成为最佳个体(可能导致所有个体都成为最佳个体,例如最终集成中的 LightGBM 模型,可能会因缺少多样性而未能改进集成性能) ‘model’:模型类型相同的个体进行竞争(如果多个模型性能较好,但某些性能不太好的模型仍可帮助改进集成性能,则此选项适用) ‘feature’:特征类型类似的个体进行竞争(如果目标编码、频率编码和其他特征集可以导致良好的结果,则此选项适用) ‘fullstack’:在最优模型和特征类型中进行选择,’model’ 和 ‘feature’ 样式为每种类型保留至少一个获胜者(因此在突变后,每种类型共有 2 个独立个体)。对于每种情况,我们使用一种轮询调度方法来从各种模型类型中选择最佳得分。如果 enable_genetic_algorithm==’Optuna’,则在遗传算法执行期间,每个个体都会自我突变,无需任何联赛。联赛仅用于修剪掉个体,例如调优 -> 演变和演变 -> 最终模型。
tournament_uniform_style_interpretability_switch¶
tournament_uniform_style_interpretability_switch (Number)
默认值 8
若可解释性超过此设置,将使用 ‘uniform’ 联赛风格
tournament_uniform_style_accuracy_switch¶
tournament_uniform_style_accuracy_switch (Number)
默认值 6
如果 tournament_style = ‘auto’,当 Accuracy 低于设定值时,将使用统一的样式(无论其他准确度联赛样式切换值如何)
tournament_model_style_accuracy_switch¶
tournament_model_style_accuracy_switch (Number)
默认值 6
如果 tournament_style = ‘auto’,当 Accuracy 等于或高于设定值时,将使用模型样式
tournament_feature_style_accuracy_switch¶
tournament_feature_style_accuracy_switch (Number)
默认值 13
如果 tournament_style = ‘auto’,当 Accuracy 等于或高于设定值时,将使用特征样式
tournament_fullstack_style_accuracy_switch¶
tournament_fullstack_style_accuracy_switch (Number)
默认值 13
如果 tournament_style = ‘auto’,当 Accuracy 等于或高于设定值时,将使用全栈
tournament_use_feature_penalized_score¶
tournament_use_feature_penalized_score (Boolean)
默认值 True
GA 联赛使用处罚分数还是实际分数
num_individuals¶
num_individuals (Number)
默认值 2
Driverless AI 使用遗传算法 (GA) 查找最佳特征、最佳模型和这些模型的最佳超参数。GA 有助于获得良好的结果,而无需运行/尝试每一个可能的模型/特征/参数。这个版本的 GA 包含强化学习元素 - 它使用一种探索-开发的方式获取最优解。这意味着它将利用运行看上去较为良好的模型/功能/参数,并继续进一步开发它们的价值,同时留出一些空间来尝试新的(和半随机的)模型/功能/参数,避免在获得局部最低效果时就止步不前。尝试的这些模型/特征/参数即是我们所谓的群体中的个体。个体更多,意味着要尝试和竞争的模型/特征/参数越多,才能找到最好的。
fixed_fold_reps¶
fixed_fold_reps (Number)
默认值 0
设置折叠重复的固定数量(如果 > 0)- 用于快速运行,无论数据情况如何
sanitize_natural_sort_limit¶
sanitize_natural_sort_limit (Number)
默认值 1000
指定完成多少次独有目标或折叠计数之后,切换到更快/更简单的非自然排序并打印出来
excluded_transformers¶
Exclude specific transformers (List)
默认值 []
- Included_transformers 的辅助设置
例如,要禁用所有目标编码:excluded_transformers = ‘[‘NumCatTETransformer’, ‘CVTargetEncodeF’, ‘NumToCatTETransformer’, ‘ClusterTETransformer’]’。不影响用于通过 included_pretransformers 进行预处理的转换器。
excluded_genes¶
Exclude specific genes (List)
默认值 []
排除基因列表(即不使用的基因(构建于转换器顶部),与解释性设置无关)一些转换器是由多个基因使用的,因此允许对特征工程进行不同的控制
用于多类:’[‘InteractionsGene’, ‘WeightOfEvidenceGene’, ‘NumToCatTargetEncodeSingleGene’, ‘OriginalGene’, ‘TextGene’, ‘FrequentGene’, ‘NumToCatWeightOfEvidenceGene’, ‘NumToCatWeightOfEvidenceMonotonicGene’, ‘ CvTargetEncodeSingleGene’, ‘DateGene’, ‘NumToCatTargetEncodeMultiGene’, ‘ DateTimeGene’, ‘TextLinRegressorGene’, ‘ClusterIDTargetEncodeSingleGene’, ‘CvCatNumEncodeGene’, ‘TruncSvdNumGene’, ‘ClusterIDTargetEncodeMultiGene’, ‘NumCatTargetEncodeMultiGene’, ‘CvTargetEncodeMultiGene’, ‘TextLinClassifierGene’, ‘NumCatTargetEncodeSingleGene’, ‘ClusterDistGene’]’
用于回归/二元:’[‘CvTargetEncodeSingleGene’, ‘NumToCatTargetEncodeSingleGene’, ‘CvCatNumEncodeGene’, ‘ClusterIDTargetEncodeSingleGene’, ‘TextLinRegressorGene’, ‘CvTargetEncodeMultiGene’, ‘ClusterDistGene’, ‘OriginalGene’, ‘DateGene’, ‘ClusterIDTargetEncodeMultiGene’, ‘NumToCatTargetEncodeMultiGene’, ‘NumCatTargetEncodeMultiGene’, ‘TextLinClassifierGene’, ‘WeightOfEvidenceGene’, ‘FrequentGene’, ‘TruncSvdNumGene’, ‘InteractionsGene’, ‘TextGene’, ‘DateTimeGene’, ‘NumToCatWeightOfEvidenceGene’, ‘NumToCatWeightOfEvidenceMonotonicGene’, ‘’NumCatTargetEncodeSingleGene’]’
此列表显示在实验日志中(搜索 ‘Genes used’),例如用于禁用交互基因,用例:excluded_genes = ‘[‘InteractionsGene’]’。不影响用于通过 included_pretransformers 进行预处理的转换器。
excluded_models¶
Exclude specific models (List)
默认值 []
Included_models 的辅助设置
excluded_pretransformers¶
Exclude specific pretransformers (List)
默认值 []
included_pretransformers 的辅助设置
include_all_as_pretransformers_if_none_selected¶
include_all_as_pretransformers_if_none_selected (Boolean)
默认值 False
force_include_all_as_pretransformers_if_none_selected¶
force_include_all_as_pretransformers_if_none_selected (Boolean)
默认值 False
excluded_datas¶
Exclude specific data recipes (List)
默认值 []
Included_datas 的辅助设置
excluded_individuals¶
Exclude specific individual recipes (List)
默认值 []
Auxiliary to included_individuals
excluded_scorers¶
Exclude specific scorers (List)
默认值 []
Included_scorers 的辅助设置
enable_glm_rapids¶
Enable RAPIDS-cudf extensions to GLM (Boolean)
默认值 False
是否启用 GLM 模型的 RAPIDS 扩展名(在 xgboost 1.3.0 未修复之前不可用)
use_dask_for_1_gpu¶
use_dask_for_1_gpu (Boolean)
默认值 False
是否使用 dask_cudf,即使只是 1 GPU。若为 False,将使用纯 cudf。
dask_retrials_allreduce_empty_issue¶
dask_retrials_allreduce_empty_issue (Number)
默认值 5
为防止出现已知的 xgboost 问题,Dask 拟合需要的再试验次数 https://github.com/dmlc/xgboost/issues/6272 https://github.com/dmlc/xgboost/issues/6551
optuna_pruner_kwargs¶
Set Optuna pruner constructor args. (Dict)
默认值 {'n_startup_trials': 5, 'n_warmup_steps': 20, 'interval_steps': 20, 'percentile': 25.0, 'min_resource': 'auto', 'max_resource': 'auto', 'reduction_factor': 4, 'min_early_stopping_rate': 0, 'n_brackets': 4, 'min_early_stopping_rate_low': 0, 'upper': 1.0, 'lower': 0.0}
为特别适用的修剪器设置 Optuna 构造器参数。https://optuna.readthedocs.io/en/stable/reference/pruners.html
optuna_sampler_kwargs¶
Set Optuna sampler constructor args. (Dict)
默认值 {}
为特别适用的采样器设置 Optuna 构造器参数。https://optuna.readthedocs.io/en/stable/reference/samplers.html
use_xgboost_xgbfi¶
use_xgboost_xgbfi (Boolean)
默认值 False
是否为 xgboost 使用 xgbfi 特征交互(预期存在)。
drop_constant_model_final_ensemble¶
drop_constant_model_final_ensemble (Boolean)
默认值 True
xgboost_rf_exact_threshold_num_rows_x_cols¶
xgboost_rf_exact_threshold_num_rows_x_cols (Number)
默认值 10000
lossguide_drop_factor¶
Factor by which to drop max_leaves from effective max_depth value when doing loss_guide. E.g. if max_depth is normally 12, this makes leaves 2**11 not 2**12 (Float)
默认值 4.0
lossguide_max_depth_extend_factor¶
Factor by which to extend max_depth mutations when doing loss_guide. E.g. if max_leaves ends up as x let max_depth be factor * x. (Float)
默认值 8.0
params_lightgbm¶
params_lightgbm (Dict)
默认值 {}
LightGBM 用于覆盖 DAI 参数的参数,例如应使用 ‘eval_metric’ 而非 ‘metric’。例如 params_lightgbm = “{‘objective’: ‘binary’, ‘n_estimators’: 100, ‘max_leaves’: 64, ‘random_state’: 1234}” 例如 params_lightgbm = “{‘n_estimators’: 600, ‘learning_rate’: 0.1, ‘reg_alpha’: 0.0, ‘reg_lambda’: 0.5, ‘gamma’: 0, ‘max_depth’: 0, ‘max_bin’: 128, ‘max_leaves’: 256, ‘scale_pos_weight’: 1.0, ‘max_delta_step’: 3.469919910597877, ‘min_child_weight’: 1, ‘subsample’: 0.9, ‘colsample_bytree’: 0.3, ‘tree_method’: ‘gpu_hist’, ‘grow_policy’: ‘lossguide’, ‘min_data_in_bin’: 3, ‘min_child_samples’: 5, ‘early_stopping_rounds’: 20, ‘num_classes’: 2, ‘objective’: ‘binary’, ‘eval_metric’: ‘binary’, ‘random_state’: 987654, ‘early_stopping_threshold’: 0.01, ‘monotonicity_constraints’: False, ‘silent’: True, ‘debug_verbose’: 0, ‘subsample_freq’: 1}” 避免包括 “系统” 级参数,例如 ‘n_gpus’: 1, ‘gpu_id’: 0, , ‘n_jobs’: 1, ‘booster’: ‘lightgbm’ 另外也应避免如下参数:’objective’: ‘binary’,除非确实胸有成竹(例如替代目标)请参阅:https://xgboost.readthedocs.io/en/latest/parameter.html 另请参阅:https://github.com/Microsoft/LightGBM/blob/master/docs/Parameters.rst 若选择(或自动选择了)某些目标,也可传递目标参数 https://lightgbm.readthedocs.io/en/latest/Parameters.html#metric-parameters
params_xgboost¶
params_xgboost (Dict)
默认值 {}
XGBoost 用于覆盖 DAI 参数的参数,与 lightgbm 参数类似,因为 lightgbm 参数是从 xgboost 的等效版本转录过来,例如 params_xgboost = “{‘n_estimators’: 100, ‘max_leaves’: 64, ‘max_depth’: 0, ‘random_state’: 1234}” 请参阅:https://xgboost.readthedocs.io/en/latest/parameter.html
params_dart¶
params_dart (Dict)
默认值 {}
类似于 params_xgboost,但适用于 XGBoost 的 dart 方法
params_gblinear¶
params_gblinear (Dict)
默认值 {}
XGBoost 的 gblinear 用于覆盖 DAI 参数的参数,例如 params_gblinear = “{‘n_estimators’: 100}” 请参阅:https://xgboost.readthedocs.io/en/latest/parameter.html
params_decision_tree¶
params_decision_tree (Dict)
默认值 {}
Decision Tree 用于覆盖 DAI 参数的参数,应是 XGBoost 等效参数(除非使用唯一 LightGBM 参数) 例如应使用 ‘eval_metric’ 而非 ‘metric’。例如 params_decision_tree = “{‘objective’: ‘binary’, ‘n_estimators’: 100, ‘max_leaves’: 64, ‘random_state’: 1234}” 例如 params_decision_tree = “{‘n_estimators’: 1, ‘learning_rate’: 1, ‘reg_alpha’: 0.0, ‘reg_lambda’: 0.5, ‘gamma’: 0, ‘max_depth’: 0, ‘max_bin’: 128, ‘max_leaves’: 256, ‘scale_pos_weight’: 1.0, ‘max_delta_step’: 3.469919910597877, ‘min_child_weight’: 1, ‘subsample’: 0.9, ‘colsample_bytree’: 0.3, ‘tree_method’: ‘gpu_hist’, ‘grow_policy’: ‘lossguide’, ‘min_data_in_bin’: 3, ‘min_child_samples’: 5, ‘early_stopping_rounds’: 20, ‘num_classes’: 2, ‘objective’: ‘binary’, ‘eval_metric’: ‘logloss’, ‘random_state’: 987654, ‘early_stopping_threshold’: 0.01, ‘monotonicity_constraints’: False, ‘silent’: True, ‘debug_verbose’: 0, ‘subsample_freq’: 1}” 避免包括 “系统” 级参数,例如 ‘n_gpus’: 1, ‘gpu_id’: 0, , ‘n_jobs’: 1, ‘booster’: ‘lightgbm’ 另外也应避免如下参数:’objective’: ‘binary:logistic’,除非确实胸有成竹(例如替代目标)请参阅:https://xgboost.readthedocs.io/en/latest/parameter.html 另请参阅:https://github.com/Microsoft/LightGBM/blob/master/docs/Parameters.rst 若选择(或自动选择了)某些目标,也可传递目标参数 https://lightgbm.readthedocs.io/en/latest/Parameters.html#metric-parameters
params_rulefit¶
params_rulefit (Dict)
默认值 {}
Rulefit 用于覆盖 DAI 参数的参数,例如 e.g. params_rulefit = “{‘max_leaves’: 64}” 请参阅: https://xgboost.readthedocs.io/en/latest/parameter.html
params_ftrl¶
params_ftrl (Dict)
默认值 {}
FTRL 用于覆盖 DAI 参数的参数
params_grownet¶
params_grownet (Dict)
默认值 {}
GrowNet 用于覆盖 DAI 参数的参数
params_tune_lightgbm¶
params_tune_lightgbm (Dict)
默认值 {}
密钥字典:用于 LightGBM 调优的值列表,逐个密钥覆盖 DAI 的选择。例如 params_tune_lightgbm = “{‘min_child_samples’: [1,2,5,100,1000], ‘min_data_in_bin’: [1,2,3,10,100,1000]}”
params_tune_xgboost¶
params_tune_xgboost (Dict)
默认值 {}
类似于 params_tune_lightgbm,但适用于 XGBoost。例如 params_tune_xgboost = “{‘max_leaves’: [8, 16, 32, 64]}”
params_tune_dart¶
params_tune_dart (Dict)
默认值 {}
类似于 params_tune_lightgbm,但适用于 XGBoost 的 Dart。例如 params_tune_dart = “{‘max_leaves’: [8, 16, 32, 64]}”
params_tune_tensorflow¶
params_tune_tensorflow (Dict)
默认值 {}
类似于 params_tune_lightgbm,但适用于 TensorFlow。例如 params_tune_tensorflow = “{‘layers’: [(10,10,10), (10, 10, 10, 10)]}”
params_tune_gblinear¶
params_tune_gblinear (Dict)
默认值 {}
类似于 params_tune_lightgbm,但适用于 gblinear。例如 params_tune_gblinear = “{‘reg_lambda’: [.01, .001, .0001, .0002]}”
params_tune_rulefit¶
params_tune_rulefit (Dict)
默认值 {}
类似于 params_tune_lightgbm,但适用于 rulefit。例如 params_tune_rulefit = “{‘max_depth’: [4, 5, 6]}”
params_tune_ftrl¶
params_tune_ftrl (Dict)
默认值 {}
类似于 params_tune_lightgbm,但适用于 ftrl
params_tune_grownet¶
params_tune_grownet (Dict)
默认值 {}
类似于 params_tune_lightgbm,但适用于 GrowNet。例如 params_tune_grownet = “{‘input_dropout’: [0.2, 0.5]}”
params_tune_grow_policy_simple_trees¶
params_tune_grow_policy_simple_trees (Boolean)
默认值 True
若 grow_policy 设置为 depthwise 或 lossguide,是否相应地将 max_leaves 或 max_depth 设置为 0。
default_max_bin¶
default_max_bin (Number)
默认值 256
树方法的默认 max_bin
default_lightgbm_max_bin¶
default_lightgbm_max_bin (Number)
Default value 249
Lightgbm 的默认 max_bin(对于 GPU lightgbm,推荐速度为 64)
min_max_bin¶
min_max_bin (Number)
默认值 32
任何树的最小 max_bin
scale_mem_for_max_bin¶
scale_mem_for_max_bin (Number)
默认值 10737418240
可处理的内存数量,max_bin = 256 时,可处理 125,max_bin = 32 时可处理 1000 列。当系统上的可用内存超过此比例时,max_bin 越高,可处理的列数成比例增加。目前设置为 10GB
factor_rf¶
factor_rf (Float)
默认值 1.25
Rf 比 gbdt 获得更多深度的因子
tensorflow_use_all_cores¶
tensorflow_use_all_cores (Boolean)
默认值 True
TensorFlow 是否会使用所有 CPU 内核,或它是否会在所有转换器中进行拆分
tensorflow_use_all_cores_even_if_reproducible_true¶
tensorflow_use_all_cores_even_if_reproducible_true (Boolean)
默认值 False
若设置了可再现性,TensorFlow 是否会使用所有 CPU 内核,或它是否会在所有转换器中进行拆分
tensorflow_disable_memory_optimization¶
tensorflow_disable_memory_optimization (Boolean)
默认值 True
是否禁用 TensorFlow 内存优化。可以帮助修复 tensorflow.python.framework.errors_impl.AlreadyExistsError
tensorflow_cores¶
tensorflow_cores (Number)
默认值 0
每个 TensorFlow 模型使用的内核数,无论是 GPU 还是 CPU(0 = 自动模式)
validate_meta_learner¶
Enable basic logging and notifications for ensemble meta learner (Boolean)
默认值 True
validate_meta_learner_extra¶
Enable extra logging for ensemble meta learner: ensemble must be at least as good as each base model (Boolean)
默认值 False
fixed_num_folds_evolution¶
Number of cross-validation folds for feature evolution (-1 = auto) (Number)
默认值 -1
为特征演变指定固定数量的交叉验证折叠(如果 >= 2)。(允许的实际分割数量可能会更少,具体在实验运行时确定)。
fixed_num_folds¶
Number of cross-validation folds for final model (-1 = auto) (Number)
默认值 -1
为最终模型指定固定数量的交叉验证折叠(如果 >= 2)。(允许的实际分割数量可能会更少,具体在实验运行时确定)。
fixed_only_first_fold_model¶
Force only first fold for models (String)
默认值 'auto'
设置为 “on” 将仅对模型强制实施第一个折叠 - 适用于快速运行,无论数据情况如何
num_fold_ids_show¶
Maximum number of fold IDs to show in logs (Number)
默认值 10
fold_scores_instability_warning_threshold¶
Declare positive fold scores as unstable if stddev / mean is larger than this value (Float)
默认值 0.25
feature_evolution_data_size¶
Max. num. of rows x num. of columns for feature evolution data splits (not for final pipeline) (Number)
默认值 300000000
用于特征演变的行数 x 列数的上限(适用于训练和验证/保持拆分)。特征演变是确定派生哪些特征的过程。根据 Accuracy 设置,将使用此值的一部分
final_pipeline_data_size¶
Max. num. of rows x num. of columns for reducing training data set (for final pipeline) (Number)
默认值 1000000000
用于训练最终管道的行数 x 列数的上限。
max_validation_to_training_size_ratio_for_final_ensemble¶
Max. size of validation data relative to training data (for final pipeline), otherwise will sample (Float)
默认值 2.0
较小的数值可以加快最终管道模型训练,因为验证数据仅用于早停法。请注意,将始终根据提供的完整数据集提供最终的模型预测和得分。
force_stratified_splits_for_imbalanced_threshold_binary¶
Perform stratified sampling for binary classification if the target is more imbalanced than this. (Float)
默认值 0.01
目标列的少数类与多数类之比,超过此比例将进行分层采样,以供二元分类。否则进行随机采样。设置为 0 表示总是执行随机采样。设置为 1 表示总是进行分层采样。
stratify_for_regression¶
Perform stratified sampling for regression problems (using binning). (Boolean)
默认值 True
指定是否对 id 回归问题的验证折叠创建进行分层采样。否则进行随机采样。
imbalance_ratio_multiclass_threshold¶
Ratio of most frequent to least frequent class for imbalanced multiclass classification problems equal and above which to trigger special handling due to class imbalance (Number)
默认值 5
特殊处理可以包括特殊模型、特殊评分器、特殊特征工程。
heavy_imbalance_ratio_multiclass_threshold¶
Ratio of most frequent to least frequent class for imbalanced multiclass classification problems equal and above which to trigger special handling due to heavy class imbalance (Number)
默认值 25
特殊处理可以包括特殊模型、特殊评分器、特殊特征工程。
imbalance_sampling_rank_averaging¶
Whether to do rank averaging bagged models inside of imbalanced models, instead of probability averaging (String)
默认值 'auto'
- 对 AUC/Gini 等排名指标进行优化后,平均排名可以帮助整合多样化的模型
目前尚不支持 MOJO。
imbalance_ratio_notification_threshold¶
imbalance_ratio_notification_threshold (Float)
默认值 2.0
对于二元分类:多数类与少数类的比例等于或大于此值时,通知 GUI 中的不平衡情况,表示略有不平衡。高于 imbalance_ratio_sampling_threshold 则表示问题不平衡。
nbins_ftrl_list¶
nbins_ftrl_list (List)
默认值 [1000000, 10000000, 100000000]
用于 FTRL 的可能分箱列表(最大值是默认最佳值)
te_bin_list¶
te_bin_list (List)
默认值 [25, 10, 100, 250]
用于目标编码的可能分箱列表(第一个值是默认值)
woe_bin_list¶
woe_bin_list (List)
默认值 [25, 10, 100, 250]
用于证据权重编码的可能分箱列表(第一个值是默认值)如果仅需一个值:woe_bin_list = [2]
ohe_bin_list¶
ohe_bin_list (List)
默认值 [10, 25, 50, 75, 100]
用于独热编码的可能分箱列表(第一个值是默认值)
cols_to_drop_sanitized¶
cols_to_drop_sanitized (List)
默认值 []
cols_to_group_by_sanitized¶
cols_to_group_by_sanitized (List)
默认值 []
default_knob_offset_accuracy¶
Offset for default accuracy knob (Number)
默认值 0
- 允许控制默认准确度旋钮设置。
若默认模型太过复杂,可以设置为 -1 或 -2。若默认模型不够精确,可以设置为 1 或 2。
default_knob_offset_time¶
Offset for default time knob (Number)
默认值 0
- 允许控制默认时间旋钮设置。
若默认实验太慢,可以设置为 -1 或 -2 等。若默认模型完成得太快,可以设置为 1 或 2 等。
default_knob_offset_interpretability¶
Offset for default interpretability knob (Number)
默认值 0
- 允许控制默认可解释性旋钮设置。
若默认模型太简单,可以设置为 -1 或 -2 等。若默认模型太复杂,可以设置为 1 或 2 等。
shift_check_text¶
shift_check_text (Boolean)
默认值 False
是否启用检查文本的位移,目前仅可通过标签编码启用。
use_rf_for_shift_if_have_lgbm¶
use_rf_for_shift_if_have_lgbm (Boolean)
默认值 True
是否使用 LightGBM Random Forest 模式,而不使用早停法进行位移检测。
shift_key_features_varimp¶
shift_key_features_varimp (Float)
默认值 0.01
归一化训练变量重要性。超过此值时,检查特征的位移情况。用于避免检查可能不重要的特征
shift_check_reduced_features¶
shift_check_reduced_features (Boolean)
默认值 True
是否仅根据 shift_key_features_varimp 的值检查某些特征
shift_trees¶
shift_trees (Number)
默认值 100
指定用于训练模型的树的数量,以检查位移的分布。不大于 max_nestimators
shift_max_bin¶
shift_max_bin (Number)
默认值 256
Max_bin 的值,树用此值来训练模型以检查位移的分布
shift_min_max_depth¶
shift_min_max_depth (Number)
默认值 4
max_depth 的最小值,树用此值来训练模型以检查位移的分布
shift_max_max_depth¶
shift_max_max_depth (Number)
默认值 8
max_depth 的最大值,树用此值来训练模型以检查位移的分布
detect_features_distribution_shift_threshold_auc¶
detect_features_distribution_shift_threshold_auc (Float)
默认值 0.55
若启用了分布位移检测,显示位移 AUC 高于此值的特征(二元分类器的 AUC,用于预测给定特征值属于训练数据还是测试数据)
drop_features_distribution_shift_min_features¶
drop_features_distribution_shift_min_features (Number)
默认值 1
要保留的最小特征数,若设置为 1,则保留最少的位移特征
shift_high_notification_level¶
shift_high_notification_level (Float)
默认值 0.8
若位移超过此值,显示 HIGH 通知,否则显示 MEDIUM
leakage_check_text¶
leakage_check_text (Boolean)
默认值 True
是否启用检查文本的泄露,目前仅可通过标签编码启用。
leakage_key_features_varimp¶
leakage_key_features_varimp (Float)
默认值 0.001
归一化的训练变量重要性(每 1 减去 AUC/R2 以控制泄露的 varimp 显性),超过此值时,检查特征的泄露情况。用于避免检查可能不重要的特征
leakage_key_features_varimp_if_no_early_stopping¶
leakage_key_features_varimp_if_no_early_stopping (Float)
默认值 0.05
类似于 leakage_key_features_varimp,但适用的情况是在可以信任多个泄露获取统一 varimp 的情况下禁用早停法。
leakage_check_reduced_features¶
leakage_check_reduced_features (Boolean)
默认值 True
是否仅根据 leakage_key_features_varimp 的值检查特定特征。若任何特征的 AUC 接近 1,将消耗所有变量重要性,即使另一个特征也是泄露的。因此,False 是最安全的选项,但如果有很多列,则 True 一般比较好。
use_rf_for_leakage_if_have_lgbm¶
use_rf_for_leakage_if_have_lgbm (Boolean)
默认值 True
是否使用 LightGBM Random Forest 模式,而不使用早停法进行泄露检测。
leakage_trees¶
leakage_trees (Number)
默认值 100
指定用于训练模型的树的数量,以检查泄露情况。不大于 max_nestimators
leakage_max_bin¶
leakage_max_bin (Number)
默认值 256
Max_bin 的值,树用此值来训练模型以检查泄露情况
leakage_min_max_depth¶
leakage_min_max_depth (Number)
默认值 6
Max_depth 的值,树用此值来训练模型以检查泄露情况
leakage_max_max_depth¶
leakage_max_max_depth (Number)
默认值 8
Max_depth 的值,树用此值来训练模型以检查泄露情况
drop_features_leakage_min_features¶
drop_features_leakage_min_features (Number)
默认值 1
要保留的最小特征数,若设置为 1,则保留最少的泄露特征
leakage_train_test_split¶
leakage_train_test_split (Float)
默认值 0.25
测试泄露情况时,训练与验证保持之比
check_system¶
Whether to check system installation on server startup (Boolean)
默认值 True
abs_tol_for_perfect_score¶
abs_tol_for_perfect_score (Float)
默认值 0.0001
验证分数需要多么接近最佳值(通常为 1 或 0)才会被视为完美(达到停止实验的条件)?
data_ingest_timeout¶
data_ingest_timeout (Float)
默认值 86400.0
等待数据摄取的超时秒数
gpu_locking_trust_pool_submission¶
gpu_locking_trust_pool_submission (Boolean)
默认值 True
- 提交 GPU 任务时是否信任 GPU 锁定以限制内存使用。
若设置为 False,则等待至 GPU 提交数小于 GPU 数量,即使以后的任务可能是不需要等待的纯 CPU 任务。仅在未通过 num_gpus_per_experiment 限制 GPU 数量的情况下适用,否则必须使用资源而非依赖锁定。
gpu_locking_free_dead¶
gpu_locking_free_dead (Boolean)
默认值 True
当进程既不在 GPU PID 列表中,也不占用 CPU 资源(如休眠)时,是否窃取 GPU 锁。仅从不完整的多 GPU 锁中窃取。在多 GPU 模型挂起时防止死锁。
tensorflow_allow_cpu_only¶
tensorflow_allow_cpu_only (Boolean)
默认值 False
check_pred_contribs_sum¶
check_pred_contribs_sum (Boolean)
默认值 False
debug_daimodel_level¶
debug_daimodel_level (Number)
默认值 0
debug_debug_xgboost_splits¶
debug_debug_xgboost_splits (Boolean)
默认值 False
log_predict_info¶
Whether to show detailed predict information in logs. (Boolean)
默认值 True
log_fit_info¶
Whether to show detailed fit information in logs. (Boolean)
默认值 True
stalled_time_kill_ref¶
stalled_time_kill_ref (Float)
默认值 440.0
在终止作业(假设其挂起)之前的停顿时间(单位为秒)。参考时间按行数 * 列数的训练数据形状调整,以获取使用的 stalled_time_kill
num_cpu_sockets_override¶
num_cpu_sockets_override (Number)
默认值 0
用于覆盖套接字数量的值,以防 DAI 判断错误,适用于重要的系统。设置为 0 表示自动。
num_gpus_override¶
num_gpus_override (Number)
默认值 -1
用于覆盖 GPU 数量的值,以防 DAI 判断错误,适用于重要的系统。设置为 -1 表示自动。也可设置 min_num_cores_per_gpu=-1,以允许每个实验使用任何数量的 GPU,而无论内核数量多少。
show_gpu_usage_only_if_locked¶
show_gpu_usage_only_if_locked (String)
默认值 'auto'
是否仅在锁定时显示 GPU 使用情况。若 num_gpus_override 与实际可见 GPU 总数不同,则 ‘auto’ 表示 ‘on’,否则表示 ‘off’
show_inapplicable_models_preview¶
show_inapplicable_models_preview (Boolean)
默认值 False
在预览中显示不适用的模型,确保不遗漏本可使用的模型
show_inapplicable_transformers_preview¶
show_inapplicable_transformers_preview (Boolean)
默认值 False
在预览中显示不适用的转换器,确保不遗漏本可使用的转换器
show_warnings_preview¶
show_warnings_preview (Boolean)
默认值 False
如果满足使用条件却没有选择,则对模型显示警告(图像自动,dask 多节点/多 gpu),避免遗漏本可提高准确度/性能的模型
show_warnings_preview_unused_map_features¶
show_warnings_preview_unused_map_features (Boolean)
默认值 True
对于某些特征没有相应转换器的模型,显示警告。
max_cols_show_unused_features¶
max_cols_show_unused_features (Number)
默认值 1000
指定在 GUI/客户端预览期间,最多有多少输入特征,用于确定未使用的特征。太多会降低预览速度。
max_cols_show_feature_transformer_mapping¶
max_cols_show_feature_transformer_mapping (Number)
默认值 1000
指定最多有多少输入特征,以显示用于各个输入特征的转换器。
warning_unused_feature_show_max¶
warning_unused_feature_show_max (Number)
默认值 3
指定预览中最多显示多少个未使用的输入特征。
interaction_finder_max_rows_x_cols¶
interaction_finder_max_rows_x_cols (Float)
默认值 200000.0
interaction_finder_corr_threshold¶
interaction_finder_corr_threshold (Float)
默认值 0.95
min_bootstrap_samples¶
Minimum number of bootstrap samples (Number)
默认值 1
用于估算得分及其标准偏差的最小自助样本数量。实际自助样本数量将处于最小值和最大值之间,具体取决于行数(行数越多,样本越少)和 Accuracy 设置(准确度越高,样本越多)
max_bootstrap_samples¶
Maximum number of bootstrap samples (Number)
默认值 100
用于估算得分及其标准偏差的最大自助样本数量。实际自助样本数量将处于最小值和最大值之间,具体取决于行数(行数越多,样本越少)和 Accuracy 设置(准确度越高,样本越多)
min_bootstrap_sample_size_factor¶
Minimum fraction of rows to use for bootstrap samples (Float)
默认值 1.0
要作为自助评估器的样本大小的最小行大小比例。用于自助评估的实际样本大小将处于最小值和最大值之间,具体取决于行数(行数越多,样本越少)和 Accuracy 设置(准确度越高,样本越多)
max_bootstrap_sample_size_factor¶
Maximum fraction of rows to use for bootstrap samples (Float)
默认值 10.0
要作为自助评估器的样本大小的最大行大小比例。用于自助评估的实际样本大小将处于最小值和最大值之间,具体取决于行数(行数越多,样本越少)和 Accuracy 设置(准确度越高,样本越多)
bootstrap_final_seed¶
Seed to use for final model bootstrap sampling (Number)
默认值 -1
用于最终模型自助采样的种子,-1 表示使用实验派生的种子。例如,可以用不同的种子重新训练最终模型,以得到不同的最终模型误差条的得分。
benford_mad_threshold_int¶
benford_mad_threshold_int (Float)
默认值 0.03
本福德定律:平均绝对偏差阈值等于或高于此值的整数值列也被视为分类
benford_mad_threshold_real¶
benford_mad_threshold_real (Float)
默认值 0.1
本福德定律:平均绝对偏差阈值等于或高于此值的实值列也被视为分类
stabilize_features¶
Use tuning-evolution search result for final model transformer. (Boolean)
默认值 True
- 最终管道是否对一些转换器使用通常执行搜索的固定特征,
例如 InteractionsTransformer。使用从调优和演变中学到的知识 (True) 或重新搜索新特征 (False)。这样可以提供更稳定的管道,尤其适用于小数据或在使用交互转换器作为多层管道的预转换器时。
fraction_std_bootstrap_ladder_factor¶
Factor of standard deviation of bootstrap scores by which to accept new model in genetic algorithm. Too small a fraction will lead to accepting new models easily even if no significant improvement in score, while too large a fraction will reject too many good models. Non-zero value is a bit risky when no folds are used in GA, because bootstrap score is only rough estimate of error. (Float)
默认值 0.01
bootstrap_ladder_samples_limit¶
Minimum number of bootstrap samples that are required to limit accepting new model. If less than this, then new model is always accepted. (Number)
默认值 10
rdelta_percent_score_penalty_per_feature_by_interpretability¶
rdelta_percent_score_penalty_per_feature_by_interpretability (String)
默认值 '{1: 0.0, 2: 0.1, 3: 1.0, 4: 2.0, 5: 5.0, 6: 10.0, 7: 20.0, 8: 30.0, 9: 50.0, 10: 100.0, 11: 100.0, 12: 100.0, 13: 100.0}'
drop_low_meta_weights¶
drop_low_meta_weights (Boolean)
默认值 True
meta_weight_allowed_by_interpretability¶
meta_weight_allowed_by_interpretability (String)
默认值 '{1: 1E-7, 2: 1E-5, 3: 1E-4, 4: 1E-3, 5: 1E-2, 6: 0.03, 7: 0.05, 8: 0.08, 9: 0.10, 10: 0.15, 11: 0.15, 12: 0.15, 13: 0.15}'
meta_weight_allowed_for_reference¶
Min. weight of meta learner for reference models during ensembling. If 1.0, then reference model must be the clear winner to be kept. Set to 0.0 to never drop reference models (Float)
默认值 1.0
show_full_pipeline_details¶
Whether to show full pipeline details (Boolean)
默认值 False
num_transformed_features_per_pipeline_show¶
Number of features to show when logging size of fitted transformers (Number)
默认值 10
fs_data_vary_for_interpretability¶
fs_data_vary_for_interpretability (Number)
默认值 7
fs_data_frac¶
fs_data_frac (Float)
默认值 0.5
many_columns_count¶
Number of columns beyond which reduce expensive tasks at cost of some accuracy. (Number)
默认值 400
columns_count_interpretable¶
Number of columns beyond which do not set default knobs to high interpretability even if bigger data. (Number)
默认值 200
round_up_indivs_for_busy_gpus¶
Whether to round-up individuals to ensure all GPUs used. Not always best if (say) have 16 GPUs, better to have multiple experiments if in multi-user environment on single node. (Boolean)
默认值 True
check_timeout_per_gpu¶
check_timeout_per_gpu (Number)
默认值 20
系统检查期间,要使 tensorflow/torch 运行,每个 GPU 要等待的时间。
gpu_exit_if_fails¶
gpu_exit_if_fails (Boolean)
默认值 True
如果无法成功运行 GPU 检查,是否会启动失败
require_graphviz¶
Whether to require Graphviz package at startup (Boolean)
默认值 True
作为实验工件的一部分,要使本地安装 (RPM/DEP/Tar-SH,在 Docker 之外)能够将 .dot 文件转换为 .png 文件以实现管道可视化,Graphviz 是可选要求
fast_approx_max_num_trees_ever¶
fast_approx_max_num_trees_ever (Number)
默认值 -1
用于所有树模型预测的树的最大数量。在预测不重要的时候用于测试。-1 表示禁用。
fast_approx_num_trees¶
fast_approx_num_trees (Number)
默认值 250
fast_approx=True 时使用的树的最大数量(例如,用于 AutoDoc/MLI)
fast_approx_do_one_fold¶
fast_approx_do_one_fold (Boolean)
默认值 True
是否通过仅使用所有交叉验证折叠中的一个折叠来进一步加速 fast_approx=True(例如,用于 AutoDoc/MLI)。
fast_approx_do_one_model¶
fast_approx_do_one_model (Boolean)
默认值 False
是否通过仅使用所有集成模型中的一个模型来进一步加速 fast_approx=True(例如,用于 AutoDoc/MLI)。
fast_approx_contribs_num_trees¶
fast_approx_contribs_num_trees (Number)
默认值 50
fast_approx_contribs=True 时使用的树的最大数量(例如,在进行 Shapley 预测时用于 GUI 中的 ‘快速近似’,或用于 AutoDoc/MLI)。
fast_approx_contribs_do_one_fold¶
fast_approx_contribs_do_one_fold (Boolean)
默认值 True
是否要通过仅使用所有交叉验证折叠中的一个折叠来进一步加速 fast_approx_contribs=True(例如,在进行 Shapley 预测时用于 GUI 中的 ‘快速近似’,或用于 AutoDoc/MLI)。
fast_approx_contribs_do_one_model¶
fast_approx_contribs_do_one_model (Boolean)
默认值 True
是否要通过仅使用所有集成模型中的一个模型来进一步加速 fast_approx_contribs=True(例如,在进行 Shapley 预测时用于 GUI 中的 ‘快速近似’,或用于 AutoDoc/MLI)。
use_187_prob_logic¶
use_187_prob_logic (Boolean)
默认值 True
是否使用类似 DAI 1.8.x 的开发探索逻辑。若设置为 False,将进一步探索。
enable_ohe_linear¶
enable_ohe_linear (Boolean)
默认值 False
是否启用交叉验证的 OneHotEncoding+LinearModel 转换器
max_absolute_feature_expansion¶
max_absolute_feature_expansion (Number)
默认值 1000
booster_for_fs_permute¶
booster_for_fs_permute (String)
默认值 'auto'
model_class_name_for_fs_permute¶
model_class_name_for_fs_permute (String)
默认值 'auto'
switch_from_tree_to_lgbm_if_can¶
switch_from_tree_to_lgbm_if_can (Boolean)
默认值 True
textlin_num_classes_switch¶
Class count above which do not use TextLin Transformer (Number)
默认值 5
若类计数超过此值,则不适用 TextLin 转换器。
text_gene_dim_reduction_choices¶
text_gene_dim_reduction_choices (List)
默认值 [50]
text_gene_max_ngram¶
text_gene_max_ngram (List)
默认值 [1, 2, 3]
number_of_texts_to_cache_in_bert_transformer¶
number_of_texts_to_cache_in_bert_transformer (Number)
默认值 -1
通过将嵌套向量暂时保存到实验目录,实现 BERT 嵌套的缓存。设置为 -1 将缓存所有文本,设置为 0 则禁用缓存。
gbm_early_stopping_rounds_min¶
gbm_early_stopping_rounds_min (Number)
默认值 1
gbm_early_stopping_rounds_max¶
gbm_early_stopping_rounds_max (Number)
默认值 10000000000
max_varimp_to_save¶
max_varimp_to_save (Number)
默认值 100
每次迭代要保存的最高变量重要性的最大数值(GUI 仅可显示最大值 14)
max_num_varimp_to_log¶
max_num_varimp_to_log (Number)
默认值 10
特征演变期间要在日志中显示的最高变量重要性的最大数值
max_num_varimp_shift_to_log¶
max_num_varimp_shift_to_log (Number)
默认值 10
最终模型构建之后,要在日志和 GUI 中显示的最高变量重要性位移的最大数量
can_skip_final_upper_layer_failures¶
can_skip_final_upper_layer_failures (Boolean)
默认值 True
对于图层 > 多层管道的第一个图层,是否可以跳过最终模型转换器故障。
config_overrides¶
Add to config.toml via toml string (String)
默认值 ''
GUI 专家页面中有关 ‘通过 toml 字符串添加到 config.toml’ 的说明。自我参考的 toml 参数,用于将任何其他 toml 参数设置为分隔的 toml 字符串
(周围可以有空格)。
当专家模式中没有 toml 参数,但又想要逐个实验进行控制时,此设置适用。此设置会覆盖所有其他选项。在专家页面中,每次保存专家选项时,都将设置新状态,而不会记住任何先前的设置。输入的项目是完全兼容的 toml 字符串,将由 toml.load() 直接处理。应该在整个设置周围使用两个双引号,否则双引号需要转义。按如下方式输入专家页面文本:例如 enable_glm=”off”
enable_xgboost_gbm=”off” enable_lightgbm=”on”
- 例如 “”enable_glm=”off”
enable_xgboost_gbm=”off” enable_lightgbm=”off” enable_tensorflow=”on”””
例如 fixed_num_individuals=4 例如 params_lightgbm=”{‘objective’:’poisson’}” 例如 “”params_lightgbm=”{‘objective’:’poisson’}””” 例如 max_cores=10
data_precision=”float32” max_rows_feature_evolution=50000000000 ensemble_accuracy_switch=11 feature_engineering_effort=1 target_transformer=”identity” tournament_feature_style_accuracy_switch=5 params_tensorflow=”{‘layers’: (100, 100, 100, 100, 100, 100)}”
- 例如 “”max_cores=10
data_precision=”float32” max_rows_feature_evolution=50000000000 ensemble_accuracy_switch=11 feature_engineering_effort=1 target_transformer=”identity” tournament_feature_style_accuracy_switch=5 params_tensorflow=”{‘layers’: (100, 100, 100, 100, 100, 100)}”””
如果看到 “toml.TomlDecodeError”,则确保 toml 设置正确。在实验的专家页面中进行设置后,这些更改仅影响实验,不会影响服务器。通常应在此 toml 文件中将此选项保持为空字符串。
dump_modelparams_every_scored_indiv_feature_count¶
dump_modelparams_every_scored_indiv_feature_count (Number)
默认值 3
模型转储中为每个得分个体显示的特征数量
dump_modelparams_every_scored_indiv_mutation_count¶
dump_modelparams_every_scored_indiv_mutation_count (Number)
默认值 3
模型转储中为每个得分个体显示的过去的突变数量
dump_modelparams_separate_files¶
dump_modelparams_separate_files (Boolean)
默认值 False
是否为每个得分个体的 modelparams 附加 (false) 或拥有单独文件 (true)(如 individual_scored_id%d.iter%d*params*)
delete_preview_trans_timings¶
delete_preview_trans_timings (Boolean)
默认值 True
若写入转换器计时,是否删除预览计时
use_random_text_file¶
use_random_text_file (Boolean)
默认值 False
runtime_estimation_train_frame¶
runtime_estimation_train_frame (String)
默认值 ''
enable_bad_scorer¶
enable_bad_scorer (Boolean)
默认值 False
debug_col_dict_prefix¶
debug_col_dict_prefix (String)
默认值 ''
return_early_debug_col_dict_prefix¶
return_early_debug_col_dict_prefix (Boolean)
默认值 False
return_early_debug_preview¶
return_early_debug_preview (Boolean)
默认值 False
autoviz_enable_recommendations¶
Autoviz Use Recommended Transformations (Boolean)
默认值 True
启用后,实验将尝试使用 Autoviz 推荐的特征转换
autoviz_recommended_transformation¶
Autoviz Recommended Transformations (Dict)
默认值 {}
列名称的键值对,以及 Autoviz 推荐的转换
last_recipe¶
last_recipe (String)
默认值 ''
内部帮助程序,用于允许存储更改后的配置
make_mojo_scoring_pipeline_for_features_only¶
Create MOJO for feature engineering pipeline only (no predictions) (Boolean)
默认值 False
仅为特征工程管道创建 MOJO(无预测)
mojo_replace_target_encoding_with_grouped_input_cols¶
Replaces target encoding features with concatenated input features. (Boolean)
默认值 False
将目标编码特征替换为其输入列。这将创建 Age:Income:Zip,而非 CVTE_Age:Income:Zip。仅当启用了 make_mojo_scoring_pipeline_for_features_only 时使用。
time_series_causal_split_recipe¶
Whether causal recipe is used for non-lag-based recipe (Boolean)
默认值 False
当 time_series_recipe 为 false 时是否使用因果拆分,或当禁用滞后转换器(默认设置)时是否使用相同的 train-gap-test 拆分。对于禁用滞后插件时要使用的训练-测试间隔、周期等项目,此设置必须是 False。
use_lags_if_causal_recipe¶
Use lag transformers when using causal time-series recipe (Boolean)
默认值 False
- 使用因果拆分进行验证时,是否使用滞后转换器
(不使用基于时间的滞后插件时发生)。若无时间组列,滞后转换器仍将使用时间列作为唯一的时间组列。
min_ymd_timestamp¶
min_ymd_timestamp (Number)
默认值 19000101
允许的最早日期时间(格式为 %Y%m%d),对于该日期时间,允许在解析期间将整数自动换转为时间列。例如 2010 或 201004 或 20100402 或 201004022312 可转换为有效的日期/日期时间,但 1000 或 100004 或 10000402 或 10004022313 不能转换,类似 201000 或 20100500 也不能转换。
max_ymd_timestamp¶
max_ymd_timestamp (Number)
默认值 21000101
允许的最晚日期时间(格式为 %Y%m%d),对于该日期时间,允许在解析期间将整数自动换转为时间列。例如 2010 或 201004 或 20100402 可转换为有效的日期/日期时间,但 3000 或 300004 或 30000402 或 30004022313 不能转换,类似 201000 或 20100500 的数字也不能转换。
max_rows_datetime_format_detection¶
max_rows_datetime_format_detection (Number)
默认值 100000
用于日期/日期时间格式检测的最大数据样本数(随机选择的行)
disallowed_datetime_formats¶
List of disallowed datetime formats. (List)
默认值 ['%y']
在数据摄取和实验期间,手动禁用某些日期时间格式。例如,[‘%y’] 将避免将包含 ‘00’、’01’、’02’ 字符串值的列解析为日期列。
use_datetime_cache¶
use_datetime_cache (Boolean)
默认值 True
是否使用日期时间缓存
datetime_cache_min_rows¶
datetime_cache_min_rows (Number)
默认值 10000
利用日期时间缓存所需的最小行数
holiday_country¶
holiday_country (String)
默认值 ''
max_time_series_properties_sample_size¶
max_time_series_properties_sample_size (Number)
默认值 250000
仅当选中时间列时,用于自动确定 Time Series 训练/有效拆分属性的最大样本大小
max_lag_sizes¶
max_lag_sizes (Number)
默认值 30
用于基于滞后的 Time Series 实验的最大滞后大小数。若 sample_lag_sizes==True,则从中采样,否则取所有样本(-1 == 自动)
min_lag_autocorrelation¶
min_lag_autocorrelation (Float)
默认值 0.1
指定特征工程考虑滞后时所需的最小自相关阈值
max_signal_lag_sizes¶
max_signal_lag_sizes (Number)
默认值 100
单个时间组(单个 Time Series 信号)使用多少个滞后大小的样本
single_model_vs_cv_score_reldiff¶
single_model_vs_cv_score_reldiff (Float)
默认值 0.05
single_model_vs_cv_score_reldiff2¶
single_model_vs_cv_score_reldiff2 (Float)
默认值 0.0
blend_in_link_space¶
Whether to blend ensembles in link space (applies to classification only) (Boolean)
默认值 True
是否在链接空间中混合集成,以便应用反向链接函数,获取混合后的预测。这使得在应用反向链接函数后,可以将 Shapley 的值求和,以得出最终的预测结果:preds = inverse_link( (blend(链接空间中的基础学习程序预测 ))) = inverse_link(sum(blend(链接空间中的基础学习程序 shapley 值))) = inverse_link(sum( 链接空间中的集成 shapley 值 ))对于二元分类,仅当 inverse_link = logistic = 1/(1+exp(-x)) 时才支持此设置。对于多类分类,仅当 inverse_link = softmax = exp(x)/sum(exp(x)) 时才支持此设置。对于回归,如果所有基础学习程序都使用身份链接函数,则此行为会自然发生,否则不可能发生
tgc_via_ui_max_ncols¶
tgc_via_ui_max_ncols (Number)
默认值 10
从 UI 发送到后端的最大列数,用于自动检测 TGC
tgc_dup_tolerance¶
tgc_dup_tolerance (Float)
默认值 0.01
TGC 检测中重复时间戳的最大频率