模型配置¶
enable_constant_model¶
Constant models (String)
默认值 'auto'
是否启用常量模型 (‘auto’/’on’/’off’)
enable_decision_tree¶
Decision Tree models (String)
默认值 'auto'
是否启用 Decision Tree 模型 (‘auto’/’on’/’off’)。 ‘auto’ 会禁用 Decision Tree,除非仅选择了非常量模型。
enable_glm¶
GLM models (String)
默认值 'auto'
是否启用 GLM 模型 (‘auto’/’on’/’off’)
enable_xgboost_gbm¶
XGBoost GBM models (String)
默认值 'auto'
是否启用 XGBoost GBM 模型 (‘auto’/’on’/’off’)
enable_lightgbm¶
LightGBM models (String)
默认值 'auto'
是否启用 LightGBM 模型 (‘auto’/’on’/’off’)
enable_tensorflow¶
TensorFlow models (String)
默认值 'auto'
是否启用 TensorFlow 模型 (‘auto’/’on’/’off’)
enable_grownet¶
PyTorch GrowNet models (String)
默认值 'auto'
是否启用基于 PyTorch 的 GrowNet 模型 (‘auto’/’on’/’off’)
enable_ftrl¶
FTRL models (String)
默认值 'auto'
是否启用 FTRL 支持 (Follow the Regularized Leader) 模型 (‘auto’/’on’/’off’)
enable_rulefit¶
RuleFit models (String)
默认值 'auto'
是否启用 RuleFit 支持(beta 版本,无 MOJO) (‘auto’/’on’/’off’)
enable_zero_inflated_models¶
Zero-Inflated models (String)
默认值 'auto'
是否为具有零膨胀目标值(满足一定条件:y >= 0, y.std() > y.mean())的回归问题启用零膨胀模型的自动添加
enable_xgboost_rapids¶
Enable RAPIDS-cudf extensions to XGBoost GBM/Dart (Boolean)
默认值 False
是否启用 XGBoost GBM/Dart 的 RAPIDS 扩展。如果选中此项,Python 评分包只能在 GPU 系统上使用。
enable_rapids_cuml_models¶
Whether to enable RAPIDS CUML GPU models (no mojo) (Boolean)
默认值 False
是否启用基于 GPU 的 RAPIDS CUML 模型。不支持 MOJO,但支持 Python 评分。处于 alpha 测试状态。
enable_rapids_models_dask¶
Whether to enable RAPIDS CUML GPU models to use Dask (no mojo) (Boolean)
默认值 False
是否为有能力的 RAPIDS CUML 模型启用多 GPU 模式。不支持 MOJO,但支持 Python 评分。处于 alpha 测试状态。
enable_xgboost_rf¶
Enable XGBoost RF mode (String)
默认值 'auto'
- 是否启用不使用早停法的 XGBoost RF 模式。
除非开启,否则会禁用。
enable_xgboost_gbm_dask¶
Enable dask_cudf (multi-GPU) XGBoost GBM/RF (String)
默认值 'auto'
- 是否启用 XGBoost GBM/RF 的 dask_cudf(多 GPU)版本。
除非开启,否则会禁用。仅适用于不使用早停法的单个最终模型。无法使用 Shapley 值法。
enable_lightgbm_dask¶
Enable dask (multi-node) LightGBM (String)
默认值 'auto'
- 是否启用多节点 LightGBM。
除非开启,否则会禁用。
hyperopt_shift_leak¶
Whether to do hyperopt for leakage/shift (Boolean)
默认值 False
- 如果 num_inner_hyperopt_trials_prefinal > 0,
则是否在泄露/移位检测过程中执行超参数调优。可能有助于查找有意义的泄露/移位,但通常不必需的。
hyperopt_shift_leak_per_column¶
Whether to do hyperopt for leakage/shift for each column (Boolean)
默认值 False
- 如果 num_inner_hyperopt_trials_prefinal > 0,
则在检查每个列时,是否在泄露/移位检测过程中执行超参数调优。
num_inner_hyperopt_trials_prefinal¶
Number of trials for hyperparameter optimization during model tuning only (Number)
默认值 0
- 用于调优和演变模型的 Optuna 超参数优化的尝试次数。
0 次表示不尝试。对于小数据,100 次是合适的选择,而对于大数据,如果需要快速得到结果,则较小的值较为合理。如果使用 RAPIDS 或 DASK,超参数优化会在整个过程中将数据保留在 GPU 上。目前适用于 XGBoost GBM/Dart 和 LightGBM。当 DAI 中存在内部模型拟合/预测之外的较大开销时,尤为有用,因此可以在没有此开销的情况下进行调优。但是,在进行调优或演变时,可能会在单个折叠上呈现过度拟合的现象,而如果使用 CV,则对折叠超参数求平均值可能会导致得到不符合预期的结果。
num_inner_hyperopt_trials_final¶
Number of trials for hyperparameter optimization for final model only (Number)
默认值 0
- 用于最终模型的 Optuna 超参数优化的尝试次数。
0 次表示不尝试。对于小数据,100 次是合适的选择,而对于大数据,如果需要快速得到结果,则较小的值较为合理。即使 num_inner_hyperopt_trials=0,也仅适用于最终模型。如果使用 RAPIDS 或 DASK,超参数优化会在整个过程中将数据保留在 GPU 上。目前适用于 XGBoost GBM/Dart 和 LightGBM。当 DAI 中存在内部模型拟合/预测之外的较大开销时,尤为有用,因此可以在没有此开销的情况下进行调优。但是,对于最终模型,每个折叠独立进行优化,并可能会在单个折叠上呈现过度拟合的现象,在此之后,将对预测求平均值(因此在执行进行调优或演变的 CV 时,对超参数求平均值不会产生问题)。
num_hyperopt_individuals_final¶
Number of individuals in final ensemble to use Optuna on (Number)
默认值 -1
最终模型中需使用 Optuna 超参数调优进行优化的单个模型的数量(给定基本模型的所有折叠/重复)。
-1 表示全部。设置为 0 时与没有选择 Optuna 尝试效果相同。可能仅有利于优化集成模型中最佳单个模型的超参数(即,数值设置为 1)。
optuna_pruner¶
Optuna Pruners (String)
默认值 'MedianPruner'
要使用的 Optuna Pruner(适用于支持 Optuna 回调的 XGBoost 和 LightGBM 模型)。选择 None(无)即可禁用此算法。
optuna_sampler¶
Optuna Samplers (String)
默认值 'TPESampler'
要使用的 Optuna Pruner(适用于支持 Optuna 回调的 XGBoost 和 LightGBM)。
enable_xgboost_hyperopt_callback¶
Enable Optuna XGBoost Pruning callback (Boolean)
默认值 True
是否启用 Optuna 的 XGBoost 剪枝回调以中止难以得到好结果的运行。对学习率进行调优时不会执行。
enable_lightgbm_hyperopt_callback¶
Enable Optuna LightGBM Pruning callback (Boolean)
默认值 True
是否启用 Optuna 的 LightGBM 剪枝回调以中止难以得到好结果的运行。对学习率进行调优时不会执行。
enable_xgboost_dart¶
XGBoost Dart models (String)
默认值 'auto'
是否启用 XGBoost Dart 模型 (‘auto’/’on’/’off’)
enable_xgboost_dart_dask¶
Enable dask_cudf (multi-GPU) XGBoost Dart (String)
默认值 'auto'
- 是否启用 XGBoost GBM/Dart 的 dask_cudf(多 GPU)版本。
除非开启,否则会禁用。如果只有 1 个 GPU,则仅当 use_dask_for_1_gpu 为 True 时使用 dask_cudf
仅适用于不使用早停法的单个最终模型。无法使用 Shapley 值法。
enable_lightgbm_boosting_types¶
LightGBM Boosting types (List)
默认值 ['gbdt']
要为 LightGBM 启用的提升类型(gbdt = 提升树,rf_early_stopping = 使用早停法的 Random Forest,rf = Random Forest(不使用早停法),dart = 未使用早停法的 drop-out(丢弃)提升树
enable_lightgbm_multiclass_balancing¶
LightGBM multiclass balancing (String)
默认值 'auto'
是否为不平衡的多类问题启用自动类加权。可能生成更差的概率,但可改进罕见类的基于混乱矩阵的评分器,而无需手动校准概率或微调标签创建过程。
enable_lightgbm_cat_support¶
LightGBM categorical support (Boolean)
默认值 False
是否启用 LightGBM 分类特征支持(即使启用 GPU,仍使用 CPU 模式运行,并且未构建 MOJO)
enable_lightgbm_linear_tree¶
LightGBM linear_tree mode (Boolean)
默认值 False
是否启用 LightGBM linear_tree 处理(目前仅使用 CPU 模式,没有 L1 正则化 – mae 目标,并且没有 MOJO 构建)。
enable_lightgbm_extra_trees¶
LightGBM extra trees mode (Boolean)
默认值 False
是否启用 LightGBM 额外树模式以帮助避免过度拟合
lightgbm_monotone_constraints_method¶
Method to use for monotonicity constraints for LightGBM (String)
默认值 'intermediate'
basic:与未应用约束时一样快,但会过度约束预测。intermediate:略慢一点点,但约束少得多,同时仍保留单调性,并且应该比 basic 更准确。advanced:较慢,但比 intermediate 更加准确。
lightgbm_monotone_penalty¶
LightGBM Monotone Penalty (Float)
默认值 0.0
在树的前 x(经四舍五入)个级别上禁止任何单调拆分。应用于给定深度的单调拆分的惩罚是惩罚参数的连续递增函数。https://lightgbm.readthedocs.io/en/latest/Parameters.html#monotone_penalty
enable_lightgbm_cuda_support¶
LightGBM CUDA support (Boolean)
默认值 False
- 是否启用 LightGBM CUDA 实现而不是 OpenCL。
使用 LightGBM 的 CUDA 仅支持用于 Pascal+(计算能力 >=6.0)
show_constant_model¶
Whether to show constant models in iteration panel even when not best model (Boolean)
默认值 False
是否在“迭代”面板中显示常量模型(即使不是最佳模型)。
xgboost_reg_objectives¶
Select XGBoost regression objectives. (List)
默认值 ['reg:squarederror']
- 选择 XGBoost 允许的目标。
已添加到允许的突变(默认的 reg:squarederror 位于样本列表中 3 次)。请注意:tweedie、gamma、poisson 仅对于带有正值的目标有效。请注意:该目标与(正则化)损失函数的形式相关,
用于确定具有最大信息增益的拆分,而该指标是非正则化指标,
在验证集(由 DAI 在外部或内部生成)上测量。
xgboost_reg_metrics¶
Select XGBoost regression metrics. (List)
默认值 ['rmse', 'mae']
- 选择 XGBoost 允许的指标。
已添加到允许的突变(默认的 rmse 和 mae 位于样本列表中两次)。请注意:tweedie、gamma、poisson 仅对于带有正值的目标有效。
xgboost_binary_metrics¶
Select XGBoost binary metrics. (List)
默认值 ['logloss', 'auc', 'aucpr', 'error']
- 选择 XGBoost 允许的目标。
已添加到允许的突变(全部均匀抽样)。
lightgbm_reg_objectives¶
Select LightGBM regression objectives. (List)
默认值 ['mse', 'mae']
- 选择 LightGBM 允许的目标。
已添加到允许的突变(默认的 mse 在选中时位于样本列表中两次)。请注意:如果选择 quantile/huber 或 fair,并且数据未归一化,建议使用 params_lightgbm 向 LightGBM 指定 alpha(对于 quantile 或 huber)或 fairc(对于 fair)的合理值。请注意:mse 与 rmse 一样,对应于 L2 损失。mae 是 L1 损失。请注意:tweedie、gamma、poisson 仅对于带有正值的目标有效。请注意:该目标与(正则化)损失函数的形式相关,
用于确定具有最大信息增益的拆分,而该指标是非正则化指标,
在验证集(由 DAI 在外部或内部生成)上测量。
lightgbm_reg_metrics¶
Select LightGBM regression metrics. (List)
默认值 ['rmse', 'mse', 'mae']
- 选择 LightGBM 允许的指标。
Added to allowed mutations (the default rmse is in sample list three times if selected). Note: If choose huber or fair and data is not normalized, recommendation is to use params_lightgbm to specify reasonable value of alpha (for huber or quantile) or fairc (for fair) to LightGBM. Note: tweedie, gamma, poisson are only valid for targets with positive values.
lightgbm_binary_objectives¶
Select LightGBM binary objectives. (List)
默认值 ['binary', 'xentropy']
- 选择 LightGBM 允许的目标。
已添加到允许的突变(默认的 binary 在选中时位于样本列表中两次)
lightgbm_binary_metrics¶
Select LightGBM binary metrics. (List)
默认值 ['binary', 'binary', 'auc']
- 选择 LightGBM 允许的二元指标。
已添加到允许的突变(全部均匀抽样)。
lightgbm_multi_metrics¶
Select LightGBM multiclass metrics. (List)
默认值 ['multiclass', 'multi_error']
- 选择多类 LightGBM 允许的指标。
已添加到允许的突变(选中时均匀地抽样)。
tweedie_variance_power_list¶
tweedie_variance_power parameters (List)
默认值 [1.5, 1.2, 1.9]
- 使用 tweedie 时,要为 XGBoostModel 和 LightGBMModel 尝试的 tweedie_variance_power 参数。
第一个值是默认值。
huber_alpha_list¶
huber parameters (List)
默认值 [0.9, 0.3, 0.5, 0.6, 0.7, 0.8, 0.1, 0.99]
- 使用 huber 时,要为 LightGBMModel 尝试的 huber 参数。
第一个值是默认值。
fair_c_list¶
fair c parameters (List)
默认值 [1.0, 0.1, 0.5, 0.9]
- 使用 fair 时,要为 LightGBMModel 尝试的 fair c 参数。
第一个值是默认值。
poisson_max_delta_step_list¶
poisson_max_delta_step parameters (List)
默认值 [0.7, 0.9, 0.5, 0.2]
- 使用 poisson 时,要为 LightGBMModel 尝试的 poisson max_delta_step 参数。
第一个值是默认值。
quantile_alpha¶
quantile alpha parameters (List)
默认值 [0.9, 0.95, 0.99, 0.6]
- 使用 quantile 时,要为 LightGBMModel 尝试的 quantile alpha 参数。
第一个值是默认值。
reg_lambda_glm_default¶
default reg_lambda regularization parameter (Float)
默认值 0.0004
XGBoost 和 LightGBM 的默认 reg_lambda 正则化。
params_tensorflow¶
Parameters for TensorFlow (Dict)
默认值 {}
用于覆盖 DAI 参数的 TensorFlow 参数,例如:params_tensorflow = “{‘lr’: 0.01, ‘add_wide’: False, ‘add_attention’: True, ‘epochs’: 30, ‘layers’: (100, 100), ‘activation’: ‘selu’, ‘batch_size’: 64, ‘chunk_size’: 1000, ‘dropout’: 0.3, ‘strategy’: ‘1cycle’, ‘l1’: 0.0, ‘l2’: 0.0, ‘ort_loss’: 0.5, ‘ort_loss_tau’: 0.01, ‘normalize_type’: ‘streaming’}” 请参阅:https://keras.io/,例如,对于激活:https://keras.io/activations/ 示例层:(500, 500, 500)、(100, 100, 100)、(100, 100)、(50, 50) 策略:’1cycle’ 或 ‘one_shot’,请参阅:https://github.com/fastai/fastai ‘one_shot” 不允许用于集成模型。normalize_type:’streaming’ 或 ‘global’(使用 sklearn StandardScaler)
max_nestimators¶
Max. number of trees/iterations (Number)
默认值 3000
GBM 树或 GLM 迭代的最大数量。可以减少以获得更低的准确度和/或更高的可解释性。早停法通常会选择更少的数量。在 fixed_max_nestimators > 0 时将被忽略。
fixed_max_nestimators¶
Fixed max. number of trees/iterations (-1 = auto mode) (Number)
默认值 -1
GBM 树或 GLM 迭代的固定最大数量。如果 > 0,则忽略 max_nestimators 并禁用自动减少,因为准确度更低或可解释性更高。早停法通常会选择更少的数量。
n_estimators_list_no_early_stopping¶
n_estimators list to sample from for model mutations for models that do not use early stopping (List)
默认值 [50, 100, 150, 200, 250, 300]
LightGBM dart 模式和常规 rf 模式不使用早停法,它们将从 n_estimators 的这些值抽样。XGBoost Dart 模式也将从这些 n_estimators 抽样。还适用于尚不支持早停法或回调的 XGBoost Dask 模型,对于默认参数,它选择列表中的第一个值,而突变从列表中抽样。
min_learning_rate_final¶
Minimum learning rate for final ensemble GBM models (Float)
默认值 0.01
最终集成的 GBM 模型的学习率下限。在某些情况下,树/迭代的最大数量不足以满足最终学习率,这可能导致不会触发早停,且得到较差的最终模型性能。因此,可尝试通过提高此最小值来提高学习率,或可尝试提高树/迭代的最大数量。
max_learning_rate_final¶
Maximum learning rate for final ensemble GBM models (Float)
默认值 0.05
最终集成的 GBM 模型的学习率上限
max_nestimators_feature_evolution_factor¶
Reduction factor for max. number of trees/iterations during feature evolution (Float)
默认值 0.2
一个因数,max_nestimators 将按此因数减小以进行调优和特征演变
min_learning_rate¶
Min. learning rate for feature engineering GBM models (Float)
默认值 0.05
特征工程的 GBM 模型的学习率下限
max_learning_rate¶
Max. learning rate for feature engineering GBM models (Float)
默认值 0.5
GBM 模型的学习率上限。如果希望覆盖 min_learning_rate 和 min_learning_rate_final,请将此值设置为更小的值
tune_learning_rate¶
Whether to tune learning rate even for GBM algorithms with early stopping (Boolean)
默认值 False
是否调优 GBM 算法的学习率(如果不是执行仅单个最终模型)。如果使用 Optuna 进行调优,可能有助于确定最优学习率。
max_epochs¶
Max. number of epochs for TensorFlow / FTRL (Number)
默认值 10
TensorFlow 和 FTRL 模型的最大时期数
max_max_depth¶
Max. tree depth (and Max. max_leaves as 2**max_max_depth) (Number)
默认值 12
最大树深度(并且对应的 max_max_leaves 为 2**max_max_depth)
max_max_bin¶
Max. max_bin for tree features (Number)
默认值 256
树特征的最大 max_bin
rulefit_max_num_rules¶
Max. number of rules for RuleFit (-1 for all) (Number)
默认值 -1
要用于 RuleFit 模型的最大规则数量(-1 表示全部)
rulefit_max_tree_depth¶
rulefit_max_tree_depth (Number)
Default value 6
Max tree depth for RuleFit models
rulefit_max_num_trees¶
rulefit_max_num_trees (Number)
Default value 100
Max number of trees for RuleFit models
fixed_ensemble_level¶
Ensemble level for final modeling pipeline (Number)
默认值 -1
固定 ensemble_level -1 = auto,基于 ensemble_accuracy_switch、准确度、数据大小,等等。0 = 无集成模型,在验证的迭代/树计数上仅单个最终模型 1 = 1 个模型,多个集成折叠(交叉验证) >=2 = >=2 个模型,多个集成折叠(交叉验证)
cross_validate_single_final_model¶
Cross-validate single final model (Boolean)
默认值 True
- 如果启用,请使用交叉验证来确定单个最终模型的最优参数,
并能够创建训练保持预测。
ensemble_meta_learner¶
Type of ensemble meta learner. Blender is recommended for most use cases. (String)
默认值 'blender'
要组合基本模型的预测结果的模型,适用于创建由多个基本模型组成的最终管道的实验。
blender:创建线性混合,其中非负权重合计为 1(混合)- 推荐 extra_trees:创建树模型来以非线性组合基本模型(堆叠)- 实验性,推荐额外设置启用 cross_validate_meta_learner。neural_net:创建神经网络模型来以非线性组合基本模型(堆叠)- 实验性,推荐额外设置启用 cross_validate_meta_learner。
cross_validate_meta_learner¶
Cross-validate meta learner for final ensemble. (Boolean)
默认值 False
如果启用,使用交叉验证为元学习器本身创建集成。特别推荐用于 ensemble_meta_learner=’extra_trees’ ,以便进行无偏差的训练保持预测。如果启用,将禁用 MOJO。ensemble_meta_learner=’blender’ 不需要。”
parameter_tuning_num_models¶
Number of models during tuning phase (-1 = auto) (Number)
默认值 -1
在预演变阶段要进行调优的模型数量。可以调低此值以避免过度调优,或调高此值以执行增强调优。-1:auto
imbalance_sampling_method¶
Sampling method for imbalanced binary classification problems (String)
默认值 'off'
用于不平衡二元分类问题的抽样方法。选项包括:”auto”:按需对两个类执行抽样,具体视数据而定 “over_under_sampling”:对少数类执行过抽样并对多数类执行欠抽样,具体视数据而定 “under_sampling”:对多数类执行欠抽样,以达到类别平衡 “off”:不执行任何抽样
imbalance_sampling_threshold_min_rows_original¶
Threshold for minimum number of rows in original training data to allow imbalanced sampling techniques. For smaller data, will disable imbalanced sampling, no matter what imbalance_sampling_method is set to. (Number)
默认值 100000
对于较小的数据,使用不平衡抽样方法通常没有益处。
imbalance_ratio_sampling_threshold¶
Ratio of majority to minority class for imbalanced binary classification to trigger special sampling techniques if enabled (Number)
默认值 5
对于不平衡的二元分类问题:多数类与少数类的比率,当比率等于或大于该比率时,启用会进行抽样(由 imbalance_sampling_method 指定)的特殊不平衡模型,以尝试改善模型性能。
heavy_imbalance_ratio_sampling_threshold¶
Ratio of majority to minority class for heavily imbalanced binary classification to only enable special sampling techniques if enabled (Number)
默认值 25
对于高度不平衡的二元分类问题:多数类与少数类的比率,等于或大于该比率时,仅对完整的原始数据启用特殊不平衡模型,而不使用前置抽样。
imbalance_sampling_number_of_bags¶
Number of bags for sampling methods for imbalanced binary classification (if enabled). -1 for automatic. (Number)
默认值 -1
-1:automatic
imbalance_sampling_max_number_of_bags¶
Hard limit on number of bags for sampling methods for imbalanced binary classification. (Number)
默认值 10
-1:automatic
imbalance_sampling_max_number_of_bags_feature_evolution¶
Hard limit on number of bags for sampling methods for imbalanced binary classification during feature evolution phase. (Number)
默认值 3
- 仅适用于移位/泄露/调优/特征演变模型。不用于最终模型。最终模型可以
通过 imbalance_sampling_max_number_of_bags 进行限制。
imbalance_sampling_max_multiple_data_size¶
Max. size of data sampled during imbalanced sampling (in terms of dataset size) (Float)
默认值 1.0
- 不平衡抽样过程中抽样的最大抽样数据大小(按数据集大小),
控制袋子数量(近似)。仅适用于 imbalance_sampling_number_of_bags == -1 的情况。
imbalance_sampling_target_minority_fraction¶
Target fraction of minority class after applying under/over-sampling techniques. -1.0 for automatic (Float)
默认值 -1.0
- 值 0.5 表示模型/算法将在
对训练数据应用欠抽样/过抽样方法后获得平衡的目标类别分布。有时,当从极度不平衡的原始目标分布开始时,选择一个较小的值(例如 0.1 或 0.01)是合理的。-1.0:automatic
ftrl_max_interaction_terms_per_degree¶
Max. number of automatic FTRL interactions terms for 2nd, 3rd, 4th order interactions terms (each) (Number)
默认值 10000
对自动 FTRL 交互项的数量进行的抽样不得超过此值(针对每个 2 阶、3 阶、4 阶项)
enable_bootstrap¶
Whether to enable bootstrap sampling for validation and test scores. (Boolean)
默认值 True
是否启用自助抽样。根据自助法平均值的标准误差对验证和测试评分提供误差线。
tensorflow_num_classes_switch¶
For classification problems with this many classes, default to TensorFlow (Number)
默认值 10
- 类别数,如果高于此数值,始终使用 TensorFlow(如果启用 TensorFlow),
而不会使用其他设置为 ‘auto’ 的模型(仍可使用设置为 ‘on’ 的模型)。
prediction_intervals¶
Compute prediction intervals (Boolean)
默认值 True
计算经验预测区间(基于保持预测)。
prediction_intervals_alpha¶
Confidence level for prediction intervals (Float)
默认值 0.9
预测区间的置信度。
pred_labels¶
Output labels for predictions created during the experiment for classification problems. (Boolean)
默认值 True
- 附加带有预测目标类别的一个额外输出列(在每个类别的概率之后)。
将 argmax 用于多类问题,并将 ‘threshold_scorer’ 专家设置控制的最优评分器定义的阈值用于二元问题。此设置控制由实验创建的训练、验证和测试集预测值(如果适用)。MOJO、评分管道和客户端 API 通过其各自版本的此参数来控制此行为。
max_abs_score_delta_train_valid¶
Max. absolute delta between training and validation scores for tree models. (Float)
默认值 0.0
- 修改基于树的模型(LightGBM、XGBoostGBM、CatBoost)的早停法行为,以使
训练分数(在训练数据上,而非保持)与验证分数之差不超过此绝对值(即,一旦 abs(train_score - valid_score) > max_abs_score_delta_train_valid 即停止添加树)。记住,此值的含义取决于所选评分器和数据集(也就是说,LogLoss 的 0.01 不同于 MSE 的 0.01)。此选项为实验性,仅供专家用于保持模型的低复杂性。若要禁用,将其设置为 0.0
max_rel_score_delta_train_valid¶
Max. relative delta between training and validation scores for tree models. (Float)
默认值 0.0
- 修改基于树的模型(LightGBM、XGBoostGBM、CatBoost)的早停法行为,以使
训练分数(在训练数据上,而非保持)与验证分数之差不超过此相对值(即,一旦 abs(train_score - valid_score) > max_abs_score_delta_train_valid * abs(train_score) 即停止添加树)。记住,此值的含义取决于所选评分器和数据集(也就是说,LogLoss 的 0.01 不同于 MSE 的 0.01)。此选项为实验性,仅供专家用于保持模型的低复杂性。若要禁用,将其设置为 0.0
glm_lambda_search¶
Do lambda search for GLM (String)
默认值 'auto'
- 是否搜索 XGBoost GLM 的给定 alpha 的最优 lambda。
如果为 ‘auto’,则在训练数据的行数 * 列数大于 final_pipeline_data_size 时禁用或针对多类实验禁用。对于 ensemble_level = 0 的情况始终禁用。并非总是一个好方法,可能缓慢而相较于网格搜索的回报甚微。
glm_lambda_search_by_eval_metric¶
Do lambda search for GLM by exact eval metric (Boolean)
默认值 False
- 如果启用 XGBoost GLM lambda 搜索,是按 eval 指标 (True)
还是使用实际 DAI 评分器 (False) 执行搜索。
enable_early_stopping_threshold¶
Early stopping threshold (String)
默认值 'auto'
- 是否启用 LightGBM 的早停法阈值,准确度有所不同。
一旦验证集评分变化程度小于阈值即停止训练。这会导致更少的树,通常会避免浪费树,但可能会降低准确度。’off’ 导致使用值 0。’on’ 导致对于更低准确度的刻度盘更高的值。’auto’ 导致 ‘off’ ,除非 reduce_mojo_size 为 true。
glm_optimal_refit¶
glm_optimal_refit (Boolean)
默认值 True
dump_modelparams_every_scored_indiv¶
Enable detailed scored model info (Boolean)
默认值 True
是否将每个评分个体的模型参数转储至 csv/tabulated/json 文件,生成文件,例如:individual_scored.params.[txt, csv, json]