特征配置¶
feature_engineering_effort¶
Feature engineering effort (0..10) (Number)
默认值 -1
耗费多大工作量进行特征工程 (-1…10) 各种开发人员级别 toml 参数的启发式组合 -1 :auto (5,但对于宽数据集为 1,以便限制工程) 0 :仅保留数值特征,仅在演变过程中进行模型调优 1 :仅保留数值特征和频率编码分类列,仅在演变过程中进行模型调优 2 :与 #1 相似,但没有文本特征。在演变前对某些特征进行调优。 3 :与 #5 相似,但仅在演变过程中进行调优。对特征和模型参数进行混合调优。 4 :与 #5 相似,但略侧重于模型调优 5 :默认值。在特征与模型调优之间取得平衡 6-7 :与 #5 相似,但略侧重于特征工程 8 :与 #6-7 相似,但更侧重于具有较高特征生成率、即使可解释性较高也不会丢弃任何特征的特征工程 9-10: 与 #8 相似,但在特征演变过程不会进行模型调优
check_distribution_shift¶
Data distribution shift detection (String)
默认值 'auto'
是否启用训练/验证或训练/测试分布移位检测 (‘auto’/’on’/’off’)。默认情况下,会尽可能将 LightGBMModel 用于移位检测,除非在模型专家面板中将其关闭,此时将仅使用插件列表中选择的模型。
check_distribution_shift_drop¶
Data distribution shift detection drop of features (String)
默认值 'auto'
是否丢弃高移位的特征 (‘auto’/’on’/’off’)。 Auto 会禁用 Time Series。
drop_features_distribution_shift_threshold_auc¶
Max allowed feature shift (AUC) before dropping feature (Float)
默认值 0.999
在启用分布移位检测的情况下,丢弃其移位 AUC、GINI 或斯皮尔曼相关系数高于此值(例如,预测给定特征值是属于训练还是测试数据的二元分类器的 AUC)的特征(ID、文本、日期/日期时间、时间、权重除外)
check_leakage¶
Leakage detection (String)
默认值 'auto'
是否检查每个特征的泄露 (True/False)。若折叠列,则将检查泄漏而不使用折叠列。默认情况下,会尽可能将 LightGBMModel 用于泄露检测,除非在模型专家面板中将其关闭,此时将仅使用插件列表中选择的模型。
drop_features_leakage_threshold_auc¶
Leakage detection dropping AUC/R2 threshold (Float)
默认值 0.999
- 如果启用泄露检测,
丢弃其 AUC(如果是回归问题,则为 R2)、GINI 或斯皮尔曼相关系数高于此值的特征。如果存在折叠列,则不会丢弃特征,因为泄露测试在不使用折叠列的情况下适用。
leakage_max_data_size¶
Max rows x columns for leakage (Number)
默认值 10000000
最大行数 x 列数,用于触发泄露检查的(分层)抽样
max_features_importance¶
Max. num. features for variable importance (Number)
默认值 100000
重要性表格中要使用和显示的最大特征数。对于任何高于 1 的可解释性,始终会移除其重要性低于顶部 max_features_importance 特征的转换或原始特征。相应地,转换或原始特征的特征重要性也会被削减。对于 100k 列以上的数据集,值越高,会导致性能越低,所使用的磁盘空间也会越大。
enable_wide_rules¶
Enable Wide Rules (String)
默认值 'auto'
启用各种规则来处理宽(列数 > 行数)数据集 (‘auto’/’on’/’off’)。设置 on 会强制启用规则,无论列数如何。
orig_features_fs_report¶
Report permutation importance on original features (Boolean)
默认值 False
是否获取原始特征的 Permutation Feature Importance,以在日志和摘要 zip 文件(作为 fs_*.json 或 fs_*.tab.txt 模式的文件)中报告。这会计算单个未调优模型(通常是带有预定义未调优超参数的 LightGBM)和一组简单特征(编码通常为频率编码或目标编码)的特征重要性。如果有许多原始特征,会自动删除重要性较低的特征,或者如果可解释性足够高,会创建按排列重要性选择特征的模型,以便确定是否可得出更好的评分。可以手动丢弃重要性较低的特征,但这可能会有风险,因为转换器或超参数可能恢复其有用性。排列重要性的获取方式如下:1) 将分类列转换为频率或目标编码特征。2) 在许多折叠、不同数据大小和略有变化的超参数上拟合该模型。3) 在该模型上针对每个特征进行预测,其中每个特征的数据都已打乱。4) 计算每个打乱预测的评分。5) 计算未打乱评分和打乱评分之差,以得出增量评分。6) 增量评分在通过最大值进行归一化后成为变量重要性。
正增量评分表示该特征对模型评分有利,而负增量评分表示该特征对模型评分不利。归一化的评分存储在摘要 zip 中的 fs_normalized_* 文件中。未归一化的评分(实际增量评分)存储在摘要 zip 中的 fs_unnormalized_* 文件中。
自动报告有类似功能,即提供原始特征的排列重要性,其中系统获取实验的特定最终模型并通过排列重要性运行训练数据集以获取原始重要性,这样就会打乱原始特征,并在每组打乱的原始特征中计算完整管道。
max_rows_fs¶
Maximum number of rows to perform permutation-based feature selection (Number)
默认值 500000
计算 Permutation Feature Importance 时的最大行数,通过(分层)随机抽样减少。
max_orig_cols_selected¶
Max. number of original features used (Number)
默认值 10000000
使用特征选择从一组原始列中选择的最大列数。此选择基于分类列和被视为分类列的数值列目标编码(如果不可用,则为频率编码)的有效程度。这有助于降低最终模型的复杂性。首先会使用特征选择方法找到最佳 [max_orig_cols_selected],然后将这些特征用于特征演变(以衍生其他特征)和建模。
max_orig_numeric_cols_selected¶
max_orig_numeric_cols_selected (Number)
默认值 10000000
Maximum number of numeric columns selected, above which will do feature selection same as above (max_orig_cols_selected) but for numeric columns.
max_orig_nonnumeric_cols_selected¶
Max. number of original non-numeric features (Number)
默认值 300
所选择的最大非数值列数量,超过此数值,则将对所有特征执行特征选择并避免如上述情形般 (max_orig_numeric_cols_selected) 将数值列作为分类列处理,但可将其用于分类列。
max_orig_cols_selected_simple_factor¶
max_orig_cols_selected_simple_factor (Number)
默认值 2
The factor times max_orig_cols_selected, by which column selection is based upon no target encoding and no treating numerical as categorical in order to limit performance cost of feature engineering
fs_orig_cols_selected¶
Max. number of original features used for FS individual (Number)
默认值 10000000
与 max_orig_cols_selected 相似,但超过此值后的列会添加减少了原始列的特殊个体模型。
fs_orig_numeric_cols_selected¶
Num. of original numeric features to trigger feature selection model type (Number)
默认值 10000000
- 与 max_orig_numeric_cols_selected 相似,但适用于减少了原始列的特殊个体模型。
遗传算法中的单独个体模型通过按原始特征的排列重要性选择特征来创建。
fs_orig_nonnumeric_cols_selected¶
Num. of original non-numeric features to trigger feature selection model type (Number)
默认值 200
- 与 max_orig_nonnumeric_cols_selected 相似,但适用于减少了原始列的特殊个体模型。
遗传算法中的单独个体模型通过按原始特征的排列重要性选择特征来创建。
fs_orig_cols_selected_simple_factor¶
fs_orig_cols_selected_simple_factor (Number)
默认值 2
Like max_orig_cols_selected_simple_factor, but applicable to special individual with original columns reduced.
predict_shuffle_inside_model¶
Allow supported models to do feature selection by permutation importance within model itself (Boolean)
默认值 True
use_native_cats_for_lgbm_fs¶
Whether to use native categorical handling (CPU only) for LightGBM when doing feature selection by permutation (Boolean)
默认值 True
orig_stddev_max_cols¶
Maximum number of original columns up to which will compute standard deviation of original feature importance. Can be expensive if many features. (Number)
默认值 1000
max_relative_cardinality¶
Max. allowed fraction of uniques for integer and categorical cols (Float)
默认值 0.95
整数列和分类列的唯一值的最大容许分数(否则会将列视为 ID 并丢弃)
max_absolute_cardinality¶
max_absolute_cardinality (Number)
Default value 1000000
Maximum allowed number of unique values for integer and categorical columns (otherwise will treat column as ID and drop)
num_as_cat¶
Allow treating numerical as categorical (Boolean)
默认值 True
是否将某些数值特征作为分类特征。例如,有时整数列可能不是表示数值特征,而是表示不同的数值代码。
max_int_as_cat_uniques¶
Max. number of unique values for int/float to be categoricals (Number)
默认值 50
要视为分类列的整数/实数列的唯一值最大数量(测试仅适用于前 statistical_threshold_data_size_small 行)
max_int_as_cat_uniques_if_not_benford¶
Max. number of unique values for int/float to be categoricals if violates Benford’s Law (Number)
默认值 1000
要视为分类列的整数/实数列的唯一值最大数量(测试仅适用于前 statistical_threshold_data_size_small 行)。适用于违反本福特定律(因而类似 ID,但又不完全是 ID)的整数或实数数值特征。
max_fraction_invalid_numeric¶
Max. fraction of numeric values to be non-numeric (and not missing) for a column to still be considered numeric (Float)
默认值 -1.0
当非数字(和非缺失)值的分数小于或等于此值时,应考虑列数值。可以帮助解决实验数据质量的次要问题,但由于可能会发生类型不一致,不建议用于生产。请注意:在实验开始时用缺失值替换了非数字值,因此丢失了一些信息,但现在列被视为数字,可以提供帮助。如果 < 0 则被禁用。
nfeatures_max¶
Max. number of engineered features (-1 = auto) (Number)
默认值 -1
每个模型(以及集成的最终模型中的每个模型)保留的最大特征数量。在每次评分之后,保留变量重要性居前列的特征,修剪掉其他特征。最终的集成模型将不包括任何被修剪掉的特征,仅对保留的特征进行训练,但是由于对不同数据视图(例如新聚类)进行拟合,因此此模型可能包含一些新特征。最终评分管道将不包括任何被修剪掉的特征,但是由于对不同数据视图(例如新聚类)进行拟合,可能包含一些新特征。 -1 表示除内部确定的内存和可解释性限制外,不受其他限制。请注意: * 如果可解释性 >remove_scored_0gain_genes_in_postprocessing_above_interpretability,则每次 GA 迭代将在对特征进行评分后立即对其进行后处理,将其降低至此值。否则,将仅修剪所评分的个体模型的突变部分(直至修剪为严格应用限制值的最终模型)。 * 如果未同样限制 ngenes_max,则某些个体模型将具有更多的基因和特征,直至由于突变或准备最终模型而进行修剪。 * 例如,通常为了将每次迭代确切限制为 1 个特征,必须设置 nfeatures_max=ngenes_max=1 和 remove_scored_0gain_genes_in_postprocessing_above_interpretability=0,但是这样遗传算法将很难找到良好特征。
ngenes_max¶
Max. number of genes (transformer instances) (-1 = auto) (Number)
默认值 -1
每个模型(以及集成的最终模型中的每个模型)保留的最大基因(转换器实例)数量。在对特征进行评分之前,这可以控制基因数量,因此,如果发生修剪,仅对基因进行随机抽样。如果在对特征进行评分之后出现限制,则将使用聚合的基因重要性来修剪基因。实例包括所有可能的转换器,其中包含用于数值特征的原始转换器。-1 表示除内部确定的内存和可解释性限制外,没有其他限制
limit_features_by_interpretability¶
Limit features by interpretability (Boolean)
默认值 True
是否通过 features_allowed_by_interpretability 按可解释性设置来限制特征计数
monotonicity_constraints_interpretability_switch¶
Threshold for interpretability above which to enable automatic monotonicity constraints for tree models (Number)
默认值 7
等于或大于此值的可解释性设置将在 XGBoostGBM/LightGBM/DecisionTree 模型中自动使用 Monotonicity Constraints。
monotonicity_constraints_log_level¶
Control amount of logging when calculating automatic monotonicity constraints (if enabled) (String)
默认值 'medium'
对于支持单调性约束的模型,如果启用,则将根据其与目标的相关性,表现出针对模型中每个特征的自动确定的单调性约束。设置为 ‘低’ 时,仅显示单调性约束方向。设置为 ‘中’ 时,会显示正向和负向约束特征的相关性。设置为 ‘高’ 时,会显示所有相关系数值。
monotonicity_constraints_correlation_threshold¶
Correlation beyond which triggers monotonicity constraints (if enabled) (Float)
默认值 0.1
数值或编码转换特征和目标之间的皮尔逊积矩相关系数阈值,如果超过此值(低于负值),则在 XGBoostGBM、LightGBM 和 DecisionTree 模型中强制执行正(负)单调性约束。可解释性 >= monotonicity_constraints_interpretability_switch config toml 值时启用。仅当未提供 monotonicity_constraints_dict 时适用。
monotonicity_constraints_drop_low_correlation_features¶
Whether to drop features that have no monotonicity constraint applied (e.g., due to low correlation with target). (Boolean)
默认值 False
If enabled, only monotonic features with +1/-1 constraints will be passed to the model(s), and features without monotonicity constraints (0, as set by monotonicity_constraints_dict or determined automatically) will be dropped. Otherwise all features will be in the model. Only active when interpretability >= monotonicity_constraints_interpretability_switch or monotonicity_constraints_dict is provided.
monotonicity_constraints_dict¶
Manual override for monotonicity constraints (Dict)
默认值 {}
Manual override for monotonicity constraints. Mapping of original numeric features to desired constraint (1 for pos, -1 for neg, or 0 to disable. True can be set for automatic handling, False is same as 0). Features that are not listed here will be treated automatically, and so get no constraint (i.e., 0) if interpretability < monotonicity_constraints_interpretability_switch and otherwise the constraint is automatically determined from the correlation between each feature and the target. Example: {‘PAY_0’: -1, ‘PAY_2’: -1, ‘AGE’: -1, ‘BILL_AMT1’: 1, ‘PAY_AMT1’: -1}
max_feature_interaction_depth¶
Max. feature interaction depth (Number)
默认值 -1
探索特征交互对于获得更高预测性能而言十分重要。交互可采取多种形式(即,特征1 + 特征 2 或特征 1 * 特征 2 + ……特征 N)。尽管某些机器学习算法(例如基于树的方法)能在训练过程中很好地捕捉这些交互,但是产生交互可能会帮助这些算法(或其他算法)提供更好的性能。可指定交互级别的深度(例如在 “最多” 中,指定一次最多可组合多少个特征以创建一个单个特征),以控制特征工程进程的复杂性。对于同时使用数值和分类特征的转换器,这会约束每个类型的数量,而不是总数。值越高,在以时间为代价的情况下构建的预测模型可能越多(-1 表示自动)。
fixed_feature_interaction_depth¶
Fixed feature interaction depth (Number)
默认值 0
选择要使用的固定非零列数,而不是从每个转换器 (0) 允许的最小到最大(最多 max_feature_interaction_depth,除非全部指定)列数抽样。在每个转换器允许的情况下,可以生成相同列数以使用每个转换器的所有列。可以选择 -n 来执行 50/50 的抽样和 n 个特征的固定值。
fixed_num_individuals¶
fixed_num_individuals (Number)
默认值 0
set fixed number of individuals (if > 0) - useful to compare different hardware configurations. If want 3 individuals in GA race to be preserved, choose 6, since need 1 mutatable loser per surviving individual.
enable_target_encoding¶
Enable Target Encoding (auto disables for time series) (String)
默认值 'auto'
是否可以启用目标编码(CV 目标编码、证据权重,等等)目标编码涉及到几种不同的特征转换(主要集中于分类数据),其旨在使用实际目标变量的信息来表示特征。一个简单的示例是使用目标的平均值来替换分类特征中的每个唯一类别。此类型的特征可能具有很好的预测性,但是容易出现过度拟合现象,并且会由于需要存储唯一类别和目标值的映射而需要更多内存。
cvte_cv_in_cv¶
Enable outer CV for Target Encoding (Boolean)
默认值 True
对于目标编码,在对训练的 fit_transform、对训练的 transform 和对验证数据的 transform 之间检测到 GINI 改变符号(或证据权重符号不一致)时,是否执行外部交叉-折叠验证。GINI 的不准确程度还可用于执行查找表的折叠平均,而非使用全局查找表。
cv_in_cv_overconfidence_protection¶
Enable outer CV for Target Encoding with overconfidence protection (String)
默认值 'auto'
对于目标编码,在执行外部交叉-折叠验证时,如果对训练的 fit_transform、对训练的 transform 和对验证数据的 transform 之间 GINI 在特征和目标之间不接近,则增加外部折叠或中止目标编码的数量。
enable_lexilabel_encoding¶
Enable Lexicographical Label Encoding (String)
默认值 'off'
enable_isolation_forest¶
Enable Isolation Forest Anomaly Score Encoding (String)
默认值 'off'
enable_one_hot_encoding¶
Enable One HotEncoding (auto enables only for GLM) (String)
默认值 'auto'
是否可以启用一个热编码:如果为 auto,则仅适用于小数据和 GLM。
isolation_forest_nestimators¶
Num. Estimators for Isolation Forest Encoding (Number)
默认值 200
one_hot_encoding_cardinality_threshold¶
one_hot_encoding_cardinality_threshold (Number)
默认值 50
Enable One-Hot-Encoding (which does binning to limit to number of bins to no more than 100 anyway) for categorical columns with fewer than this many unique values Set to 0 to disable
text_as_categorical_cardinality_threshold¶
text_as_categorical_cardinality_threshold (Number)
默认值 1000
Treat text columns also as categorical columns if the cardinality is <= this value. Set to 0 to treat text columns only as text.
drop_redundant_columns_limit¶
Max number of columns to check for redundancy in training dataset. (Number)
默认值 1000
如果数据集有更多列,则将仅检查前几个此类列。设置为 0 可禁用。
drop_constant_columns¶
Drop constant columns (Boolean)
默认值 True
是否丢弃带有常量值的列
drop_id_columns¶
Drop ID columns (Boolean)
默认值 True
是否丢弃显示为 ID 的列
no_drop_features¶
Don’t drop any columns (Boolean)
默认值 False
是否避免丢弃任何列(原始或衍生)
cols_to_drop¶
Features to drop, e.g. “V1”, “V2”, “V3” (List)
默认值 []
直接控制要批量丢弃的列,以便可以复制粘贴大型列表,而不用在 GUI 中单独选择每个列
cols_to_group_by¶
Features to group by, e.g. “G1”, “G2”, “G3” (List)
默认值 []
针对 CVCatNumEncode 转换器控制要作为分组依据的列,默认为空列表,这意味着 DAI 会自动搜索随机选择的或具有最高变量重要性的所有列。CVCatNumEncode 转换器会获取分类列的列表(或这些 cols_to_group_by)并将这些列用作新特征来对其执行聚合 (agg_funcs_for_group_by)。
sample_cols_to_group_by¶
Sample from features to group by (Boolean)
默认值 False
在使用 cols_to_group_by 时,是从给定特征抽样以作为分组依据 (True),还是始终按所有特征分组 (False)。
agg_funcs_for_group_by¶
Aggregation functions (non-time-series) for group by operations (List)
默认值 ['mean', 'sd', 'min', 'max', 'count']
要用于 CVCatNumEncode 转换器的分组操作的聚合函数,另请参阅 cols_to_group_by 和 sample_cols_to_group_by。
folds_for_group_by¶
Number of folds to obtain aggregation when grouping (Number)
默认值 5
折外聚合可确保更少的过度拟合,但是在每次折叠中看到的数据也会减少。用于控制 CVCatNumEncode 转换器使用的折叠数量。
cols_to_force_in¶
Features to force in, e.g. “G1”, “G2”, “G3” (List)
默认值 []
控制要强制插入的列。强制插入的特征由实验选项所允许的最高可解释性的转换器处理,而且绝不会将其移除(尽管模型仍可以向它们分配 0 重要性)。默认使用的转换器包括:OriginalTransformer,用于数值;CatOriginalTransformer 或 FrequencyTransformer,用于分类;TextOriginalTransformer,用于文本;DateTimeOriginalTransformer,用于日期-时间;DateOriginalTransformer,用于日期;ImageOriginalTransformer 或 ImageVectorizerTransformer,用于图像;等等。
cols_to_force_in_sanitized¶
cols_to_force_in_sanitized (List)
默认值 []
mutation_mode¶
Type of mutation strategy (String)
默认值 'sample'
- 对转换器执行突变时要应用的策略。
样本模式是默认的,倾向于对转换器参数进行采样。批处理模式倾向于同时执行多种类型的同一转换。完全模式同时执行更多种类型的同一转换。
detect_features_leakage_threshold_auc¶
Leakage feature detection AUC/R2 threshold (Float)
默认值 0.95
启用泄露检测时,如果原始数据的 AUC(如果是回归问题,则为 R2)高于或等于此值,则触发每个特征的泄露检测
detect_features_per_feature_leakage_threshold_auc¶
Leakage features per feature detection AUC/R2 threshold (Float)
默认值 0.8
启用泄露检测时,显示 AUC(如果是回归问题,则为 R2,表示单靠该预测因子/特征能否预测目标)高于或等于此值的特征。如果 AUC/R2 高于或等于 drop_features_leakage_threshold_auc,则丢弃该特征
interaction_finder_gini_rel_improvement_threshold¶
Required GINI relative improvement for Interactions (Float)
默认值 0.5
- InteractionTransformer 所需的 GINI 相对提升值。
如果与交互中考虑的原始特征相比,GINI 系数并不优于此相对提升值,则不返回此交互。如果数据比较嘈杂,且交互中没有明确的标志,但仍需要交互,则可降低此数值。
interaction_finder_return_limit¶
Number of transformed Interactions to make (Number)
默认值 5
要从所进行的许多交互尝试中进行最佳转换交互的次数。
varimp_threshold_at_interpretability_10¶
Lowest allowed variable importance at interpretability 10 (Float)
默认值 0.01
- 变量重要性,在此之下特征会被丢弃(可能找到更好的替换项)
这还设置了较低可解释性设置的整体范围。如果您尽管选择了高可解释性但仍满足于有许多弱特征,或者您发现由于需要弱特征而导致性能下降,则设置为较低的值。
stabilize_varimp¶
Whether to take minimum (True) or mean (False) of variable importance when have multiple folds/repeats. (Boolean)
默认值 True
- 变量重要性由遗传算法用于决定哪些特征有用,
因此这可以提高遗传算法的特征选择稳定性。这不被允许用于 Time Series 实验,它们可能在每次拆分中有真实的不同行为。
stabilize_fs¶
Whether to take minimum (True) or mean (False) of delta improvement in score when aggregating feature selection scores across multiple folds/depths. (Boolean)
默认值 True
- 聚合多个折叠/深度的特征选择分数时,分数增量改进是取最小值 (True) 还是平均值 (False)。
如果最大化指标,分数增量改进对应于原始指标减去混排特征框架指标;如果最小化指标,则对应于此分数差的负值。按排列重要性的特征选择考虑了混排特征后分数的变化,而使用最小值运算则在聚合折叠时忽略乐观分数,而倾向于悲观分数。注意,如果使用树方法,可能会拟合多个深度,在这种情况下,无论此 toml 设置如何,只有为所有深度保留的特征才能被特征选择所保留。如果可解释性 >= config toml 值 fs_data_vary_for_interpretability,则将一半数据(或 fs_data_frac 设置)用作再一次拟合,在这种情况下,无论此 toml 设置如何,只有为所有数据大小保留的特征才能被特征选择所保留。注意:对于小数据,此选项设置为禁用,因为任意小数据分片都可能会导致重要特征分离,而且只有聚合的平均性能才有信号。
enable_rapids_transformers¶
Whether to enable RAPIDS CUML GPU transformers (no mojo) (Boolean)
默认值 False
是否启用基于 GPU 的 RAPIDS CUML 转换器。如果希望支持 Dask RAPIDS 转换器,必须设置 enable_rapids_transformers_dask=true。不支持 MOJO,但支持 Python 评分。处于 alpha 测试状态。
enable_rapids_transformers_dask¶
Whether to enable RAPIDS CUML GPU transformers to use Dask (no mojo) (Boolean)
默认值 False
是否为有能力的 RAPIDS CUML 转换器启用多 GPU 模式。还必须设置 enable_rapids_transformers=true。不支持 MOJO,但支持 Python 评分。处于 alpha 测试状态。
features_allowed_by_interpretability¶
features_allowed_by_interpretability (String)
Default value '{1: 10000000, 2: 10000, 3: 1000, 4: 500, 5: 300, 6: 200, 7: 150, 8: 100, 9: 80, 10: 50, 11: 50, 12: 50, 13: 50}'
nfeatures_max_threshold¶
nfeatures_max_threshold (Number)
默认值 200
feature_cost_mean_interp_for_penalty¶
feature_cost_mean_interp_for_penalty (Number)
默认值 5
features_cost_per_interp¶
features_cost_per_interp (Float)
Default value 0.25
varimp_threshold_shift_report¶
varimp_threshold_shift_report (Float)
Default value 0.3
apply_featuregene_limits_after_tuning¶
apply_featuregene_limits_after_tuning (Boolean)
默认值 True
remove_scored_0gain_genes_in_postprocessing_above_interpretability¶
remove_scored_0gain_genes_in_postprocessing_above_interpretability (Number)
Default value 13
remove_scored_0gain_genes_in_postprocessing_above_interpretability_final_population¶
remove_scored_0gain_genes_in_postprocessing_above_interpretability_final_population (Number)
默认值 2
remove_scored_by_threshold_genes_in_postprocessing_above_interpretability_final_population¶
remove_scored_by_threshold_genes_in_postprocessing_above_interpretability_final_population (Number)
默认值 7
dump_varimp_every_scored_indiv¶
Enable detailed scored features info (Boolean)
默认值 False
是否将每个已评分个体模型的变量重要性(包括衍生变量和原始变量)转储至 csv/tabulated/json 文件。生成 individual_scored_id%d.iter%d*features* 之类的文件。
dump_trans_timings¶
Enable detailed logs for timing and types of features produced (Boolean)
默认值 False
是否将每个已评分折叠的时间和特征信息转储至 timings.txt 文件
unsupervised_clustering_min_clusters¶
Min. number of clusters for unsupervised clustering experiments (Number)
默认值 2
尝试为无监督实验模式下的聚类算法创建至少这么多的聚类。
unsupervised_clustering_max_clusters¶
Max. number of clusters for unsupervised clustering experiments (Number)
默认值 10
尝试为无监督实验模式下的聚类算法创建不超过这么多的聚类。
compute_correlation¶
Compute correlation matrix (Boolean)
默认值 False
- ‘
是否计算训练、验证和测试相关矩阵(表格和 Heatmap PDF)并保存到磁盘 alpha:目前为单线程,列数较多时比较慢