특징 구성¶
feature_engineering_effort¶
Feature engineering effort (0..10) (Number)
Default value -1
특징 가공에 얼마나 많은 노력을 들이는지 (-1…10) 다양한 개발자 수준의 toml 매개변수의 휴리스틱 조합 -1 : 자동 (5, 가공을 제한하기 위해 넓은 데이터의 경우 1 제외) 0 : 숫자 특징만 유지, 진화 중 모델 튜닝 1 : 숫자 특징 및 빈도 인코딩된 범주만 유지, 진화 중 모델 튜닝 2 : #1과 유사하지만 대신 텍스트 특징 없음. 진화 전 일부 특징 튜닝. 3 : #5와 비슷하지만 진화 중에만 튜닝. 특징 및 모델 매개변수의 혼합 튜닝. 4 : #5와 비슷하지만 모델 튜닝에 약간 더 집중. 5 : 기본값. 균형 잡힌 특징 모델 튜닝 6-7 : #5와 비슷하지만 특징 가공에 약간 더 집중 8 : #6-7과 비슷하지만 특징 생성률이 높은 특징 가공에 더 집중하지만 해석 가능성이 높아도 특징이 떨어지지 않음 9- 10: #8과 비슷하지만 특징 진화 중 모델 튜닝 없음
check_distribution_shift¶
Data distribution shift detection (String)
Default value 'auto'
학습/유효 및 학습/테스트 분포 이동 감지 활성화 여부(〈auto〉/〉on〉/〉off〉). 기본적으로 LightGBMModel은 모델 전문가 패널에서 끄지 않는 한 가능하면 이동 감지에 사용되며 레시피 목록에서 선택한 모델만 사용됩니다.
check_distribution_shift_drop¶
Data distribution shift detection drop of features (String)
Default value 'auto'
고속 이동 특징의 삭제 여부(〈auto〉/〉on〉/〉off〉). time series에는 자동으로 비활성화됩니다.
drop_features_distribution_shift_threshold_auc¶
Max allowed feature shift (AUC) before dropping feature (Float)
Default value 0.999
분포 이동 감지가 활성화된 경우 이동 AUC, GINI 또는 Spearman 상관 관계가 이 값보다 높은 특징(ID, 텍스트, 날짜/날짜시간, 시간, 가중치 제외)(예: 주어진 특징 값이 교육 또는 테스트 데이터에 속하는지를 예측하는 바이너리 분류기의 AUC)을 삭제합니다.
check_leakage¶
Leakage detection (String)
Default value 'auto'
특징별 누출 확인 여부(True/False). 폴드 열의 경우 폴드 열을 사용하지 않고 누출을 확인합니다. 기본적으로 LightGBMModel은 모델 전문가 패널에서 끄지 않는 한 가능하면 누출 감지에 사용되며 레시피 목록에서 선택한 모델만 사용됩니다.
drop_features_leakage_threshold_auc¶
Leakage detection dropping AUC/R2 threshold (Float)
Default value 0.999
- 누출 감지가 활성화된 경우,
AUC(회귀의 경우 R2), GINI 또는 Spearman 상관 관계가 이 값보다 높은 특징을 삭제합니다. 폴드 열이 있는 경우 특징은 삭제되지 않는데 폴드 열을 사용하지 않고 누출 테스트가 적용되기 때문입니다.
leakage_max_data_size¶
Max rows x columns for leakage (Number)
Default value 10000000
누출 검사를 위해 (계층화) 샘플링을 트리거할 최대 행 수 x 열 수
max_features_importance¶
Max. num. features for variable importance (Number)
Default value 100000
중요도 표에 사용하고 표시할 특징의 최대 수. 1보다 큰 해석 가능성의 경우 최상위 max_features_importance 특징보다 중요도가 낮은 변환 또는 원래 특징은 항상 제거됩니다. 변환된 또는 원래 기능의 특징 중요도는 그에 따라 제거됩니다. 값이 높으면 성능이 저하되고, 열이 100,000개가 넘는 데이터 세트에 사용되는 디스크 공간이 더 커질 수 있습니다.
enable_wide_rules¶
Enable Wide Rules (String)
Default value 'auto'
다양한 규칙을 활성화하여 넓은(열 수 > 행 수) 데이터 세트(〈auto〉/〉on〉/〉off〉)를 처리합니다. on으로 설정하면 열에 관계없이 규칙이 활성화됩니다.
orig_features_fs_report¶
Report permutation importance on original features (Boolean)
Default value False
로그 및 요약 zip 파일(패턴이 fs_*.json 또는 fs_*.tab.txt인 파일)로 보고하기 위해 원래 특징에 대한 Permutation Feature Importance를 가져올지 여부. 이것은 조정되지 않은 단일 모델(일반적으로 조정되지 않은 하이퍼파라미터가 미리 정의된 LightGBM)과 간단한 특징 세트(일반적으로 인코딩은 빈도 인코딩 또는 대상 인코딩임)에 대한 기능 중요도를 계산합니다. 중요도가 낮은 특징은 원본 특징이 많으면 자동으로 삭제되고, 해석 가능성이 충분히 높으면 순열 중요도에 의한 특징 선택이 있는 모델을 생성하여 더 나은 점수를 주는지 확인합니다. 중요도가 낮은 기능을 수동으로 삭제할 수 있지만 이는 트랜스포머 또는 하이퍼파라미터가 유용성을 회복할 수 있으므로 위험할 수 있습니다. 순열 중요도는 다음을 통해 얻습니다. 1) 범주형을 빈도 또는 대상 인코딩 기능으로 변환. 2) 여러 폴드, 다양한 데이터 크기, 약간 다른 하이퍼파라미터에 해당 모델 피팅. 3) 각 특징의 데이터가 셔플된 각 특징에 대해 해당 모델 예측. 4) 셔플된 각 예측에 대한 점수 계산. 5) 델타 점수에 도달하기 위해 셔플되지 않은 점수와 셔플된 점수의 차이 계산. 6) 델타 점수는 최대값으로 정규화되면 변수 중요도가 됩니다.
양의 델타 점수는 특징이 모델 점수에 도움이 되었음을 나타내고 음의 델타 점수는 특징이 모델 점수에 피해를 준다는 것을 나타냅니다. 정규화된 점수는 요약 zip의 fs_normalized_* 파일에 저장됩니다. 비정규화 점수(실제 델타 점수)는 요약 zip의 fs_unnormalized_* 파일에 저장됩니다.
Autoreport에는 원래 특징에 순열 중요도를 제공하는 유사한 기능이 있습니다. 여기서 실험의 특정 최종 모델을 취하고 순열 중요도를 통해 교육 데이터 세트를 실행하여 원래 중요도를 얻으므로 원래 특징의 셔플링이 수행되고 전체 파이프라인이 원래 특징의 각 셔플 세트에서 계산됩니다.
max_rows_fs¶
Maximum number of rows to perform permutation-based feature selection (Number)
Default value 500000
(계층화된) 무작위 샘플링에 의해 감소되는 순열 특징 중요도를 수행할 때의 최대 행 수.
max_orig_cols_selected¶
Max. number of original features used (Number)
Default value 10000000
특징 선택을 사용하여 원래 열의 원래 세트에서 선택한 최대 열 수. 범주형 및 범주형으로 취급되는 숫자에 대한 대상 인코딩(또는 사용할 수 없는 경우 빈도 인코딩)이 얼마나 잘 선택되었는지에 따라 선택됩니다. 이것은 최종 모델 복잡성을 줄이는 데 유용합니다. 먼저 특직 선택 메서드를 이용해서 최고의 [max_orig_cols_selected]를 찾은 후, 해당 특징을 특징 진화(다른 특징을 도출하기 위함) 및 모델링에 사용합니다.
max_orig_numeric_cols_selected¶
max_orig_numeric_cols_selected (Number)
Default value 10000000
Maximum number of numeric columns selected, above which will do feature selection same as above (max_orig_cols_selected) but for numeric columns.
max_orig_nonnumeric_cols_selected¶
Max. number of original non-numeric features (Number)
Default value 300
숫자가 아닌 선택한 열의 최대 수. 이 수를 초과하면 모든 특징에서 특징 선택을 수행하고, 위(max_orig_numeric_cols_selected)와 동일하게 숫자를 범주형으로 처리하지 않지만, 범주형 열은 예외입니다.
max_orig_cols_selected_simple_factor¶
max_orig_cols_selected_simple_factor (Number)
Default value 2
The factor times max_orig_cols_selected, by which column selection is based upon no target encoding and no treating numerical as categorical in order to limit performance cost of feature engineering
fs_orig_cols_selected¶
Max. number of original features used for FS individual (Number)
Default value 10000000
max_orig_cols_selected와 비슷하지만, 그 이상의 열에서는 원래 열이 감소된 특수 개체가 추가됩니다.
fs_orig_numeric_cols_selected¶
Num. of original numeric features to trigger feature selection model type (Number)
Default value 10000000
- max_orig_numeric_cols_selected와 비슷하지만 원래 열이 축소된 특수 개체에 적용됩니다.
유전 알고리즘에서 별도의 개체는 원래의 특징에 대한 순열 중요도에 의한 특징 선택을 수행하여 생성됩니다.
fs_orig_nonnumeric_cols_selected¶
Num. of original non-numeric features to trigger feature selection model type (Number)
Default value 200
- max_orig_nonnumeric_cols_selected와 유사하지만 원래 열이 축소된 특수 개체에 적용됩니다.
유전 알고리즘에서 별도의 개체는 원래의 특징에 대한 순열 중요도에 의한 특징 선택을 수행하여 생성됩니다.
fs_orig_cols_selected_simple_factor¶
fs_orig_cols_selected_simple_factor (Number)
Default value 2
Like max_orig_cols_selected_simple_factor, but applicable to special individual with original columns reduced.
predict_shuffle_inside_model¶
Allow supported models to do feature selection by permutation importance within model itself (Boolean)
Default value True
use_native_cats_for_lgbm_fs¶
Whether to use native categorical handling (CPU only) for LightGBM when doing feature selection by permutation (Boolean)
Default value True
orig_stddev_max_cols¶
Maximum number of original columns up to which will compute standard deviation of original feature importance. Can be expensive if many features. (Number)
Default value 1000
max_relative_cardinality¶
Max. allowed fraction of uniques for integer and categorical cols (Float)
Default value 0.95
정수 및 범주 열에 대해 허용되는 최대 고유 값 비율(그렇지 않으면 열을 ID로 처리하고 삭제)
max_absolute_cardinality¶
max_absolute_cardinality (Number)
Default value 1000000
Maximum allowed number of unique values for integer and categorical columns (otherwise will treat column as ID and drop)
num_as_cat¶
Allow treating numerical as categorical (Boolean)
Default value True
일부 숫자 특징을 범주형으로 취급할지 여부. 예를 들어, 때때로 정수 열은 숫자 특징을 나타내지 않고 대신 다른 숫자 코드를 나타낼 수 있습니다.
max_int_as_cat_uniques¶
Max. number of unique values for int/float to be categoricals (Number)
Default value 50
범주형으로 처리될 정수/실수 열에 대한 고유 값의 최대 수(테스트는 첫 번째 statistical_threshold_data_size_small 행에만 적용됨)
max_int_as_cat_uniques_if_not_benford¶
Max. number of unique values for int/float to be categoricals if violates Benford’s Law (Number)
Default value 1000
범주형으로 처리될 정수/실수 열에 대한 고유 값의 최대 수(테스트는 첫 번째 statistical_threshold_data_size_small 행에만 적용됨). Benford의 법칙을 위반하는 정수 또는 실수 숫자 특징에 적용되며 ID와 유사하지만 완전히 ID는 아닙니다.
max_fraction_invalid_numeric¶
Max. fraction of numeric values to be non-numeric (and not missing) for a column to still be considered numeric (Float)
Default value -1.0
비숫자 (및 비누락) 값의 비율이 이 값보다 작거나 같을 때 열을 숫자로 간주합니다. 유형 불일치가 발생할 수 있으므로 생산용으로 권장되지 않는 실험 데이터 품질 문제를 해결할 수 있습니다. 참고: 실험 시작 시 비숫자 값을 누락 값으로 대체하여 일부 정보가 손실되지만, 열은 이제 숫자로 처리되므로 도움이 될 수 있습니다. 0보다 작은 경우 비활성화됩니다.
nfeatures_max¶
Max. number of engineered features (-1 = auto) (Number)
Default value -1
모델(및 앙상블의 경우 최종 모델 내의 각 모델)당 최대 특징이 유지되었습니다. 각 득점 후 최상위 변수 중요도 특징을 유지하고 나머지는 제거합니다. 최종 앙상블은 제거된 특징을 제외하고 유지된 특징에 대해서만 학습하지만 다른 데이터 보기(예: 새 클러스터)에 적합하기 때문에 몇 가지 새로운 특징을 포함할 수 있습니다. 최종 스코어링 파이프라인은 제거된 특징을 제외하지만 다른 데이터 보기(예: 새 클러스터)에 적합하기 때문에 몇 가지 새로운 특징을 포함할 수 있습니다. -1은 내부적으로 결정된 메모리 및 해석 가능성 제한을 제외하고 제한이 없음을 의미합니다. 참고: * 해석 가능성 > remove_scored_0gain_genes_in_postprocessing_above_interpretability이면 모든 GA 반복은 특징을 채점한 직후 이 값까지 특징을 후처리합니다. 그렇지 않으면 점수가 매겨진 개체의 뮤테이션만 제거됩니다(제한이 엄격하게 적용되는 최종 모델까지). * ngenes_max도 제한되지 않으면 일부 개체는 뮤테이션 또는 최종 모델 준비를 통해 제거 전까지 더 많은 유전자와 특징을 갖게 됩니다. * 예: 일반적으로 모든 반복을 정확히 1개의 특징으로 제한하려면 nfeatures_max=ngenes_max=1 및 remove_scored_0gain_genes_in_postprocessing_above_interpretability=0으로 설정해야 하지만 유전 알고리즘에서 좋은 특징을 찾기가 더 어려울 것입니다.
ngenes_max¶
Max. number of genes (transformer instances) (-1 = auto) (Number)
Default value -1
모델(및 앙상블의 경우 최종 모델 내의 각 모델)당 최대 유전자(트랜스포머 인스턴스)가 유지됩니다. 특징에 점수를 매기기 전에 유전자 수를 제어하므로 제거가 발생하면 유전자를 무작위로 샘플링합니다. 특징을 채점한 후 제한이 발생하면 집계된 유전자 중요도가 유전자 제거에 사용됩니다. 인스턴스에는 숫자 특징에 대한 원래 트랜스포머를 포함하여 가능한 모든 트랜스포머가 포함됩니다. -1은 내부적으로 결정된 메모리 및 해석 가능성 제한을 제외하고는 제한이 없음을 의미합니다.
limit_features_by_interpretability¶
Limit features by interpretability (Boolean)
Default value True
features_allowed_by_interpretability를 통한 해석 가능성 설정으로 특징 수를 제한할지 여부
monotonicity_constraints_interpretability_switch¶
Threshold for interpretability above which to enable automatic monotonicity constraints for tree models (Number)
Default value 7
XGBoostGBM/LightGBM/DecisionTree 모델에서 자동 Monotonicity Constraints를 사용하는 동일하거나 그 이상의 해석 가능성 설정.
monotonicity_constraints_log_level¶
Control amount of logging when calculating automatic monotonicity constraints (if enabled) (String)
Default value 'medium'
monotonicity constraints를 지원하는 모델의 경우, 만약 활성화되었을 때. 대상과의 상관 관계를 기반으로 모델에 들어가는 각 특성에 대해 자동으로 결정된 monotonicity constraints를 표시합니다. 〈low〉 는 monotonicity constraints의 방향만을 나타냅니다. 〈medium〉 은 긍정적 및 부정적 제약 특성의 상관 관계를 보여줍니다. 〈high’는 모든 상관 값을 나타냅니다.
monotonicity_constraints_correlation_threshold¶
Correlation beyond which triggers monotonicity constraints (if enabled) (Float)
Default value 0.1
임계값, 수치 또는 인코딩된 변환된 특징과 대상 간의 피어슨 적률 상관계수의 임계 값. 이 이상의 경우 (음 이하) XGBoostGBM, LightGBM 및 DecisionTree 모델에 대해 양(음)의 monotonicity를 적용합니다. 해석 가능성 >= monotonicity_constraints_interpretability_switch 구성 toml 값인 경우 활성화됩니다. monotonicity_constraints_dict가 제공되지 않은 경우에만.
monotonicity_constraints_drop_low_correlation_features¶
Whether to drop features that have no monotonicity constraint applied (e.g., due to low correlation with target). (Boolean)
Default value False
If enabled, only monotonic features with +1/-1 constraints will be passed to the model(s), and features without monotonicity constraints (0, as set by monotonicity_constraints_dict or determined automatically) will be dropped. Otherwise all features will be in the model. Only active when interpretability >= monotonicity_constraints_interpretability_switch or monotonicity_constraints_dict is provided.
monotonicity_constraints_dict¶
Manual override for monotonicity constraints (Dict)
Default value {}
Manual override for monotonicity constraints. Mapping of original numeric features to desired constraint (1 for pos, -1 for neg, or 0 to disable. True can be set for automatic handling, False is same as 0). Features that are not listed here will be treated automatically, and so get no constraint (i.e., 0) if interpretability < monotonicity_constraints_interpretability_switch and otherwise the constraint is automatically determined from the correlation between each feature and the target. Example: {〈PAY_0〉: -1, 〈PAY_2〉: -1, 〈AGE〉: -1, 〈BILL_AMT1〉: 1, 〈PAY_AMT1〉: -1}
max_feature_interaction_depth¶
Max. feature interaction depth (Number)
Default value -1
특징 상호 작용을 탐색하는 것은 더 나은 예측 성능을 얻는 데 중요할 수 있습니다. 상호 작용은 여러 형태를 취할 수 있습니다(예: feature1 + feature2 또는 feature1 * feature2 + … featureN). 특정 기계 학습 알고리즘(예: 트리 기반 메서드)은 이러한 상호 작용을 교육 프로세스의 일부로 캡처하는 데 효과적일 수 있지만 여전히 이들을 생성하면 해당 알고리즘(또는 다른 알고리즘) 성능이 높아질 수 있습니다. 상호 작용 수준의 깊이(하나의 단일 특징을 만들기 위해 한 번에 몇 개의 특징을 결합할 수 있는지 《최대》에서와 같이)를 지정하여 특징 가공 프로세스의 복잡성을 제어할 수 있습니다. 숫자 및 범주 특징을 모두 사용하는 트랜스포머의 경우 이는 총 수가 아닌 각 유형의 수를 제한합니다. 값이 높으면 시간이 많이 들지만 예측 모델을 더 많이 만들 수 있습니다(-1은 자동을 의미함).
fixed_feature_interaction_depth¶
Fixed feature interaction depth (Number)
Default value 0
각 트랜스포머(0)에 허용되는 최소에서 최대(모두 지정되지 않은 경우 max_feature_interaction_depth까지) 열을 샘플링하는 대신 사용할 0이 아닌 비고정 열 수를 선택합니다. 각 트랜스포머에서 허용하는 경우 각 트랜스포머에 대해 모든 열을 사용하도록 열 수와 동일하게 만들 수 있습니다. -n은 50/50 샘플을 수행하고 n개의 특징을 고정하도록 선택할 수 있습니다.
fixed_num_individuals¶
fixed_num_individuals (Number)
Default value 0
set fixed number of individuals (if > 0) - useful to compare different hardware configurations. If want 3 individuals in GA race to be preserved, choose 6, since need 1 mutatable loser per surviving individual.
enable_target_encoding¶
Enable Target Encoding (auto disables for time series) (String)
Default value 'auto'
대상 인코딩(CV 대상 인코딩, 증거 가중치 등)을 활성화할 수 있는지 여부. 대상 인코딩은 실제 대상 변수의 정보를 사용하여 특징을 표현하는 것을 목표로 하는 다양한 특징 변환(주로 범주 데이터에 중점)을 의미합니다. 간단한 예로서 범주형 특징의 각 고유 범주를 대체하기 위해 대상의 평균을 사용하는 것입니다. 이러한 유형의 특징은 매우 예측이 가능하지만, 고유 범주와 대상 값 매핑 저장이 필요하게 되어 과적합이 되기 쉽고 더 많은 메모리가 필요하게 됩니다.
cvte_cv_in_cv¶
Enable outer CV for Target Encoding (Boolean)
Default value True
대상 인코딩의 경우, GINI가 교육에 대한 fit_transform, 교육에 대한 변환 및 검증 데이터에 대한 변환 간에 부호를 뒤집는 것으로 감지되는 경우(또는 증거의 가중치에 대한 부호가 일치하지 않음) 외부 수준의 교차 폴드 유효성 검증이 수행되는지 여부. GINI의 불량 정도는 전역 조회 테이블을 사용하는 대신 조회 테이블의 폴드 평균을 구할 때도 사용됩니다.
cv_in_cv_overconfidence_protection¶
Enable outer CV for Target Encoding with overconfidence protection (String)
Default value 'auto'
대상 인코딩의 경우 외부 수준의 교차 폴드 유효성 검증이 수행될 때, 특징과 대상 간의 GINI가 교육에 대한 fit_transform, 교육에 대한 변환 및 검증 데이터에 대한 변환 사이에 근접하지 않은 경우 외부 폴드 수를 늘리거나 대상 인코딩을 중단합니다.
enable_lexilabel_encoding¶
Enable Lexicographical Label Encoding (String)
Default value 'off'
enable_isolation_forest¶
Enable Isolation Forest Anomaly Score Encoding (String)
Default value 'off'
enable_one_hot_encoding¶
Enable One HotEncoding (auto enables only for GLM) (String)
Default value 'auto'
하나의 핫 인코딩을 활성화할 수 있는지 여부. auto인 경우 작은 데이터 및 GLM에만 적용됩니다.
isolation_forest_nestimators¶
Num. Estimators for Isolation Forest Encoding (Number)
Default value 200
one_hot_encoding_cardinality_threshold¶
one_hot_encoding_cardinality_threshold (Number)
Default value 50
Enable One-Hot-Encoding (which does binning to limit to number of bins to no more than 100 anyway) for categorical columns with fewer than this many unique values Set to 0 to disable
text_as_categorical_cardinality_threshold¶
text_as_categorical_cardinality_threshold (Number)
Default value 1000
Treat text columns also as categorical columns if the cardinality is <= this value. Set to 0 to treat text columns only as text.
drop_redundant_columns_limit¶
Max number of columns to check for redundancy in training dataset. (Number)
Default value 1000
데이터 세트에 더 많은 열이 있는 경우 먼저 해당 열만 확인합니다. 비활성화하려면 0으로 설정합니다.
drop_constant_columns¶
Drop constant columns (Boolean)
Default value True
상수 값이 있는 열을 삭제할지 여부
drop_id_columns¶
Drop ID columns (Boolean)
Default value True
ID로 보이는 열을 삭제할지 여부
no_drop_features¶
Don’t drop any columns (Boolean)
Default value False
열 삭제를 방지할지 여부(원본 또는 파생)
cols_to_drop¶
Features to drop, e.g. 《V1》, 《V2》, 《V3》 (List)
Default value []
GUI에서 열을 개별적으로 선택하는 대신 큰 목록을 복사하여 붙여넣을 수 있도록 열을 일괄적으로 직접 제어
cols_to_group_by¶
Features to group by, e.g. 《G1》, 《G2》, 《G3》 (List)
Default value []
CVCatNumEncode 트랜스포머의 그룹화 기준 열 제어, 기본값은 빈 목록이며 이는 DAI가 무작위로 선택되거나 변수 중요도가 가장 높은 모든 열을 자동으로 검색함을 의미합니다. CVCatNumEncode 트랜스포머는 범주 목록(또는 이러한 cols_to_group_by)을 사용하고 해당 열을 새로운 특징으로 사용하여 (agg_funcs_for_group_by)에 대해 집계를 수행합니다.
sample_cols_to_group_by¶
Sample from features to group by (Boolean)
Default value False
cols_to_group_by를 사용할 때 지정된 특징에서 그룹화 기준으로 샘플링할지(True) 또는 모든 특징으로 항상 그룹화할지(False) 여부.
agg_funcs_for_group_by¶
Aggregation functions (non-time-series) for group by operations (List)
Default value ['mean', 'sd', 'min', 'max', 'count']
CVcatNumEncode 트랜스포머의 그룹화 기준 작업에 사용할 집계 함수는 cols_to_group_by 및 sample_cols_to_group_by도 참조합니다.
folds_for_group_by¶
Number of folds to obtain aggregation when grouping (Number)
Default value 5
아웃 오브 폴드 집계의 경우 과적합이 덜 보장되지만 각 폴드의 데이터는 더 적습니다. CVCatNumEncode 트랜스포머에서 사용하는 폴드 수를 제어합니다.
cols_to_force_in¶
Features to force in, e.g. 《G1》, 《G2》, 《G3》 (List)
Default value []
강제로 열을 제어합니다. 강제 입력된 특징은 실험 옵션에서 허용하는 가장 해석하기 쉬운 트랜스포머에 의해 처리되며 절대 제거되지 않습니다(모델에서 여전히 0 중요도를 할당할 수 있음). 기본적으로 사용되는 트랜스포머는 다음과 같습니다: 숫자의 경우 OriginalTransformer, 범주의 경우 CatOriginalTransformer 또는 FrequencyTransformer, 텍스트의 경우 TextOriginalTransformer, 날짜-시간의 경우 DateTimeOriginalTransformer, 날짜의 경우 DateOriginalTransformer, 이미지의 경우 ImageOriginalTransformer 또는 ImageVectorizerTransformer 등
cols_to_force_in_sanitized¶
cols_to_force_in_sanitized (List)
Default value []
mutation_mode¶
Type of mutation strategy (String)
Default value 'sample'
- 트랜스포머에서 뮤테이션을 수행할 때 적용할 전략입니다.
샘플 모드는 기본이며 트랜스포머 매개변수를 샘플링하는 경향이 있습니다. 일괄 처리 모드는 동일한 변환의 여러 유형을 함께 수행하는 경향이 있습니다. 전체 모드에서는 더 많은 유형의 동일한 변환을 함께 수행합니다.
detect_features_leakage_threshold_auc¶
Leakage feature detection AUC/R2 threshold (Float)
Default value 0.95
누출 감지가 활성화된 경우 원본 데이터(레이블 인코딩)의 AUC(회귀용 R2)가 이 값보다 크거나 같으면 특징별 누출 감지를 트리거합니다.
detect_features_per_feature_leakage_threshold_auc¶
Leakage features per feature detection AUC/R2 threshold (Float)
Default value 0.8
누출 감지가 활성화된 경우 AUC(회귀의 경우 R2, 예측 변수/특징만 대상을 예측하는지 여부)가 이 값보다 크거나 같은 특징을 표시합니다. AUC/R2가 drop_features_leakage_threshold_auc보다 크거나 같으면 특징이 삭제됩니다.
interaction_finder_gini_rel_improvement_threshold¶
Required GINI relative improvement for Interactions (Float)
Default value 0.5
- InteractionTransformer에 대한 GINI 상대적 개선이 필요합니다.
GINI가 상호 작용에서 고려된 원래 특징과 비교하여 이 상대적 개선보다 좋지 않으면 상호 작용이 반환되지 않습니다. 데이터가 시끄럽고 상호 작용에 명확한 신호가 없지만 여전히 상호 작용을 원하는 경우 이 숫자를 줄일 수 있습니다.
interaction_finder_return_limit¶
Number of transformed Interactions to make (Number)
Default value 5
생성된 많은 시도 상호 작용을 최대한 활용하기 위해 변환된 상호 작용의 수.
varimp_threshold_at_interpretability_10¶
Lowest allowed variable importance at interpretability 10 (Float)
Default value 0.01
- 특징이 삭제되는 변수의 중요성을 지정합니다(더 나은 대체 항목을 찾을 가능성이 있음)
이 설정은 또한 낮은 해석 가능성 설정에 대한 전체 규모를 설정합니다. 높은 해석 가능성을 선택했지만 약한 특징이 많은 것에 만족하거나 약한 특징이 필요하여 성능이 저하되는 경우 이를 더 낮은 값으로 설정합니다.
stabilize_varimp¶
Whether to take minimum (True) or mean (False) of variable importance when have multiple folds/repeats. (Boolean)
Default value True
- 변수 중요도는 유전 알고리즘에서 유용한 특징을 결정하는 데 사용됩니다.
그래서 이것은 유전 알고리즘에 의한 특징 선택을 안정화시킬 수 있습니다. 이것은 각 분할에서 실제 다양한 동작을 가질 수 있는 time series 실험에는 허용되지 않습니다.
stabilize_fs¶
Whether to take minimum (True) or mean (False) of delta improvement in score when aggregating feature selection scores across multiple folds/depths. (Boolean)
Default value True
- 여러 폴드/깊이에 걸쳐 특징 선택 점수를 집계할 때 점수에서 델타 개선의 최소값(True) 또는 평균(False)을 취할지 여부.
점수의 델타 개선은 메트릭을 최대화하는 경우 셔플된 특징 프레임의 메트릭을 뺀 원래 메트릭에 해당하고, 최소화하는 경우 이러한 점수 차이의 음의 값에 해당합니다. 순열 중요성에 의한 특징 선택은 특징을 셔플한 후 점수의 변화를 고려하고, 최소 연산을 사용하면 폴드에 대해 집계할 때 낙관적인 점수를 무시하고 비관적인 점수를 얻습니다. 트리 메서드를 사용하는 경우 여러 깊이가 적합할 수 있으며, 이 경우 이 toml 설정과 관계없이 모든 깊이에 대해 유지되는 특징만 특징 선택에 따라 유지됩니다. 해석 가능성이 fs_data_vary_for_interpretability의 config toml 값 이상인 경우 절반 데이터(또는 fs_data_frac의 설정)가 또 다른 핏(fit)으로 사용되며, 이 경우 이 toml 설정과 관계없이 모든 데이터 크기에 대해 유지되는 특징만 특징 선택에 따라 유지됩니다. 참고: 작은 데이터의 임의 조각이 분리형(disjoint) 기능을 중요하게 만들 수 있으며 집계된 평균 동작에만 신호가 있으므로 작은 데이터에는 사용할 수 없습니다.
enable_rapids_transformers¶
Whether to enable RAPIDS CUML GPU transformers (no mojo) (Boolean)
Default value False
GPU 기반 RAPIDS CUML 트랜스포머를 활성화할지 여부. dask Rapids 트랜스포머를 지원하려면 enable_rapids_transformers_dask=true로 설정해야 합니다. mojo 지원은 없지만 python 스코어링은 지원됩니다. 알파 테스트 상태입니다.
enable_rapids_transformers_dask¶
Whether to enable RAPIDS CUML GPU transformers to use Dask (no mojo) (Boolean)
Default value False
가능한 RAPIDS CUML 트랜스포머에 대해 다중 GPU 모드를 활성화할지 여부. 또한 enable_rapids_transformers=true로 설정해야 합니다. mojo 지원은 없지만 python 스코어링은 지원됩니다. 알파 테스트 상태입니다.
features_allowed_by_interpretability¶
features_allowed_by_interpretability (String)
Default value '{1: 10000000, 2: 10000, 3: 1000, 4: 500, 5: 300, 6: 200, 7: 150, 8: 100, 9: 80, 10: 50, 11: 50, 12: 50, 13: 50}'
nfeatures_max_threshold¶
nfeatures_max_threshold (Number)
Default value 200
feature_cost_mean_interp_for_penalty¶
feature_cost_mean_interp_for_penalty (Number)
Default value 5
features_cost_per_interp¶
features_cost_per_interp (Float)
Default value 0.25
varimp_threshold_shift_report¶
varimp_threshold_shift_report (Float)
Default value 0.3
apply_featuregene_limits_after_tuning¶
apply_featuregene_limits_after_tuning (Boolean)
Default value True
remove_scored_0gain_genes_in_postprocessing_above_interpretability¶
remove_scored_0gain_genes_in_postprocessing_above_interpretability (Number)
Default value 13
remove_scored_0gain_genes_in_postprocessing_above_interpretability_final_population¶
remove_scored_0gain_genes_in_postprocessing_above_interpretability_final_population (Number)
Default value 2
remove_scored_by_threshold_genes_in_postprocessing_above_interpretability_final_population¶
remove_scored_by_threshold_genes_in_postprocessing_above_interpretability_final_population (Number)
Default value 7
dump_varimp_every_scored_indiv¶
Enable detailed scored features info (Boolean)
Default value False
스코어링된 모든 개체의 변수 중요도(파생본 및 원본 모두)를 csv/tabulated/json 파일로 덤프할지 여부: individual_scored_id%d.iter%d*features*
dump_trans_timings¶
Enable detailed logs for timing and types of features produced (Boolean)
Default value False
모든 스코어링된 폴드의 타이밍 및 특징 정보를 timings.txt 파일에 덤프할지 여부
unsupervised_clustering_min_clusters¶
Min. number of clusters for unsupervised clustering experiments (Number)
Default value 2
비감독 실험 모드에서 알고리즘 클러스터링을 위해 최소한 이 만큼의 클러스터를 생성하려고 시도합니다.
unsupervised_clustering_max_clusters¶
Max. number of clusters for unsupervised clustering experiments (Number)
Default value 10
비감독 실험 모드에서 알고리즘 클러스터링을 위해 이보다 많은 클러스터를 만들지 마십시오.
compute_correlation¶
Compute correlation matrix (Boolean)
Default value False
- 〈
교육, 검증 및 테스트 상관 행렬(테이블 및 heatmap pdf)을 계산하고 디스크 알파에 저장할지 여부: 현재 단일 스레드이며 열이 많으면 느림