실험 구성¶
max_runtime_minutes¶
Max. runtime in minutes before triggering the 〈Finish〉 button. Approximately enforced. (0 = disabled) (Number)
Default value 1440
이 시간이 지나도 실험이 완료되지 않으면 가능한 한 빨리 특징 가공 및 모델 조정을 중지하고 모델 점수 수렴 또는 미리 결정된 반복 횟수와 관계없이 최종 모델링 파이프라인 및 배포 아티팩트 구축을 진행하십시오. 활성만 재현 가능한 모드가 아닙니다. 데이터 및 실험 설정에 따라 전체 실험 런타임이 이 설정과 크게 다를 수 있습니다.
max_runtime_minutes_until_abort¶
Max. runtime in minutes before triggering the 〈Abort〉 button.(0 = disabled) (Number)
Default value 10080
이 시간이 지나도 실험이 완료되지 않으면 중단 버튼을 누릅니다. 요약 및 로그 zip 파일에 대해 지금까지 만든 실험 아티팩트가 보존되지만 추가 아티팩트가 만들어집니다.
time_abort¶
Time to trigger the 〈Abort〉 button. (String)
Default value ''
이 시간까지 실험이 완료되지 않으면 중단 버튼을 누릅니다. time_abort_timezone(기본값은 UTC)에 의해 설정된 시간대를 가정하여 time_abort_format(기본값은 %Y-%m-%d %H:%M:%S)에서 제공하는 형식의 시간을 허용합니다. 1970-01-01 00:00:00 UTC 이후 정수 초를 제공할 수도 있습니다. 실험을 실행하는 DAI 작업자의 시간에 적용됩니다. 요약 및 로그 zip 파일에 대해 지금까지 만든 실험 아티팩트가 보존되지만 추가 아티팩트가 만들어집니다. 참고: 동일한 매개변수로 새 실험을 시작하거나 재시작하거나 재조정하는 경우 이 절대 시간이 해당 실험 또는 리더보드 실험 세트에 적용됩니다.
time_abort_format¶
Time string format for time_abort. (String)
Default value '%Y-%m-%d %H:%M:%S'
datetime.strptime에서 허용하는 모든 형식이 허용됩니다.
time_abort_timezone¶
Time zone for time_abort. (String)
Default value 'UTC'
datetime.strptime에서 허용하는 형식의 모든 시간대.
delete_model_dirs_and_files¶
delete_model_dirs_and_files (Boolean)
Default value True
do_delete_model 호출 시 실험 패턴과 일치하는 모든 디렉터리와 파일을 삭제할지(True), 아니면 디렉터리만 삭제할지(False) 여부. False는 공간을 많이 차지하지 않는 실험 로그를 보존하는 데 사용할 수 있습니다.
recipe¶
Pipeline Building Recipe (String)
Default value 'auto'
# 레시피 유형 ## 레시피가 모든 GUI 설정보다 우선 적용됨 - 〈auto〉: 실험 설정, toml 설정 및 feature_engineering_effort에 의해 자동으로 결정되는 모든 모델 및 기능
- 〈compliant〉다음을 제외하고는 〈auto〉 와 같습니다.
해석 가능성 = 10 (복잡성을 피하기 위해, 해석 가능성에 대해 선택한 GUI 또는 Python 클라이언트를 재정의)
enable_glm=〉on〉 (나머지 〈off〉, 복잡성을 피하고 MLI에서 지원하는 알고리즘과 호환 가능)
fixed_ensemble_level=0: 앙상블을 사용하지 마십시오.
*feature_brain_level=0*(: 특징 브레인을 사용하지 않음(모든 재시작을 동일하게 만들기 위해))
max_feature_interaction_depth=1: 상호 작용 깊이는 1로 설정됩니다(복잡성을 피하기 위해서 다중 특성 상호 작용 없음).
target_transformer=〉identity〉: 회귀 분석용(복잡성을 피하기 위해).
check_distribution_shift_drop=〉off〉: 학습, 검증 및 테스트 사이의 분포 이동을 사용하여 기능을 삭제하지 마십시오(미세 조정 없이는 약간 위험함)
- 〈monotonic_gbm〉다음을 제외하고는 〈auto〉 와 같습니다.
monotonicity_constraints_interpretability_switch=1: Monotonicity Constraints를 활성화합니다
self.config.monotonicity_constraints_correlation_threshold = 0.01: 아래 참조
monotonicity_constraints_drop_low_correlation_features=true: 적어도 0.01(위의 매개변수에 의해 지정됨)만큼 대상과 상관되지 않는 기능을 삭제합니다.
fixed_ensemble_level=0: (복잡성 회피를 위해)앙상블을 사용하지 마십시오.
included_models=[〈LightGBMModel〉]
included_transformers=[〈OriginalTransformer〉]: 원래(숫자) 기능만 사용됩니다.
feature_brain_level=0: 특징 브레인을 사용하지 않음(모든 재시작을 동일하게 만들기 위해)
monotonicity_constraints_log_level=〉high〉
autodoc_pd_max_runtime=-1: AutoDoc에서 PDP 생성 시간 초과 없음
- 〈kaggle〉다음을 제외하고는 〈auto〉 와 같습니다.
외부 검증 세트는 대상이 누락된 것으로 표시된 학습 세트와 연결됩니다.
테스트 세트는 학습 세트와 연결되며 대상은 누락된 것으로 나타납니다.
대상을 사용하지 않는 트랜스포머는 전체 학습 + 검증 + 테스트에 걸쳐 fit_transform할 수 있습니다.
여러 구성 toml 전문가 옵션 개방 제한(예: 더 많은 숫자는 범주형으로 처리됨)
- 참고: 메모리가 충분하면 다음을 수행할 수 있습니다.
kaggle 모드를 선택한 다음 fixed_feature_interaction_depth를 큰 음수로 변경합니다.
- 그렇지 않으면 트랜스포머에 제공되는 기본 기능 수는 기본적으로 50개로 제한됩니다.
mutation_mode = 《full》 을 선택하면 더 많은 유형이 트랜스포머당 한 번에 변환됩니다.
〈nlp_model〉: 순수 문자를 처리하는 NLP 모델만 활성화합니다.
〈nlp_transformer〉: 모든 모델 유형이 허용되는 동안 순수 문자를 처리하는 NLP 변환기만 활성화합니다.
〈image_model〉: 순수 이미지를 처리하는 이미지 모델만 활성화합니다.
〈image_transformer〉: 모든 모델 유형이 허용되는 동안 순수 이미지를 처리하는 이미지 트랜스포머만 활성화합니다.
〈unsupervised〉: 감독되지 않은 트랜스포머, 모델 및 스코어러만 활성화합니다.
〈gpus_max: GPU 사용 극대화(예: XGBoost, Rapids, Optuna 하이퍼파라미터 검색 사용.)
〈more_overfit_protection〉: 잠재적으로 특히 과적합을 개선합니다. 작은 데이터의 경우 대상 인코딩을 비활성화하고 GA가 트리 수 및 학습률에 대한 최종 모델처럼 작동하도록 합니다.
각각의 파이프 라인 구축 레시피 모드는 선택된 후 상세 설정을 사용하여 미세 조정될 수 있습니다. 파이프 라인 구축 레시피를 변경하면 모든 파이프 라인 레시피 옵션을 기본값으로 재설정한 다음 새로운 모드에 대해 특정 규칙을 다시 적용하여 파이프 라인 구축 레시피 규칙의 일부인 상세 옵션의 모든 미세 조정을 취소합니다.
상위 실험에서 신규/계속/리핏/재학습된 실험을 선택하면 레시피 규칙이 다시 적용되지 않고 미세 조정이 유지됩니다. 레시피 동작을 재설정하기 위해 〈auto〉 및 원하는 사이에서 전환할 수 있습니다. 이 방법으로 새 하위 실험은 선택한 레시피에 대한 기본 설정을 사용합니다.
enable_genetic_algorithm¶
Enable genetic algorithm for selection and tuning of features and models (String)
Default value 'auto'
특징 및 모델의 선택 및 하이퍼 파라미터 조정을 위한 유전자 알고리즘의 활성화 여부입니다. - 비활성화된 경우 (〈off〉) 최종 파이프라인 교육으로 바로 이동합니다(기본 특징 가공 및 특징 선택 사용). - 〈auto〉 은 순수 NLP 또는 이미지 실험이 아닌 경우 〈on〉 과 동일합니다. - 《Optuna》: 특징 가공에 DAI 유전 알고리즘을 사용하지만 모델 하이퍼파라미터는 Optuna로 조정됩니다.
Optuna의 경우 반복 패널에 표시되는 점수는 최고 점수와 시행 점수입니다.
Optuna 모드는 현재 XGBoost, LightGBM 및 CatBoost(사용자 정의 레시피)용 Optuna만 사용합니다.
기본적으로 Pruner가 활성화된 경우 Optuna 모드는 eval_metric의 뮤테이션을 비활성화하므로 가지치기는 시행에서 동일한 메트릭을 사용하여 적절하게 비교합니다.
이는 현재 pre_transformers 또는 다중 레이어 파이프라인이 사용되는 경우 지원되지 않습니다. 이 파이프라인은 최소 한 라운드의 조정 또는 진화를 거쳐야 합니다.
make_python_scoring_pipeline¶
Make Python scoring pipeline (String)
Default value 'auto'
각 실험이 끝날 때 Python Scoring Pipeline의 생성 여부입니다.
make_mojo_scoring_pipeline¶
Make MOJO scoring pipeline (String)
Default value 'auto'
각 실험이 끝날 때 MOJO 스코어링 파이프라인의 생성 여부입니다. 《auto》 로 설정하면 가능한 경우 생성을 시도합니다(기능 중단 없이). 《on》 으로 설정하면 일부 모델, 트랜스포머 또는 사용자 정의 레시피를 삭제해야 할 수 있습니다.
inject_mojo_for_predictions¶
inject_mojo_for_predictions (Boolean)
Default value True
미니 승인 테스트가 통과하면 MOJO를 피팅된 Python 상태에 주입하므로 predict(enable_mojo=True, IS_SCORER=True, …)를 호출할 때 C++ MOJO 런타임을 사용할 수 있습니다. mojo_for_predictions=〉on〉 또는 〈auto〉 의 전제 조건입니다.
mojo_for_predictions¶
Allow use of MOJO for making predictions (String)
Default value 'auto'
실험이 완료된 후 짧은 지연 시간의 빠른 예측을 위해 MOJO를 사용하십시오(해당되는 경우 AutoDoc/Diagnostics/Predictions/MLI 및 scorer.zip을 통한 독립형 Python 채점에 대해). 〈auto〉 의 경우 행 수가 mojo_for_predictions_max_rows와 같거나 그 이하인 경우에만 MOJO를 사용합니다. 더 큰 프레임의 경우 사용된 라이브러리가 이미 벡터화되었을 가능성이 더 높기 때문에 Python 백엔드를 사용하는 것이 더 빠를 수 있습니다.
mojo_for_predictions_max_rows¶
Max number of rows for C++ MOJO predictions (Number)
Default value 10000
더 작은 데이터 세트의 경우 단일 스레드이지만 대기 시간이 짧은 C++ MOJO 런타임은 일반 in-Driverless AI Python 채점 환경보다 훨씬 빠른 채점 시간으로 이어질 수 있습니다. enable_mojo=True가 예측 API에 전달되고 MOJO가 존재하고 적용 가능한 경우 이 임계값보다 적거나 같은 수의 행이 있는 데이터 세트에 대해 MOJO 런타임을 사용하십시오. MLI/AutoDoc은 기본적으로 enable_mojo=True를 설정하므로 이 설정이 적용됩니다.
mojo_for_predictions_batch_size¶
Batch size for C++ MOJO predictions. (Number)
Default value 100
C++ MOJO 예측을 위한 배치 크기(행). enable_mojo=True가 예측 API에 전달되고 MOJO가 적용 가능한 경우에만(예: mojo_for_predictions_max_rows보다 적은 행). 값이 클수록 채점이 더 빨라지지만 메모리가 더 많이 사용됩니다.
mojo_acceptance_test_rtol¶
Relative tolerance for mini MOJO acceptance test. (Float)
Default value 0.0
미니 MOJO 승인 테스트에 대한 상대 허용 오차. Python/C++ MOJO가 Python에서 이보다 더 다른 경우 나중에 채점하기 위해 Python 내부에서 MOJO를 사용하지 않습니다. mojo_for_predictions=True인 경우에만 적용됩니다. <= 0이면 비활성화됩니다.
mojo_acceptance_test_atol¶
Absolute tolerance for mini MOJO acceptance test. (Float)
Default value 0.0
미니 MOJO 승인 테스트에 대한 절대 허용 오차. Python/C++ MOJO가 Python에서 이보다 더 다른 경우 나중에 채점하기 위해 Python 내부에서 MOJO를 사용하지 않습니다. mojo_for_predictions=True인 경우에만 적용됩니다. <= 0이면 비활성화됩니다.
reduce_mojo_size¶
Attempt to reduce the size of the MOJO (Boolean)
Default value False
MOJO 스코어링 파이프라인의 크기를 줄이려고 시도할지 여부입니다. MOJO가 작을수록 채점하는 동안 메모리 사용량도 줄어듭니다. 이는 상호작용 깊이와 같은 일부 다른 설정을 줄임으로써 달성되므로 모델의 예측 정확도에 영향을 끼칠 수 있습니다.
make_pipeline_visualization¶
Make pipeline visualization (String)
Default value 'auto'
각 실험이 끝날 때 파이프라인 시각화 생성 여부입니다.
make_python_pipeline_visualization¶
Make python pipeline visualization (String)
Default value 'auto'
각 실험이 끝날 때 Python 파이프라인 시각화 생성 여부입니다. 각 기능과 트랜스포머는 마지막에 괄호로 묶인 변수 중요도를 포함합니다. 강제로 켰을 때만 완료되고 png 파일과 같은 아티팩트가 요약 zip에 나타납니다. 각 실험에는 최종 모집단의 개체별 파일이 있습니다. 1) preprune_False_0.0 : 최종 가지치기 전, 추가 변수 중요도 임계값 가지치기 없음 2) preprune_True_0.0 : 최종 가지치기 전, 추가 변수 중요도 <=0.0 가지치기 3) postprune_False_0.0 : 최종 가지치기 후, 추가적인 변수 중요도 임계값 가지치기 없음 4) postprune_True_0.0 : 최종 가지치기 후, 추가 변수 중요도 <=0.0 가지치기 5) posttournament_False_0.0 : 최종 가지치기 및 토너먼트 후, 추가 변수 중요도 임계값 가지치기 없음 6 ) posttournament_True_0.0 : 최종 가지치기 및 토너먼트 후 추가 변수 중요도 <=0.0 가지치기 있음 1-5는 〈on’으로 수행되는 반면 〈auto’는 최종 가지치기 후 개체에 해당하는 6만 수행합니다. 가지치기 후에도 일부 기능은 중요도가 0입니다. value=0.0의 변수 중요도에서 value+variance를 갖는 유전자만 가지치기되기 때문입니다. GA는 유전자에 대해 양의 분산을 갖는 많은 폴드를 가질 수 있으며 최종 모델에 유용한 기능인 경우 제거되지 않습니다. 작은 mojo 옵션이 선택되면(reduce_mojo_size True), 그래프에 나타나는 것뿐만 아니라 어떤 유전자와 기능이 가지치기되는지에 대한 기능 이득의 분산이 무시됩니다.
max_cols_make_autoreport_automatically¶
Number of columns beyond which will not automatically build autoreport at end of experiment. (Number)
Default value 1000
max_cols_make_pipeline_visualization_automatically¶
Number of columns beyond which will not automatically build pipeline visualization at end of experiment. (Number)
Default value 5000
pass_env_to_deprecated_python_scoring¶
Pass environment variables to deprecated python scoring package (Boolean)
Default value False
- 실행 중인 Driverless AI 인스턴스에서 Python Scoring Pipeline으로 환경 변수 전달
- 더 이상 사용되지 않는 모델, 예측에 사용되는 경우 주의해서 사용합니다.
config.toml 재정의가 env vars에 의해 설정되고 실험의 env와 다른 경우
학습을 받았을 때와 마찬가지로 예상치 못한 결과가 발생할 수 있습니다. H2O-3 사용자 정의 레시피 서버용 포트와 같이 잘 제어된 특정 설정을 무시하려는 경우에만 이 기능을 활성화하십시오.》
transformer_description_line_length¶
Line length for autoreport descriptions of transformers. -1 means use autodoc_keras_summary_line_length (Number)
Default value -1
benchmark_mojo_latency¶
Measure MOJO scoring latency (String)
Default value 'auto'
MOJO 생성 시 MOJO 스코어링 대기 시간 측정 여부입니다.
benchmark_mojo_latency_auto_size_limit¶
Max size of pipeline.mojo file (in MB) for when benchmark_mojo_latency is set to 〈auto〉 (Number)
Default value 500
MOJO 스코어링 대기 시간 측정의 자동 모드에 대한 pipeline.mojo 파일의 최대 크기(MB)
mojo_building_timeout¶
Timeout in seconds to wait for MOJO creation at end of experiment. (Float)
Default value 1800.0
실험이 끝날 때 MOJO 생성 시간이 초과된 경우에도 GUI 또는 R/Py 클라이언트에서 MOJO를 만들 수 있습니다(시간 초과는 적용되지 않음).
mojo_building_parallelism¶
Number of parallel workers to use during MOJO creation (-1 = all cores) (Number)
Default value -1
MOJO 생성이 너무 느린 경우 이 값을 늘리십시오. 값이 높을수록 더 빨리 완료될 수 있지만 더 많은 메모리를 사용합니다. 메모리 부족 오류로 인해 MOJO 생성이 실패하면 이 값을 1로 줄이십시오. 모든 물리적 코어에는 -1로 설정하십시오.
max_workers¶
max_workers (Number)
Default value 1
Driverless AI 서버 풀의 최대 작업자 수(현재 1개만 필요)
max_cores_dai¶
max_cores_dai (Number)
Default value -1
모든 DAI 실험 및 작업에서 사용할 최대 CPU 코어 수입니다. -1은 모두 사용 가능하며, stall_subprocess_submission_dai_fork_threshold_count=0은 코어 수로 제한됨을 의미합니다.
stall_subprocess_submission_dai_fork_threshold_count¶
stall_subprocess_submission_dai_fork_threshold_count (Number)
Default value 0
총 DAI 분기 수가 카운트를 초과하는 경우 작업 제출 중단(-1은 비활성화, 0은 max_cores_dai 자동)
stall_subprocess_submission_mem_threshold_pct¶
stall_subprocess_submission_mem_threshold_pct (Number)
Default value 2
사용 가능한 시스템 메모리가 이 임계값(%)보다 작은 경우 작업 제출을 중단합니다(비활성화하려면 0으로 설정). 이 임계값을 초과하는 경우 작업자 풀의 작업자 수가 이 임계값에 도달하면 선형적으로 1로 줄어듭니다.
max_cores_by_physical¶
max_cores_by_physical (Boolean)
Default value True
물리적(True) 또는 논리적(False) 수로 자동 코어 수를 설정할지 여부. 모든 논리 코어를 사용하면 캐시 쓰래싱으로 인해 성능이 저하될 수 있습니다.
max_cores_limit¶
max_cores_limit (Number)
Default value 100
코어 수에 대한 절대 제한
assumed_simultaneous_dt_forks_stats_openblas¶
assumed_simultaneous_dt_forks_stats_openblas (Number)
Default value 1
데이터 테이블이 시스템에 과부하를 주지 않도록 하기 위해 사용되는, 수집 중 통계를 계산하여 예상되는 최대 분기 수입니다.
max_max_dt_threads_stats_openblas¶
max_max_dt_threads_stats_openblas (Number)
Default value 8
더 많은 코어가 있는 경우에도 데이터 테이블에 대해 예상되는 최대 스레드 수
min_dt_threads_munging¶
min_dt_threads_munging (Number)
Default value 1
데이터 정리 중 데이터 테이블(및 OpenMP)에 대한 최소 스레드 수(프로세스당). 데이터 테이블은 Driverless ai 내에서 사용되는 주요 데이터 정리 도구입니다(출처: https://github.com/h2oai/datatable).
min_dt_threads_final_munging¶
min_dt_threads_final_munging (Number)
Default value 1
min_datatable(및 OpenMP)_threads_munging과 유사하지만 최종 파이프라인 정리용
max_dt_threads_do_timeseries_split_suggestion¶
max_dt_threads_do_timeseries_split_suggestion (Number)
Default value 1
TS 속성 미리보기 패널 계산 중 데이터 테이블의 최대 스레드 수).
kaggle_username¶
Kaggle username (String)
Default value ''
테스트 세트 예측의 자동 제출 및 채점을 위한 Kaggle 사용자 이름. Kaggle API 자격 증명을 얻는 방법에 대한 자세한 내용은 https://github.com/Kaggle/kaggle-api#api-credentials》 를 참조하십시오.
kaggle_key¶
Kaggle key (String)
Default value ''
테스트 세트 예측의 자동 제출 및 채점을 위한 Kaggle 키. Kaggle API 자격 증명을 얻는 방법에 대한 자세한 내용은 https://github.com/Kaggle/kaggle-api#api-credentials》 를 참조하십시오.
kaggle_timeout¶
Kaggle submission timeout in seconds (Number)
Default value 120
최대 Kaggle API 호출이 주어진 예측에 대한 점수를 반환할 때까지 기다리는 시간(초)
kaggle_keep_submission¶
Whether to keep Kaggle submission file in experiment directory (Boolean)
Default value False
kaggle_competitions¶
Custom Kaggle competitions to make automatic test set submissions for. (String)
Default value ''
제공되는 경우 목록을 임의적이고 잠재적으로 미래의 Kaggle 경쟁으로 확장하여 제출할 수 있습니다. kaggle_key 및 kaggle_username이 제공된 경우에만 사용됩니다. 다음과 같이 따옴표로 구분된 튜플 목록(대상 열 이름, 테스트 행 수, 경쟁, 메트릭)을 제공합니다: kaggle_competitions=〉(《target》, 200000, 《santander-customer-transaction-prediction》, 《AUC》), (《TARGET》, 75818, 《santander-customer-satisfaction》, 《AUC》)〉
ping_period¶
ping_period (Number)
Default value 60
각 실험에 대한 Driverless AI 서버의 ping 기간(초)입니다(디스크 공간 및 메모리 사용량과 같은 로거 정보를 얻기 위해). 0은 아무 것도 인쇄하지 않음을 의미합니다.
ping_autodl¶
Whether to enable ping of system status during DAI experiments. (Boolean)
Default value True
DAI 실험 중 시스템 상태에 대한 ping의 활성화 여부입니다.
disk_limit_gb¶
disk_limit_gb (Number)
Default value 5
실험 실행에 필요한 최소 디스크 공간(GB)입니다. 이 제한을 초과하면 실험이 실패합니다. 이 제한은 Driverless AI가 모델 교육 특징 가공, 문서화 및 기타 이러한 프로세스를 위한 데이터를 생성해야 하기 때문에 존재합니다.
stall_disk_limit_gb¶
stall_disk_limit_gb (Number)
Default value 1
실험 중 새 프로세스의 분기를 중단하기 전에 필요한 최소 디스크 공간(GB)입니다.
memory_limit_gb¶
memory_limit_gb (Number)
Default value 5
실험 시작에 필요한 최소 시스템 메모리(GB)입니다. 디스크 공간과 유사하게 일부 기본 작업을 실행하려면 일정량의 시스템 메모리가 필요합니다.
min_num_rows¶
Min. number of rows needed to run experiment (Number)
Default value 100
실험 실행에 필요한 최소 행 수(100보다 작은 값은 작동하지 않을 수 있음). 통계적으로 신뢰할 수 있는 모델을 생성하고 기타 소규모 데이터 관련 오류를 방지하기에 충분한 데이터가 있는지 확인하기 위해 최소 임계값이 설정됩니다.
min_rows_per_class¶
min_rows_per_class (Number)
Default value 5
분류 문제에 대한 각 클래스 레이블에 필요한 최소 행 수(교육 데이터에서).
min_rows_per_split¶
min_rows_per_split (Number)
Default value 5
검증 샘플을 생성할 때 각 분할에 필요한 최소 행 수.
reproducibility_level¶
Reproducibility Level (Number)
Default value 1
원하는 재현성 수준(동일한 데이터 및 동일한 입력에 대해). 〈재현 가능〉 모드가 활성화된 경우에만 활성화됩니다(GUI 버튼이 활성화되거나 클라이언트 API에서 시드가 설정됨). 지원되는 수준은 다음과 같습니다.
reproducibility_level = 1 동일한 O/S, 동일한 CPU, 동일한 GPU인 경우 동일한 실험 결과 reproducibility_level = 2 동일한 O/S, 동일한 CPU 아키텍처, 동일한 GPU 아키텍처인 경우 동일한 실험 결과 reproducibility_level = 3 동일한 O/S, 동일한 CPU 아키텍처, GPU를 사용하지 않는 경우 동일한 실험 결과 reproducibility_level = 4 동일한 O/S인 경우 동일한 실험 결과(최선의 노력)
seed¶
Random seed (Number)
Default value 1234
특정 재현성 수준까지 실험을 재현할 수 있도록 하는 난수 생성기의 시드입니다(위 참조). 〈재현 가능〉 모드가 활성화된 경우에만 활성화됩니다(GUI 버튼이 활성화되거나 클라이언트 API에서 시드가 설정됨).
missing_values¶
missing_values (List)
Default value ['', '?', 'None', 'nan', 'NA', 'N/A', 'unknown', 'inf', '-inf', '1.7976931348623157e+308', '-1.7976931348623157e+308']
데이터 가져오기 중 누락 값으로 해석되어야 하는 값 목록. 이는 숫자 및 문자열 열 모두에 적용됩니다. 전문가 설정을 통해 이 구성에 변경 사항을 적용한 후 데이터 세트를 다시 로드해야 합니다. 〈nan〉 은 항상 숫자 열에 대한 누락 값으로 해석됩니다.
glm_nan_impute_training_data¶
glm_nan_impute_training_data (Boolean)
Default value False
교육 데이터에 대한 GLM의 대체(평균으로) 여부입니다.
glm_nan_impute_validation_data¶
glm_nan_impute_validation_data (Boolean)
Default value False
유효성 검증 데이터에 대한 GLM의 대체(평균으로) 여부입니다.
glm_nan_impute_prediction_data¶
glm_nan_impute_prediction_data (Boolean)
Default value True
예측 데이터에 대한 GLM의 대체(평균으로) 여부(MOJO와의 일관성에 필요).
tf_nan_impute_value¶
tf_nan_impute_value (Number)
Default value -5
tensorflow의 경우 숫자 값이 표준화된 누락 값에 제공할 숫자 값입니다. 따라서 0은 분포의 중심이고 정규 분포이면 +-5는 중심에서 5 표준 편차 떨어져 있는 것입니다. 많은 경우 범위를 벗어난 값은 누락을 나타내는 좋은 방법이지만 어떤 경우에는 평균(0)이 더 나을 수도 있습니다.
statistical_threshold_data_size_small¶
statistical_threshold_data_size_small (Number)
Default value 100000
모델 정확도를 높이기 위해 특정 통계 기술(모든 모델 유형에 대한 하나의 핫 인코딩을 포함하는 작은 데이터 레시피 및 더 작은 학습률 포함)을 트리거하는 행 수 x 열 수에 대한 내부 임계값
statistical_threshold_data_size_large¶
statistical_threshold_data_size_large (Number)
Default value 500000000
모델링 속도를 높일 수 있는 특정 통계 기술(더 적은 수의 유전자 생성, 트리 모델에 대한 높은 max_depth 제거 등)을 트리거하기 위한 행 수 x 열 수에 대한 내부 임계값. 또한 statistics_threshold_data_size_large / 열 행 수를 샘플링하여 교육 최종 모델에 사용되는 최대 행을 제어합니다.
aux_threshold_data_size_large¶
aux_threshold_data_size_large (Number)
Default value 10000000
불균형 데이터 세트 감지 및 부트스트랩 스코어링 샘플 크기 및 반복과 같은 보조 데이터 사용을 위해 샘플링을 트리거할 행 수 x 열 수에 대한 내부 임계값
set_method_sampling_row_limit¶
set_method_sampling_row_limit (Number)
Default value 5000000
교체 없이 샘플링하기 위한 세트 기반 메서드의 내부 임계값. np_random_choice 내부 최적화 메서드보다 10배 빠르며 1B 행 등에서 250k 행을 샘플링하는 데 np.random.choice보다 최대 30배 빠릅니다.
performance_threshold_data_size_small¶
performance_threshold_data_size_small (Number)
Default value 100000
작업의 과도한 분기를 피하기 위해 OOM 또는 불필요한 속도 저하(작은 값보다 작을 경우 더 적은 스레드)를 방지하는 데 도움이 되는 특정 성능 변경을 트리거하는 행 수 x 열 수에 대한 내부 임계값(큰 값을 초과하는 경우 더 적은 스레드)
performance_threshold_data_size_large¶
performance_threshold_data_size_large (Number)
Default value 100000000
작업의 과도한 분기를 피하기 위해 OOM 또는 불필요한 속도 저하(작은 값보다 작을 경우 더 적은 스레드)를 방지하는 데 도움이 되는 특정 성능 변경을 트리거하는 행 수 x 열 수에 대한 내부 임계값(큰 값을 초과하는 경우 더 적은 스레드)
max_relative_cols_mismatch_allowed¶
max_relative_cols_mismatch_allowed (Float)
Default value 0.5
train과 valid 또는 test 사이에 허용되는 일치하지 않는 열의 최대 비율입니다. 이 값을 초과하면 잘못된 데이터 오류로 실험이 실패합니다.
max_cols¶
max_cols (Number)
Default value 10000000
실험을 시작할 최대 열 수입니다. 이 임계값은 Driverless AI 프로세스의 길이와 # 복잡성을 제한하기 위해 존재합니다.
max_rows_col_stats¶
max_rows_col_stats (Number)
Default value 1000000
열 통계에 사용할 최대 행 수, 그렇지 않으면 무작위로 샘플링
max_rows_cv_in_cv_gini¶
max_rows_cv_in_cv_gini (Number)
Default value 100000
gini 스코어링 테스트를 수행할 때 대상 인코딩을 위해 cv에 cv를 사용할 최대 행 수
max_rows_constant_model¶
max_rows_constant_model (Number)
Default value 1000000
상수 모델 피팅에 사용할 최대 행 수, 그렇지 않으면 무작위로 샘플링
max_rows_final_ensemble_base_model_fold_scores¶
max_rows_final_ensemble_base_model_fold_scores (Number)
Default value 1000000
최종 앙상블 기반 모델 폴드 코어에 사용할 최대 행 수, 그렇지 않으면 무작위로 샘플링
max_rows_final_blender¶
max_rows_final_blender (Number)
Default value 1000000
최종 앙상블 블렌더에 사용할 최대 행 수, 그렇지 않으면 무작위로 샘플링
max_rows_final_train_score¶
max_rows_final_train_score (Number)
Default value 5000000
최종 교육 점수에 사용할 최대 행 수(홀드아웃 없음), 그렇지 않으면 무작위로 샘플링
max_rows_final_roccmconf¶
max_rows_final_roccmconf (Number)
Default value 1000000
최종 ROC, 리프트 이득, 혼동 행렬, 잔차 및 실제 대 예측에 사용할 최대 행 수입니다. 그렇지 않으면 무작위로 샘플링
max_rows_final_holdout_score¶
max_rows_final_holdout_score (Number)
Default value 5000000
최종 홀드아웃 점수에 사용할 최대 행 수, 그렇지 않으면 무작위로 샘플링
max_rows_final_holdout_bootstrap_score¶
max_rows_final_holdout_bootstrap_score (Number)
Default value 1000000
최종 홀드아웃 부트스트랩 점수에 사용할 최대 행 수, 그렇지 않으면 무작위로 샘플링
max_rows_leak¶
Max. rows for leakage detection if wide rules used on wide data (Number)
Default value 100000
max_workers_fs¶
Num. simultaneous predictions for feature selection (0 = auto) (Number)
Default value 0
예측 단계의 순열에 의한 기능 선택에 사용할 작업자 수입니다. (0 = 자동, > 0: DAI 값과 이 값의 최소값, < 0: 이 값의 정확한 음수)
max_workers_shift_leak¶
Num. simultaneous fits for shift and leak checks if using LightGBM on CPU (0 = auto) (Number)
Default value 0
CPU에서 LightGBM을 사용하는 경우 근무조 및 누출 확인에 사용할 작업자 수입니다. (0 = 자동, > 0: DAI 값과 이 값의 최소값, < 0: 이 값의 정확한 음수)
num_folds¶
num_folds (Number)
Default value 3
특징 가공 프로세스 중에 사용된 모델의 폴드 수. 이 값을 늘리면 데이터의 더 작은 비율이 검증에 투입되고 더 큰 비율이 교육에 투입됩니다(예: num_folds=3은 67%/33% 교육/검증 분할을 의미합니다). 실제 값은 작거나 큰 데이터 케이스에 따라 다릅니다.
fold_balancing_repeats_times_rows¶
fold_balancing_repeats_times_rows (Float)
Default value 100000000.0
max_fold_balancing_repeats¶
max_fold_balancing_repeats (Number)
Default value 10
fixed_split_seed¶
fixed_split_seed (Number)
Default value 0
show_fold_stats¶
show_fold_stats (Boolean)
Default value True
allow_different_classes_across_fold_splits¶
Allow different sets of classes across all train/validation fold splits (Boolean)
Default value True
다중 클래스 문제에만 해당. (교차)검증 폴드 분할에 대한 다양한 대상 클래스 세트의 허용 여부. 클래스 분포에 관해 균형이 맞지 않는 폴드 열을 전달할 때 특히 중요합니다.
full_cv_accuracy_switch¶
full_cv_accuracy_switch (Number)
Default value 9
단일 홀드아웃 분할(예: 2/3 교육 및 1/3 유효성 검증 홀드아웃)과 달리 특성 진화 동안 전체 교차 검증(다중 폴드)을 가능하게 하는 동일하거나 그 이상의 정확도 설정
ensemble_accuracy_switch¶
ensemble_accuracy_switch (Number)
Default value 5
최종 모델로 스태킹 앙상블을 가능하게 하는 동일 또는 그 이상의 정확도 설정. 스태킹은 특징 진화 프로세스가 끝날 때 시작됩니다. 이는 종종 더 나은 모델 성능으로 이어지지만 최종 모델의 복잡성과 실행 시간은 증가됩니다.
num_ensemble_folds¶
num_ensemble_folds (Number)
Default value 4
ensemble_level >= 2에 사용할 폴드 분할 수입니다. 앙상블 모델링은 out-of-fold 샘플에 대한 예측을 요구할 수 있으므로 이러한 예측을 생성하려면 데이터를 다른 폴드에서 분할해야 합니다. 폴드가 더 적으면(예: 2 또는 3) 일반적으로 더 안정적인 모델을 생성하지만 덜 정확할 수 있습니다. 폴드가 더 많으면 시간이 더 많이 필요하고 정확도는 더 높아지지만 교육 데이터가 충분하지 않으면(즉, 과적합 가능성 높아짐) 성능 안전성이 떨어질 수 있습니다. 실제 값은 작거나 큰 데이터 케이스에 따라 다릅니다.
save_validation_splits¶
Store internal validation split row indices (Boolean)
Default value False
실험 요약 zip의 모든 내부 검증 폴드에 대한 (train_idx, valid_idx) 튜플의 피클(원래 교육 데이터에 대한 numpy 행 인덱스)을 포함합니다. 디버깅용.
fold_reps¶
fold_reps (Number)
Default value 1
모든 검증에 대한 각 폴드의 반복 횟수(작거나 큰 데이터의 경우 약간 수정됨)
max_num_classes_hard_limit¶
max_num_classes_hard_limit (Number)
Default value 10000
max_num_classes¶
Max. number of classes for classification problems (Number)
Default value 200
분류 문제를 허용하는 최대 클래스 수. 클래스 수가 많으면 Driverless AI의 특정 프로세스에 시간이 많이 소요될 수 있습니다. 메모리 요구 사항도 클래스 수가 많을수록 높아집니다.
max_num_classes_compute_roc¶
Max. number of classes to compute ROC and confusion matrix for classification problems (Number)
Default value 200
감소를 위한 roc_reduce_type 선택 또는 그 이상으로 적용되는 ROC 및 CM을 계산할 최대 클래스 수입니다. 클래스가 너무 많으면 모델 구축 시간보다 훨씬 더 오래 걸릴 수 있습니다.
max_num_classes_client_and_gui¶
Max. number of classes to show in GUI for confusion matrix (Number)
Default value 10
첫 번째 max_num_classes_client_and_gui 레이블을 표시하는 혼동 행렬에 대해 GUI에 표시할 최대 클래스 수입니다. 6개 클래스를 초과하면 GUI에서 시작된 진단이 시각적으로 잘립니다. 이것은 config.toml에서 변경되고 서버가 다시 시작되는 경우에만 클라이언트 GUI 실행 진단을 수정하지만 이 값은 실험 플롯을 제어하기 위해 전문가 설정에서 변경할 수 있습니다.
roc_reduce_type¶
ROC/CM reduction technique for large class counts (String)
Default value 'rows'
roc를 계산할 때 클래스가 너무 많은 경우 행을 무작위로 샘플링하여 《rows》만큼 줄이거나 max_num_classes_compute_roc 이하로 클래스를 잘라서 줄이십시오. 클래스 수에 대한 행이 충분하면 행 단위로 줄일 수 있습니다.
min_roc_sample_size¶
min_roc_sample_size (Number)
Default value 1
max_rows_cm_ga¶
Maximum number of rows to obtain confusion matrix related plots during feature evolution (Number)
Default value 500000
특성 진화 중에 혼동 행렬 관련 플롯을 얻기 위한 최대 행 수입니다. 최종 모델 계산을 제한하지 않습니다.
num_actuals_vs_predicted¶
num_actuals_vs_predicted (Number)
Default value 100
실험 내 화면의 오른쪽 부분에 표시되는 관련 플롯/그래프에 생성하기 위해 사용할 실제 대 예측 데이터 포인트의 수입니다.
use_feature_brain_new_experiments¶
Whether to use Feature Brain for new experiments. (Boolean)
Default value False
- 새로운 실험을 실행한 경우에도 feature_brain 결과를 사용할지 여부입니다.
특성 브레인은 실험 설정에 대한 몇 가지 유형의 변경 때문에 위험을 초래할 수 있습니다. 재채점으로 충분하지 않을 수 있으므로 이는 기본적으로 False입니다. 예를 들어 한 실험에서 우연히 training=external validation이고 높은 점수를 얻을 수 있습니다. 그리고 feature_brain_reset_score=〉on’인 경우 이는 다시 점수를 부여할 것임을 의미하지만, 외부 검증 학습 중 이미 이를 보았으며, 이 데이터를 학습의 일부로 유출할 것입니다. False인 경우 feature_brain_level은 사용 가능한 모델을 설정하고 로그/알림을 제공하지만 이러한 특징 브레인 캐시 모델은 사용하지 않습니다.
feature_brain_level¶
Model/Feature Brain Level (0..10) (Number)
Default value 2
H2O.ai 브레인의 결과 표시(또는 사용) 여부: 새로운 실험에 더 유용한 특징과 모델을 생성하기 위해 이전 실험의 로컬 캐싱 및 스마트 재사용. 기본적으로 새로운 실험이 브레인 캐시를 사용하지 않는 방법은 use_feature_brain_new_experiments를 참조하십시오. 또한 일시 중지되거나 중단된 실험에 대한 체크포인트를 제어하는 데 사용할 수도 있습니다. DAI는 캐시 파일에 a) 유사한 실험 유형에 대해 일치하는 열 이름 및 유형이 있는 경우 b) 클래스와 정확히 일치하는 경우 c) 클래스 레이블과 정확히 일치하는 경우 d) 기본 Time Series 선택과 일치하는 경우 e) 캐시의 해석 가능성이 동일 또는 낮은 경우 f) 메인 모델(부스터)이 새로운 실험에 의해 허용되는 경우 H2O.ai 브레인 캐시를 사용합니다. 사용할 브레인의 레벨(선택한 레벨의 경우 더 높은 레벨에서는 모든 하위 레벨 작업도 자동으로 수행됨) -1 = 브레인 캐시를 사용하지 않고 캐시를 쓰지 않습니다. 0 = 브레인 캐시를 사용하지 않지만 여전히 캐시를 씁니다.
사용 사례: 나중에 사용하기 위해 모델을 저장하고 싶지만 현재 모델이 브레인 모델 없이 구축되기를 원함
- 1 = 최신 최고의 개별 모델의 스마트 체크포인트
사용 사례: 최신 일치 모델을 사용하고 싶지만 일치가 느슨할 수 있으므로 주의가 필요합니다.
- 2 = 개별 최상 모델의 H2O.ai 브레인 캐시의 스마트 체크포인트
사용 사례: DAI는 H2O.ai 브레인 캐시를 통해 최상 모델이 다시 시작되도록 스캔합니다.
- 3 = 레벨 #1과 같은 스마트 체크포인트이지만 모집단이 대상입니다. 브레인 모집단의 크기가 부족한 경우에만 조정
(단일 반복으로 전체 모집단의 점수를 다시 매기므로 첫 번째 반복을 완료하는 데 더 오래 걸리는 것으로 보입니다)
- 4 = 레벨 #2와 같은 스마트 체크포인트이지만 모집단이 대상입니다. 브레인 모집단의 크기가 부족한 경우에만 조정
(단일 반복으로 전체 모집단의 점수를 다시 매기므로 첫 번째 반복을 완료하는 데 더 오래 걸리는 것으로 보입니다)
- 5 = #4와 비슷하지만 최고 점수를 받은 개체를 얻기 위해 모집단의 전체 브레인 캐시를 스캔합니다.
(캐시가 크면 브레인 캐쉬 스캔으로 인해 느려질 수 있음)
- 1000 + feature_brain_level(양수 값 이상) = resumed_experiment_id 및 실제 feature_brain_level 사용,
오래된 실험에서 샘플링하는 대신 다른 특정 실험을 개체 또는 모집단의 기반으로 사용
GUI에는 3가지 옵션과 해당 설정이 있습니다. 1) 새 실험: 특징 브레인 레벨 기본값 2 사용 2) 설정이 동일한 새 실험: 상위 실험과 동일한 특징 브레인 레벨 재사용 3) 마지막 체크포인트에서 다시 시작: 특징 브레인 레벨 1003으로 재설정하고 실험 ID를 다음에서 다시 시작하도록 설정
(계속된 유전자 알고리즘 반복)
최종 파이프라인 재학습: Restart와 비슷하지만 time=0이므로 모든 조정을 건너뛰고 최종 모델로 바로 이동합니다(상위 실험에서 최소 한 번의 조정 반복이 있다고 가정).
다른 사용 사례: a) 다른 데이터에서 다시 시작: 동일한 열 이름과 더 적거나 많은 행 사용(1 - 5에 적용 가능) b) 최종 파이프라인만 재조정: (a)와 유사하지만 time=1 및 feature_brain_level=3 - 5를 선택합니다. c) 더 많은 열로 다시 시작: 열을 추가하여 모델이 이전 열 이름에서 빌드된 이전 모델을 기반으로 빌드합니다(1 - 5) d) 모델 조정에 초점을 맞춰 다시 시작: 다시 시작한 다음 전문가 설정에서 feature_engineering_effort = 3을 선택 e) 최종 모델을 재학습하지만 최종 파이프라인에 있는 특징을 제외한 모든 원래 특징은 무시할 수 있습니다(일반 재학습이지만 brain_add_features_for_new_columns=false로 설정) 참고: 1) 모든 경우에 먼저 재개된 실험 ID(제공된 경우)를 확인한 다음 브레인 캐시를 확인합니다. 2) Restart 사례의 경우, 지연된 조기 중지를 강제하기 위해 min_dai_iterations를 0이 아닌 값으로 설정할 수 있습니다. 그렇지 않으면 더 나은 모델을 찾기에 충분한 반복이 아닐 수 있습니다. 3) Restart의 《설정이 동일한 새 실험》은 기본 Restart 모드에 대해 feature_brain_level=1003을 사용합니다(2로 되돌리거나 그렇지 않은 경우 새로운 실험을 시작하려면 0까지).
feature_brain_reset_score¶
Whether to re-score models from brain cache (String)
Default value 'auto'
- 단계 브레인 모델을 재먼징(re-munging)/재학습/재채점하지 않도록 현명하게 점수를 유지할지(〈auto〉),
모든 브레인 가져오기에 대해 항상 모든 단계를 적용할지(〈on〉),다시 점수를 부여하지 않을지(〈off〉) 여부. 〈auto〉 는 열 변경, 메트릭 변경 등과 같이 현재 및 이전 실험의 차이가 재채점을 수행해야 하는 경우에만 다시 점수를 부여합니다. 〈on’은 스마트 유사성 검사를 충분히 신뢰할 수 없을 때 유용합니다. 〈off’는 최종 모델에 도달하기 전에 다시 점수를 부여할 경우 결과를 변경할 수 있는 기능의 시드 또는 기타 동작을 변경하더라도 최종 모델 리핏을 위해 정확히 동일한 기능 및 모델을 유지하려는 경우에 유용합니다. Off로 설정하는 경우 뇌 수집 중 기능에 제한을 적용하지 않으며, 데이터의 새로운 열을 무시하려는 경우 최종 재교육: 재시작과 함께 0시간.brain_add_features_for_new_columns를 false로 설정할 수 있습니다. 채점 변경 내용과 관계없이 정확히 동일한 최고의 개체(가장 점수가 높은 모델+기능)을 사용하려는 경우 refit_same_best_individual을 True로 설정할 수도 있습니다.
enable_strict_confict_key_check_for_brain¶
enable_strict_confict_key_check_for_brain (Boolean)
Default value True
allow_change_layer_count_brain¶
For feature brain or restart/refit, whether to allow brain ingest to use different feature engineering layer count. (Boolean)
Default value False
brain_maximum_diff_score¶
brain_maximum_diff_score (Float)
Default value 0.1
현재 참조 개체와 브레인 개체에 일치해야 하는 상대적 열 수입니다. 0.0: 완전 일치 1.0: 모든 열이 다르며 최악의 일치(예: 0.1은 열의 참조 세트와 브레인 개체 간의 열 불일치가 10% 이하임을 의미합니다).
max_num_brain_indivs¶
max_num_brain_indivs (Number)
Default value 3
feature_brain_level=1, 2에 대해 H2O.ai 브레인 캐시에서 가져온 브레인 개체의 최대 수
feature_brain_save_every_iteration¶
Feature Brain Save every which iteration (0 = disable) (Number)
Default value 0
which_iteration_brain >== 0으로 다시 시작/재조정할 수 있도록 iter_num % feature_brain_iterations_save_every_iteration == 0마다 특성 브레인 반복을 저장하십시오(비활성을 의미).
which_iteration_brain¶
Feature Brain Restart from which iteration (-1 = auto) (Number)
Default value -1
다시 시작하거나 resumed_experiment_id로 유형 feature_brain_level을 재조정할 때 last best -1 대신 시작할 반복을 선택하십시오. last best 사용 사용법: 1) feature_brain_iterations_save_every_iteration=1 또는 다른 숫자를 사용하여 하나의 실험을 실행합니다. 2) 다시 시작/재조정하려는 반복 브레인 덤프 식별 3) 원래 실험에서 다시 시작/재조정, 전문가 설정에서 which_iteration_brain을 해당 숫자로 설정 참고: 조정 반복에서 다시 시작하면 점수가 매겨진 조정 모집단 전체를 가져와서 특징 진화에 사용합니다.
refit_same_best_individual¶
Feature Brain refit uses same best individual (Boolean)
Default value False
feature_brain_level=1, H2O.ai가 최대치 특징 브레인에서 재조정 수행 시 열이나 특징을 변경하는 경우 재조정에 사용된 개체의 모집단은 최고의 순서를 변경하여 더 나은 결과를 선택할 수(False 케이스). 하지만 때로 하나의 특징만을 추가한 정확히 동일한 모델/특징을 보고 싶은 경우 이를 True 케이스로 설정해야 합니다. 즉, 1개의 추가 열만으로 재조정을 수행하고 해석 가능성이 1인 경우 최종 모델은 동일한 기능이 되며, 새로운 원래 기능에 하나 이상의 가공된 특징이 적용됩니다.
restart_refit_redo_origfs_shift_leak¶
For restart-refit, select which steps to do (List)
Default value []
특징 브레인에서 실험 재시작 또는 리핏 수행 시 때로 사용자가 데이터를 크게 변경한 다음 특징 선택, 이동 감지 및 누출 감지를 통해 원래 특징 축소를 다시 실행해야 하는 경우가 있습니다. 그러나 다른 경우에 데이터와 모든 옵션이 거의(또는 정확히) 동일한 경우 이러한 단계에서 특징이 약간 변경될 수 있으며(예: 재현 가능한 모드를 설정하지 않은 경우 임의의 씨앗으로 인해) 특징 및 재조정된 모델의 변경으로 이어질 수 있습니다. 기본적으로 재시작 및 재조정으로 데이터 및 실험 설정이 크게 변경되지 않았다고 가정하는 이러한 단계를 피할 수 있습니다. check_distribution_shift가 강제로 켜진 경우(AUTO 대신) 이 옵션은 무시됩니다. 정확히 동일한 최종 파이프라인이 장착되게 하려면 다음과 같이 설정해야 합니다. 1) brain_add_features_for_new_columns false 2) refit_same_best_individual true 3) feature_brain_reset_score 〈off〉 4) force_model_restart_to_defaults false 선택한 실험 메트릭이 변경되면 점수는 계속 재설정되지만 점수가 매겨진 모델 및 특징에 대한 변경 사항은 제자리에 고정됩니다.
brain_rel_dir¶
brain_rel_dir (String)
Default value 'H2O.ai_brain'
data_directory에 상대적인 디렉터리, H2O.ai 브레인 메타 모델 파일 저장
brain_max_size_GB¶
brain_max_size_GB (Number)
Default value 20
브레인이 저장할 최대 크기(바이트) 어떤 이유로든 실험이 중단되는 경우 실험을 검색할 수 있도록 데이터를 저장하기 위해 이 메모리는 예약되어 있습니다. -1: 무제한 >=0 브레인이 제한되는 GB 수
brain_add_features_for_new_columns¶
Feature Brain adds features with new columns even during retraining final model (Boolean)
Default value True
종 모델을 재학습시키는 경우에도 새 열을 가져와 파이프라인에 추가 특징을 추가할지에 대해 다룹니다. 일부 경우 새로운 데이터 세트가 있지만 새로운 열과 관계없이 동일한 파이프라인만 유지하려고 할 수 있으며, 이 경우 False로 설정합니다. 예를 들어, 새로운 데이터는 이동 또는 누출 감지로 인해 새로운 특징이 삭제될 수 있습니다. 특징 세트의 변경을 방지하기 위해 모든 열 삭제를 비활성화할 수 있지만 False로 설정하여 모든 열을 새 특징으로 추가하지 않도록 하여 데이터 변경 시 파이프라인을 완벽하게 보존합니다.
force_model_restart_to_defaults¶
Restart-refit use default model settings if model switches (Boolean)
Default value True
재시작/리핏 수행 후 원래 모델 클래스를 더 이상 사용할 수 없는 경우 보수적으로 해당 모델 클래스의 기본값으로 돌아가십시오. False인 경우 일반적으로 작동하지 않을 수 있는 원래 하이퍼 파라미터를 유지하도록 하십시오.
early_stopping¶
early_stopping (Boolean)
Default value True
조기 중지 활성화 여부 조기 중지는 특정 반복 횟수 후에도 성능 향상이 없을 때 특징 진화/가공 프로세스를 중지하는 것을 의미합니다. 조기 중지가 트리거된 후 Driverless AI는 선택된 앙상블 프로세스가 있으면 이를 시작합니다.
early_stopping_per_individual¶
early_stopping_per_individual (Boolean)
Default value True
개체별 조기 중지 활성화 여부 일반 알고리즘의 각 개체는 개선이 없으면 조기 중지되고 더 이상 뮤테이션되지 않습니다. 대신에 최상의 개체가 추가로 뮤테이션됩니다.
min_dai_iterations¶
Min. DAI iterations (Number)
Default value 0
점수가 향상되지 않더라도 특징 진화/가공 프로세스를 중지하기 위한 Driverless AI 반복의 최소 횟수. Driverless AI는 중지하기로 결정하기 전에 최소한 그 만큼의 반복을 실행해야 합니다. 차선(초기) 수렴에 대한 보호 장치로 볼 수 있습니다.
tensorflow_nlp_have_gpus_in_production¶
tensorflow_nlp_have_gpus_in_production (Boolean)
Default value False
bert_migration_timeout_secs¶
bert_migration_timeout_secs (Number)
Default value 600
enable_bert_transformer_acceptance_test¶
enable_bert_transformer_acceptance_test (Boolean)
Default value False
enable_bert_model_acceptance_test¶
enable_bert_model_acceptance_test (Boolean)
Default value False
string_col_as_text_min_relative_cardinality¶
string_col_as_text_min_relative_cardinality (Float)
Default value 0.1
가능한 텍스트로 간주될 문자열 열에 대한 고유 값의 최소 비율(그렇지 않으면 범주형)
string_col_as_text_min_absolute_cardinality¶
string_col_as_text_min_absolute_cardinality (Number)
Default value 10000
가능한 텍스트로 간주될 문자열 열의 최소 고유 수(아직 없는 경우)
supported_image_types¶
supported_image_types (List)
Default value ['jpg', 'jpeg', 'png', 'bmp', 'ppm', 'tif', 'tiff', 'JPG', 'JPEG', 'PNG', 'BMP', 'PPM', 'TIF', 'TIFF']
지원되는 이미지 유형. 이렇게 끝나는 URI는 이미지 경로(로컬 또는 원격)로 간주됩니다.
image_paths_absolute¶
image_paths_absolute (Boolean)
Default value False
이미지가 포함된 데이터 세트를 가져올 때 이미지에 대한 절대 경로의 생성 여부입니다. 채점을 위한 프레임의 테스트 또는 재사용을 용이하게 할 수 있습니다.
text_dl_token_pad_percentile¶
text_dl_token_pad_percentile (Number)
Default value 99
nlp 딥 러닝 모델에 대한 입력 텍스트 토큰 길이의 백분위 수 컷오프
text_dl_token_pad_max¶
text_dl_token_pad_max (Number)
Default value 512
nlp 딥 러닝 모델에서 사용할 입력 텍스트의 최대 토큰 길이
tune_parameters_accuracy_switch¶
tune_parameters_accuracy_switch (Number)
Default value 3
모델 매개변수의 조정을 가능하게 하는 동일하거나 그 이상의 정확도 설정 parameter_tuning_num_models=-1(auto)인 경우에만 적용 가능
tune_target_transform_accuracy_switch¶
tune_target_transform_accuracy_switch (Number)
Default value 5
회귀를 위해 대상 변환을 조정할 수 있는 동일하거나 그 이상의 정확도 설정. 이는 실제 목표값을 예측하는 대신 Time Series에 유용하며 outliers를 제어하기 위한 수단으로 sqrt(target) 또는 log(target)과 같은 변환된 대상 변수를 예측하는 것이 더 나을 수 있습니다.
target_transformer¶
Select target transformation of the target for regression problems (String)
Default value 'auto'
회귀 문제에 대한 대상 트랜스포머를 선택합니다. 다음 중 하나여야 합니다. [〈auto〉, 〈identity〉, 〈identity_noclip〉, 〈center〉, 〈standardize〉, 〈unit_box〉, 〈log〉, 〈log_noclip〉, 〈square〉, 〈sqrt〉, 〈double_sqrt〉, 〈inverse〉, 〈anscombe〉, 〈logit〉, 〈sigmoid〉]. 〈auto〉 로 설정하면 자동으로 최상의 대상 트랜스포머를 선택하고(정확도가 각 대상 트랜스포머의 해석 수준을 고려하여 tune_target_transform_accuracy_switch 이상으로 설정된 경우), 그렇지 않으면 〈identity_no_clip〉 (가장 해석하기 쉽우며 Shapley 값은 원래 공간에 있음 등)으로 대체됩니다. 〈center〉, 〈standardize〉, 〈identity_noclip〉 및 〈log_noclip〉 을 제외한 모든 트랜스포머는 클리핑을 수행하여 예측을 교육 데이터의 대상 도메인으로 제한합니다. 〈center〉, 〈standardize〉, 〈identity_noclip〉 또는 〈log_noclip〉 을 사용하여 클리핑을 비활성화하고 교육 데이터에서 관찰된 대상 도메인 외부의 예측을 허용합니다(외삽을 지원하는 매개변수 모델 또는 사용자 정의 모델의 경우).》
target_transformer_tuning_choices¶
Select all allowed target transformations of the target for regression problems when doing target transformer tuning (List)
Default value ['identity', 'identity_noclip', 'center', 'standardize', 'unit_box', 'log', 'square', 'sqrt', 'double_sqrt', 'anscombe', 'logit', 'sigmoid']
튜닝에 사용할 대상 트랜스포머 목록을 선택합니다. target_transformer=〉auto〉 및 정확도 >= tune_target_transform_accuracy_switch에만 해당합니다.
tournament_style¶
Tournament model for genetic algorithm (String)
Default value 'auto'
토너먼트 스타일(각 반복에서 어떤 모델이 가장 좋은지 결정하는 방법) 〈auto〉: 정확성과 해석 가능성에 따라 선택 〈uniform〉: 모집단의 모든 개체가 최고가 되기 위해 경쟁(모든 모델 예를 들어, 최종 앙상블의 LightGBM 모델을 만들어 다양성 부족에 따라 앙상블 성능이 향상되지 않을 수 있음) 〈model〉: 동일한 모델 유형을 가진 개체가 경쟁(여러 모델이 잘되면 좋지만 잘되지 않은 일부 모델도 여전히 앙상블 향상에 기여) 〈feature〉: 특징 유형이 비슷한 개체가 경쟁(대상 인코딩, 주파수 인코딩 및 기타 특징 세트가 좋은 결과를 가져온 경우 유용) 〈fullstack〉: 최적의 모델 및 특징 유형 중에서 선택 〈model〉 및 〈feature〉 스타일은 각 유형에 대해 적어도 하나의 우승자를 유지합니다(따라서 뮤테이션 후 각 유형마다 총 2개의 개체) 각 경우에 대해 라운드 로빈 방식으로 선택할 모델 유형 중에서 가장 좋은 점수를 선택합니다. enable_genetic_algorithm==〉Optuna〉 인 경우 모든 개체는 유전자 알고리즘 동안 토너먼트 없이 자체 뮤테이션됩니다. 토너먼트는 예를 들어 튜닝 -> 진화 및 진화 -> 최종 모델을 위해 개체를 하향 가지치기하는 데만 사용됩니다.
tournament_uniform_style_interpretability_switch¶
tournament_uniform_style_interpretability_switch (Number)
Default value 8
〈uniform〉 토너먼트 스타일을 사용하는 이상의 해석 가능성
tournament_uniform_style_accuracy_switch¶
tournament_uniform_style_accuracy_switch (Number)
Default value 6
Tournament_style = 〈auto〉 인 경우 균일 스타일을 사용하는 이하의 정확도(다른 정확도 토너먼트 스타일 스위치 값과 관계 없음)
tournament_model_style_accuracy_switch¶
tournament_model_style_accuracy_switch (Number)
Default value 6
Tournament_style = 〈auto’인 경우 모델 스타일을 사용하는 동일하거나 그 이상의 정확도
tournament_feature_style_accuracy_switch¶
tournament_feature_style_accuracy_switch (Number)
Default value 13
tournament_style = 〈auto’인 경우 특징 스타일을 사용하는 동일 또는 이상의 정확도
tournament_fullstack_style_accuracy_switch¶
tournament_fullstack_style_accuracy_switch (Number)
Default value 13
Tournament_style = 〈auto’인 경우 전체 스택 스타일을 사용하는 동일하거나 이상의 정확도
tournament_use_feature_penalized_score¶
tournament_use_feature_penalized_score (Boolean)
Default value True
GA 토너먼트에 벌점을 사용할지 실제 점수를 사용할지 여부
num_individuals¶
num_individuals (Number)
Default value 2
Driverless AI는 유전 알고리즘(GA)을 사용하여 이러한 모델에 대한 최상 특징, 최상 모델 및 최상 하이퍼 매개변수를 찾습니다. GA를 사용하면 가능한 모든 모델/특징/매개변수를 실행/시도할 필요 없이 좋은 결과를 쉽게 얻을 수 있습니다. 이 버전의 GA에는 강화 학습 요소가 있습니다. 최적의 솔루션에 도달하기 위해 탐색-활용의 형태가 사용됩니다. 이것은 잘 작동하는 것처럼 보이는 # 모델/특징/매개변수를 활용하고 더 많이 계속 활용하는 동시에 로컬 최소값을 결정하는 것을 피하기 위해 새로운(그리고 반무작위) 모델/특징/매개변수를 시도할 여지를 허용합니다. 시도된 이러한 모델/특징/매개변수를 소위 모집단의 개체라고 합니다. 더 많은 # 개체는 더 많은 모델/특징/매개변수를 시도하고 최상의 #을 찾기 위해 경쟁합니다.
fixed_fold_reps¶
fixed_fold_reps (Number)
Default value 0
고정 횟수의 폴드 반복 설정( > 0인 경우) - 데이터에 관계없이 빠른 실행에 유용
sanitize_natural_sort_limit¶
sanitize_natural_sort_limit (Number)
Default value 1000
고유한 대상 또는 폴드 수 계산 후 더 빠르고 단순한 비자연 분류 및 인쇄로 전환
excluded_transformers¶
Exclude specific transformers (List)
Default value []
- included_transformers의 보조
예를 들어 모든 대상 인코딩을 비활성화하려면: excluded_transformers = 〈[〈NumCatTETransformer〉, 〈CVTargetEncodeF〉, 〈NumToCatTETransformer〉, 〈ClusterTETransformer〉]〉. included_pretransformers로 전처리에 사용되는 트랜스포머에는 영향을 미치지 않습니다.
excluded_genes¶
Exclude specific genes (List)
Default value []
해석 가능성 설정과 관계없이 사용하지 않을 유전자 목록(즉, 유전자(트랜스포머 위에 구축) 제외) 일부 트랜스포머는 여러 유전자에서 사용하므로 특징 가공을 서로 다르게 제어할 수 있습니다.
다중 클래스용: 〈[〈InteractionsGene〉, 〈WeightOfEvidenceGene〉, 〈NumToCatTargetEncodeSingleGene〉, 〈OriginalGene〉, 〈TextGene〉, 〈FrequentGene〉, 〈NumToCatWeightOfEvidenceGene〉, 〈NumToCatWeightOfEvidenceMonotonicGene〉, 〈 CvTargetEncodeSingleGene〉, 〈DateGene〉, 〈NumToCatTargetEncodeMultiGene〉, 〈 DateTimeGene〉, 〈TextLinRegressorGene〉, 〈ClusterIDTargetEncodeSingleGene〉, 〈CvCatNumEncodeGene〉, 〈TruncSvdNumGene〉, 〈ClusterIDTargetEncodeMultiGene〉, 〈NumCatTargetEncodeMultiGene〉, 〈CvTargetEncodeMultiGene〉, 〈TextLinClassifierGene〉, 〈NumCatTargetEncodeSingleGene〉, 〈ClusterDistGene〉]〉
회귀/바이너리용: 〈[〈CvTargetEncodeSingleGene〉, 〈NumToCatTargetEncodeSingleGene〉, 〈CvCatNumEncodeGene〉, 〈ClusterIDTargetEncodeSingleGene〉, 〈TextLinRegressorGene〉, 〈CvTargetEncodeMultiGene〉, 〈ClusterDistGene〉, 〈OriginalGene〉, 〈DateGene〉, 〈ClusterIDTargetEncodeMultiGene〉, 〈NumToCatTargetEncodeMultiGene〉, 〈NumCatTargetEncodeMultiGene〉, 〈TextLinClassifierGene〉, 〈WeightOfEvidenceGene〉, 〈FrequentGene〉, 〈TruncSvdNumGene〉, 〈InteractionsGene〉, 〈TextGene〉, 〈DateTimeGene〉, 〈NumToCatWeightOfEvidenceGene〉, 〈NumToCatWeightOfEvidenceMonotonicGene〉, 〈〉NumCatTargetEncodeSingleGene〉]〉
이 목록은 실험 로그에 나타납니다(〈Genes used〉 검색). 상호작용 유전자를 비활성화하려면 excluded_genes = 〈[〈InteractionsGene〉]〉 을 사용하십시오. included_pretransformers로 전처리에 사용되는 트랜스포머에는 영향을 미치지 않습니다.
excluded_models¶
Exclude specific models (List)
Default value []
included_models의 보조
excluded_pretransformers¶
Exclude specific pretransformers (List)
Default value []
included_pretransformers의 보조
include_all_as_pretransformers_if_none_selected¶
include_all_as_pretransformers_if_none_selected (Boolean)
Default value False
force_include_all_as_pretransformers_if_none_selected¶
force_include_all_as_pretransformers_if_none_selected (Boolean)
Default value False
excluded_datas¶
Exclude specific data recipes (List)
Default value []
included_datas의 보조
excluded_individuals¶
Exclude specific individual recipes (List)
Default value []
Auxiliary to included_individuals
excluded_scorers¶
Exclude specific scorers (List)
Default value []
included_scorers의 보조
enable_glm_rapids¶
Enable RAPIDS-cudf extensions to GLM (Boolean)
Default value False
GLM 모델에 대한 RAPIDS 확장의 활성화 여부(xgboost 1.3.0에 수정 사항이 있을 때까지 사용할 수 없음)
use_dask_for_1_gpu¶
use_dask_for_1_gpu (Boolean)
Default value False
1 GPU에 대해서도 dask_cudf를 사용할지 여부입니다. False인 경우 일반 cudf를 사용합니다.
dask_retrials_allreduce_empty_issue¶
dask_retrials_allreduce_empty_issue (Number)
Default value 5
알려진 xgboost 문제를 차단하기 위한 dask fit 재시도 횟수 https://github.com/dmlc/xgboost/issues/6272 https://github.com/dmlc/xgboost/issues/6551
optuna_pruner_kwargs¶
Set Optuna pruner constructor args. (Dict)
Default value {'n_startup_trials': 5, 'n_warmup_steps': 20, 'interval_steps': 20, 'percentile': 25.0, 'min_resource': 'auto', 'max_resource': 'auto', 'reduction_factor': 4, 'min_early_stopping_rate': 0, 'n_brackets': 4, 'min_early_stopping_rate_low': 0, 'upper': 1.0, 'lower': 0.0}
특정 적용 가능한 pruner에 대해 Optuna 생성자 인수를 설정합니다. https://optuna.readthedocs.io/en/stable/reference/pruners.html
optuna_sampler_kwargs¶
Set Optuna sampler constructor args. (Dict)
Default value {}
특정 적용 가능한 샘플러에 대해 Optuna 생성자 인수를 설정합니다. https://optuna.readthedocs.io/en/stable/reference/samplers.html
use_xgboost_xgbfi¶
use_xgboost_xgbfi (Boolean)
Default value False
xgboost에 대한 xgbfi 특징 상호 작용의 사용 여부(및 존재하는 것으로 예상됨).
drop_constant_model_final_ensemble¶
drop_constant_model_final_ensemble (Boolean)
Default value True
xgboost_rf_exact_threshold_num_rows_x_cols¶
xgboost_rf_exact_threshold_num_rows_x_cols (Number)
Default value 10000
lossguide_drop_factor¶
Factor by which to drop max_leaves from effective max_depth value when doing loss_guide. E.g. if max_depth is normally 12, this makes leaves 2**11 not 2**12 (Float)
Default value 4.0
lossguide_max_depth_extend_factor¶
Factor by which to extend max_depth mutations when doing loss_guide. E.g. if max_leaves ends up as x let max_depth be factor * x. (Float)
Default value 8.0
params_lightgbm¶
params_lightgbm (Dict)
Default value {}
DAI 매개변수를 재정의하는 LightGBM의 매개변수 예: 〈metric〉 대신 〈eval_metric〉 을 사용해야 함 예: params_lightgbm = 《{〈objective〉: 〈binary〉, 〈n_estimators〉: 100, 〈max_leaves〉: 64, 〈random_state〉: 1234}》 e.g. params_lightgbm = 《{〈n_estimators〉: 600, 〈learning_rate〉: 0.1, 〈reg_alpha〉: 0.0, 〈reg_lambda〉: 0.5, 〈gamma〉: 0, 〈max_depth〉: 0, 〈max_bin〉: 128, 〈max_leaves〉: 256, 〈scale_pos_weight〉: 1.0, 〈max_delta_step〉: 3.469919910597877, 〈min_child_weight〉: 1, 〈subsample〉: 0.9, 〈colsample_bytree〉: 0.3, 〈tree_method〉: 〈gpu_hist〉, 〈grow_policy〉: 〈lossguide〉, 〈min_data_in_bin〉: 3, 〈min_child_samples〉: 5, 〈early_stopping_rounds〉: 20, 〈num_classes〉: 2, 〈objective〉: 〈binary〉, 〈eval_metric〉: 〈binary〉, 〈random_state〉: 987654, 〈early_stopping_threshold〉: 0.01, 〈monotonicity_constraints〉: False, 〈silent〉: True, 〈debug_verbose〉: 0, 〈subsample_freq〉: 1}》 〈n_gpus〉: 1, 〈gpu_id〉: 0, , 〈n_jobs〉 와 같은 《system》 수준 매개변수를 포함하지 마십시오. 1, 〈booster〉: 〈lightgbm〉 은 〈objective〉 와 같은 매개변수도 피해야 합니다. 〈binary〉, 자체 동작을 자체 인식하지 못하는 경우(예: 대체 목표) 참고: https://xgboost.readthedocs.io/en/latest/parameter.html And see: https://github.com/Microsoft/LightGBM/blob/master/docs/Parameters.rst 특정 목표를 선택하는 경우(또는 자동으로 선택된 경우) 목표 매개변수를 전달할 수도 있습니다. https://lightgbm.readthedocs.io/en/latest/Parameters.html#metric-parameters
params_xgboost¶
params_xgboost (Dict)
Default value {}
lightgbm 매개변수가 xgboost 등가 버전에서 전사되므로 DAI 매개변수를 lightgbm과 유사한 매개변수로 재정의하는 XGBoost 매개변수 params_xgboost = 《{〈n_estimators〉: 100, 〈max_leaves〉: 64, 〈max_depth〉: 0, 〈random_state〉: 1234}》 참조: https://xgboost.readthedocs.io/en/latest/parameter.html
params_dart¶
params_dart (Dict)
Default value {}
params_xgboost와 비슷하지만 XGBoost의 dart 메서드에 사용
params_gblinear¶
params_gblinear (Dict)
Default value {}
DAI 매개변수를 재정의하기 위한 XGBoost의 gblinear 매개변수 params_gblinear = 《{〈n_estimators〉: 100}》 참조: https://xgboost.readthedocs.io/en/latest/parameter.html
params_decision_tree¶
params_decision_tree (Dict)
Default value {}
DAI 매개변수를 재정의하기 위한 Decision Tree의 매개변수 고유한 LightGBM 매개변수가 아닌 한 XGBoost와 동등한 매개변수가 제공되어야 합니다. 예: 〈metric〉 대신 〈eval_metric〉 를 사용해야 합니다. 예: params_decision_tree = 《{〈objective〉: 〈binary〉, 〈n_estimators〉: 100, 〈max_leaves〉: 64, 〈random_state〉: 1234}》 e.g. params_decision_tree = 《{〈n_estimators〉: 1, 〈learning_rate〉: 1, 〈reg_alpha〉: 0.0, 〈reg_lambda〉: 0.5, 〈gamma〉: 0, 〈max_depth〉: 0, 〈max_bin〉: 128, 〈max_leaves〉: 256, 〈scale_pos_weight〉: 1.0, 〈max_delta_step〉: 3.469919910597877, 〈min_child_weight〉: 1, 〈subsample〉: 0.9, 〈colsample_bytree〉: 0.3, 〈tree_method〉: 〈gpu_hist〉, 〈grow_policy〉: 〈lossguide〉, 〈min_data_in_bin〉: 3, 〈min_child_samples〉: 5, 〈early_stopping_rounds〉: 20, 〈num_classes〉: 2, 〈objective〉: 〈binary〉, 〈eval_metric〉: 〈logloss〉, 〈random_state〉: 987654, 〈early_stopping_threshold〉: 0.01, 〈monotonicity_constraints〉: False, 〈silent〉: True, 〈debug_verbose〉: 0, 〈subsample_freq〉: 1}》 〈n_gpus〉 와 같은 《system》 수준 매개변수를 포함하지 마십시오. 1, 〈gpu_id〉: 0, , 〈n_jobs〉: 1, 〈booster〉: 〈lightgbm〉 또한 다음과 같은 매개변수를 피해야 합니다. 〈objective〉: 〈binary:logistic〉, 자체 동작을 자체 인식하지 못하는 경우(예: 대체 목표) 참고: https://xgboost.readthedocs.io/en/latest/parameter.html And see: https://github.com/Microsoft/LightGBM/blob/master/docs/Parameters.rst 특정 목표를 선택하는 경우(또는 자동으로 선택된 경우) 목표 매개변수를 전달할 수도 있습니다. https://lightgbm.readthedocs.io/en/latest/Parameters.html#metric-parameters
params_rulefit¶
params_rulefit (Dict)
Default value {}
DAI 매개변수를 재정의하는 Rulefit의 매개변수 예: params_rulefit = 《{〈max_leaves〉: 64}》 참조: https://xgboost.readthedocs.io/en/latest/parameter.html
params_ftrl¶
params_ftrl (Dict)
Default value {}
DAI 매개변수를 재정의하는 FTRL의 매개변수
params_grownet¶
params_grownet (Dict)
Default value {}
DAI 매개변수를 재정의하는 GrowNet의 매개변수
params_tune_lightgbm¶
params_tune_lightgbm (Dict)
Default value {}
키 사전: LightGBM 튜닝에 사용할 값 목록은 키당 DAI의 선택을 재정의합니다. params_tune_lightgbm = 《{〈min_child_samples〉: [1,2,5,100,1000], 〈min_data_in_bin〉: [1,2,3,10,100,1000]}》
params_tune_xgboost¶
params_tune_xgboost (Dict)
Default value {}
params_tune_lightgbm과 비슷하지만 XGBoost에 사용 예: params_tune_xgboost = 《{〈max_leaves〉: [8, 16, 32, 64]}》
params_tune_dart¶
params_tune_dart (Dict)
Default value {}
params_tune_lightgbm과 비슷하지만 XGBoost의 Dart에 사용 예: params_tune_dart = 《{〈max_leaves〉: [8, 16, 32, 64]}》
params_tune_tensorflow¶
params_tune_tensorflow (Dict)
Default value {}
params_tune_lightgbm과 비슷하지만 TensorFlow에 사용 예: params_tune_tensorflow = 《{〈layers〉: [(10,10,10), (10, 10, 10, 10)]}》
params_tune_gblinear¶
params_tune_gblinear (Dict)
Default value {}
params_tune_lightgbm과 비슷하지만 gblinear에 사용 예: params_tune_gblinear = 《{〈reg_lambda〉: [.01, .001, .0001, .0002]}》
params_tune_rulefit¶
params_tune_rulefit (Dict)
Default value {}
params_tune_lightgbm과 비슷하지만 rulefit에 사용 예: params_tune_rulefit = 《{〈max_depth〉: [4, 5, 6]}》
params_tune_ftrl¶
params_tune_ftrl (Dict)
Default value {}
params_tune_lightgbm과 비슷하지만 ftrl에 사용
params_tune_grownet¶
params_tune_grownet (Dict)
Default value {}
params_tune_lightgbm과 비슷하지만 GrowNe에 사용 예: params_tune_grownet = 《{〈input_dropout〉: [0.2, 0.5]}》
params_tune_grow_policy_simple_trees¶
params_tune_grow_policy_simple_trees (Boolean)
Default value True
growth_policy가 각각 depthwise 및 lossguide인 경우 max_leaves 및 max_depth를 0으로 강제할지 여부.
default_max_bin¶
default_max_bin (Number)
Default value 256
트리 메서드에 대한 기본 max_bin
default_lightgbm_max_bin¶
default_lightgbm_max_bin (Number)
Default value 249
lightgbm의 기본 max_bin(속도가 중요한 경우 GPU lightgbm에 64 권장)
min_max_bin¶
min_max_bin (Number)
Default value 32
모든 트리의 최소 max_bin
scale_mem_for_max_bin¶
scale_mem_for_max_bin (Number)
Default value 10737418240
처리할 수 있는 메모리의 양 max_bin = 256은 125개의 열을 처리할 수 있고 max_bin = 32는 1000개의 열을 처리할 수 있습니다. 시스템에서 사용 가능한 메모리가 이 규모보다 많아지면 더 높은 max_bin에서 비례적으로 더 많은 열을 처리할 수 있습니다. 현재 10GB로 설정되어 있습니다.
factor_rf¶
factor_rf (Float)
Default value 1.25
rf가 gbdt보다 더 많은 깊이를 얻는 계수
tensorflow_use_all_cores¶
tensorflow_use_all_cores (Boolean)
Default value True
TensorFlow가 모든 CPU 코어를 사용할지 또는 모든 트랜스포머로 분할할지 여부
tensorflow_use_all_cores_even_if_reproducible_true¶
tensorflow_use_all_cores_even_if_reproducible_true (Boolean)
Default value False
Reproducible이 설정된 경우 TensorFlow가 모든 CPU 코어를 사용할지 또는 모든 트랜스포머로 분할할지 여부
tensorflow_disable_memory_optimization¶
tensorflow_disable_memory_optimization (Boolean)
Default value True
TensorFlow 메모리 최적화의 비활성화 여부. tensorflow.python.framework.errors_impl.AlreadyExistsError를 수정하는 데 도움이 될 수 있습니다.
tensorflow_cores¶
tensorflow_cores (Number)
Default value 0
GPU 기반인지 CPU 기반인지에 관계없이 각 TensorFlow 모델에 사용할 코어 수(0 = 자동 모드)
validate_meta_learner¶
Enable basic logging and notifications for ensemble meta learner (Boolean)
Default value True
validate_meta_learner_extra¶
Enable extra logging for ensemble meta learner: ensemble must be at least as good as each base model (Boolean)
Default value False
fixed_num_folds_evolution¶
Number of cross-validation folds for feature evolution (-1 = auto) (Number)
Default value -1
특징 진화를 위해 고정된 교차 검증 폴드 수를 지정합니다(>= 2인 경우). (허용되는 실제 분할 수는 더 적을 수 있으며 실험 런타임에 결정됩니다.)
fixed_num_folds¶
Number of cross-validation folds for final model (-1 = auto) (Number)
Default value -1
최종 모델에 대해 고정된 교차 검증 폴드 수를 지정합니다(>= 2인 경우). (허용되는 실제 분할 수는 더 적을 수 있으며 실험 런타임에 결정됩니다.)
fixed_only_first_fold_model¶
Force only first fold for models (String)
Default value 'auto'
모델에 대해 첫 번째 폴드를 강제 실행하려면 《on》을 설정하십시오. 데이터에 관계없이 빠른 실행에 유용합니다.
num_fold_ids_show¶
Maximum number of fold IDs to show in logs (Number)
Default value 10
fold_scores_instability_warning_threshold¶
Declare positive fold scores as unstable if stddev / mean is larger than this value (Float)
Default value 0.25
feature_evolution_data_size¶
Max. num. of rows x num. of columns for feature evolution data splits (not for final pipeline) (Number)
Default value 300000000
특성 진화를 위한 행 수 x 열 수의 상한선(교육 및 검증/홀드아웃 분할 모두에 적용) 특성 진화는 파생될 특성을 결정하는 프로세스입니다. 정확도 설정에 따라 이 값의 일부가 사용됩니다.
final_pipeline_data_size¶
Max. num. of rows x num. of columns for reducing training data set (for final pipeline) (Number)
Default value 1000000000
최종 파이프라인 교육을 위한 행 수 x 열 수의 상한선입니다.
max_validation_to_training_size_ratio_for_final_ensemble¶
Max. size of validation data relative to training data (for final pipeline), otherwise will sample (Float)
Default value 2.0
유효성 검증 데이터는 조기 중지에만 사용되므로 값이 작을수록 최종 파이프라인 모델 교육 속도가 빨라질 수 있습니다. 최종 모델 예측 및 점수는 항상 제공된 전체 데이터 세트에 대해 제공됩니다.
force_stratified_splits_for_imbalanced_threshold_binary¶
Perform stratified sampling for binary classification if the target is more imbalanced than this. (Float)
Default value 0.01
이진 분류를 위해 계층화된 샘플링이 수행되는 대상 열의 소수 대 다수 클래스의 비율입니다. 그렇지 않으면 무작위 샘플링을 수행합니다. 항상 무작위 샘플링을 수행하려면 0으로 설정합니다. 항상 계층화된 샘플링을 수행하려면 1로 설정합니다.
stratify_for_regression¶
Perform stratified sampling for regression problems (using binning). (Boolean)
Default value True
iid 회귀 문제에 대한 유효성 검증 폴드 생성을 위해 계층화 샘플링의 수행 여부를 지정합니다. 그렇지 않으면 무작위 샘플링을 수행합니다.
imbalance_ratio_multiclass_threshold¶
Ratio of most frequent to least frequent class for imbalanced multiclass classification problems equal and above which to trigger special handling due to class imbalance (Number)
Default value 5
특징 가공에는 특수 모델, 특수 스코어러, 특수 가공이 포함될 수 있습니다.
heavy_imbalance_ratio_multiclass_threshold¶
Ratio of most frequent to least frequent class for imbalanced multiclass classification problems equal and above which to trigger special handling due to heavy class imbalance (Number)
Default value 25
특징 가공에는 특수 모델, 특수 스코어러, 특수 가공이 포함될 수 있습니다.
imbalance_sampling_rank_averaging¶
Whether to do rank averaging bagged models inside of imbalanced models, instead of probability averaging (String)
Default value 'auto'
- 순위 평균은 AUC/Gini와 같은 메트릭의 순위를 매길 때 다양한 모델을 앙상블할 때 유용할 수 있습니다.
메트릭이 최적화되었습니다. 아직 MOJO 지원이 없습니다.
imbalance_ratio_notification_threshold¶
imbalance_ratio_notification_threshold (Float)
Default value 2.0
이진 분류의 경우: GUI의 불균형을 알리기 위해 약간의 불균형을 알리는 동일 또는 이상의 소수 클래스에 대한 다수의 비율. imbalance_ratio_sampling_threshold보다 많은 경우 문제는 불균형입니다.
nbins_ftrl_list¶
nbins_ftrl_list (List)
Default value [1000000, 10000000, 100000000]
FTRL에 대한 가능한 bin 목록(가장 큰 것이 가장 좋은 기본값임)
te_bin_list¶
te_bin_list (List)
Default value [25, 10, 100, 250]
대상 인코딩에 대한 가능한 bin 목록(첫 번째는 기본값임)
woe_bin_list¶
woe_bin_list (List)
Default value [25, 10, 100, 250]
증거 인코딩 가중치에 대한 가능한 bin 목록(첫 번째는 기본값) 하나의 값만 원하는 경우: woe_bin_list = [2]
ohe_bin_list¶
ohe_bin_list (List)
Default value [10, 25, 50, 75, 100]
하나의 핫 인코딩에 대한 가능한 bin 목록(첫 번째는 기본값)
cols_to_drop_sanitized¶
cols_to_drop_sanitized (List)
Default value []
cols_to_group_by_sanitized¶
cols_to_group_by_sanitized (List)
Default value []
default_knob_offset_accuracy¶
Offset for default accuracy knob (Number)
Default value 0
- 기본 정확도 노브 설정을 제어할 수 있습니다.
기본 모델이 너무 복잡한 경우 -1 또는 -2 등으로 설정합니다. 기본 모델이 충분히 정확하지 않은 경우 1 또는 2 등으로 설정합니다.
default_knob_offset_time¶
Offset for default time knob (Number)
Default value 0
- 기본 시간 노브 설정을 제어할 수 있습니다.
기본 실험이 너무 느리면 -1 또는 -2 등으로 설정합니다. 기본 실험이 너무 빨리 완료되면 1 또는 2 등으로 설정합니다.
default_knob_offset_interpretability¶
Offset for default interpretability knob (Number)
Default value 0
- 기본 해석 가능성 노브 설정을 제어할 수 있습니다.
기본 모델이 너무 단순하면 -1 또는 -2 등으로 설정하고 기본 모델이 너무 복잡하면 1 또는 2 등으로 설정합니다.
shift_check_text¶
shift_check_text (Boolean)
Default value False
현재 레이블 인코딩을 통해서만 시프트에 대한 텍스트 확인을 활성화할지 여부.
use_rf_for_shift_if_have_lgbm¶
use_rf_for_shift_if_have_lgbm (Boolean)
Default value True
시프트 감지를 위해 조기 중지 없이 LightGBM Random Forest 모드를 사용할지 여부.
shift_key_features_varimp¶
shift_key_features_varimp (Float)
Default value 0.01
시프트 특징을 확인하기 위한 정규화된 교육 변수 중요도. 중요하지 않을 가능성이 있는 특징을 확인하지 않는 데 유용합니다.
shift_check_reduced_features¶
shift_check_reduced_features (Boolean)
Default value True
shift_key_features_varimp 값을 기준으로 특정 특징만 확인할지 여부
shift_trees¶
shift_trees (Number)
Default value 100
분포 내 시프트를 확인하기 위해 모델을 교육하는 데 사용할 트리 수 max_nestimators보다 크지 않음
shift_max_bin¶
shift_max_bin (Number)
Default value 256
분포 내 시프트를 확인하기 위해 모델을 교육하는 데 사용할 트리에 사용할 max_bin 값
shift_min_max_depth¶
shift_min_max_depth (Number)
Default value 4
분포 내 시프트를 확인하기 위해 모델을 교육하는 데 사용할 트리에 사용할 max_depth의 최소값
shift_max_max_depth¶
shift_max_max_depth (Number)
Default value 8
분포 내 시프트를 확인하기 위해 모델을 교육하는 데 사용할 트리에 사용할 max_depth의 최대값
detect_features_distribution_shift_threshold_auc¶
detect_features_distribution_shift_threshold_auc (Float)
Default value 0.55
분포 시프트 감지가 활성화된 경우 시프트 AUC가 이 값보다 큰 특징을 표시합니다(주어진 특징 값이 교육 또는 테스트 데이터에 속하는지 예측하는 바이너리 분류기의 AUC).
drop_features_distribution_shift_min_features¶
drop_features_distribution_shift_min_features (Number)
Default value 1
유지할 최소 특징 수, 최소 1인 경우 최소 시프트 특징 유지
shift_high_notification_level¶
shift_high_notification_level (Float)
Default value 0.8
이하의 시프트인 경우 알림이 HIGH, 그렇지 않으면 MEDIUM이 표시됩니다.
leakage_check_text¶
leakage_check_text (Boolean)
Default value True
현재 레이블 인코딩을 통해서만 누출에 대한 텍스트 확인을 활성화할지 여부.
leakage_key_features_varimp¶
leakage_key_features_varimp (Float)
Default value 0.001
정규화 된 교육 변수 중요도 (1에서 AUC/R2를 빼서 누출된 varimp 우성을 제어하기 위해) 이상인 경우 특징에 대해 누출 확인. 중요하지 않을 가능성이 있는 특징을 확인하지 않는 데 유용합니다.
leakage_key_features_varimp_if_no_early_stopping¶
leakage_key_features_varimp_if_no_early_stopping (Float)
Default value 0.05
leak_key_features_varimp와 유사하지만, 균일한 varimp를 얻기 위해 다중 누출을 신뢰할 수 있을 때 조기 중지가 비활성화된 경우 적용됩니다.
leakage_check_reduced_features¶
leakage_check_reduced_features (Boolean)
Default value True
leak_key_features_varimp 값을 기준으로 특정 기능만 확인할지 여부입니다. 어떤 특징에서 AUC가 1에 가까우면 다른 특징이 누출되어도 모든 변수 중요도가 소모됩니다. 따라서 False가 가장 안전한 옵션이지만 일반적으로 열이 많으면 True가 좋습니다.
use_rf_for_leakage_if_have_lgbm¶
use_rf_for_leakage_if_have_lgbm (Boolean)
Default value True
누출 감지를 위해 조기 중지 없이 LightGBM 랜Random Forest 모드를 사용할지 여부.
leakage_trees¶
leakage_trees (Number)
Default value 100
누출을 확인하기 위해 모델을 교육하는 데 사용할 트리 수 max_nestimators보다 크지 않음
leakage_max_bin¶
leakage_max_bin (Number)
Default value 256
누출을 확인하기 위해 모델을 교육하는 데 사용할 트리에 사용할 max_bin 값
leakage_min_max_depth¶
leakage_min_max_depth (Number)
Default value 6
누출을 확인하기 위해 모델을 교육하는 데 사용할 트리에 사용할 max_depth 값
leakage_max_max_depth¶
leakage_max_max_depth (Number)
Default value 8
누출을 확인하기 위해 모델을 교육하는 데 사용할 트리에 사용할 max_depth 값
drop_features_leakage_min_features¶
drop_features_leakage_min_features (Number)
Default value 1
유지할 최소 특징 수, 누출 1인 경우 최소 누출 특징 유지
leakage_train_test_split¶
leakage_train_test_split (Float)
Default value 0.25
누출 테스트 시 검증 홀드아웃에 대한 교육 비율
check_system¶
Whether to check system installation on server startup (Boolean)
Default value True
abs_tol_for_perfect_score¶
abs_tol_for_perfect_score (Float)
Default value 0.0001
유효성 검증 점수가 완벽한 것으로 간주되기 위해(실험을 중단하기 위해) 최적 값(일반적으로 1 또는 0)에 얼마나 근접해야 합니까?
data_ingest_timeout¶
data_ingest_timeout (Float)
Default value 86400.0
데이터 수집을 기다리는 시간 초과(초)입니다.
gpu_locking_trust_pool_submission¶
gpu_locking_trust_pool_submission (Boolean)
Default value True
- 메모리 사용을 제한하기 위해 GPU 작업 제출에 대한 GPU 잠금의 신뢰 여부.
False이면 이후 작업이 기다릴 필요가 없는 순수한 CPU 작업이어도 GPU 제출이 GPU 수보다 적을 때까지 기다립니다. num_gpus_per_experiment를 통해 GPU 수를 제한하지 않는 경우에만 적용 가능하며, 그렇지 않으면 잠금을 사용하는 대신 리소스를 사용해야 합니다.
gpu_locking_free_dead¶
gpu_locking_free_dead (Boolean)
Default value True
프로세스가 GPU PID 목록에 없거나 CPU 리소스를 전혀 사용하지 않는 경우(예: 절전 모드) GPU 잠금을 훔칠지 여부입니다. 불완전한 다중 GPU 잠금에서만 훔칩니다. 다중 GPU 모델이 중단되는 경우 교착 상태를 방지합니다.
tensorflow_allow_cpu_only¶
tensorflow_allow_cpu_only (Boolean)
Default value False
check_pred_contribs_sum¶
check_pred_contribs_sum (Boolean)
Default value False
debug_daimodel_level¶
debug_daimodel_level (Number)
Default value 0
debug_debug_xgboost_splits¶
debug_debug_xgboost_splits (Boolean)
Default value False
log_predict_info¶
Whether to show detailed predict information in logs. (Boolean)
Default value True
log_fit_info¶
Whether to show detailed fit information in logs. (Boolean)
Default value True
stalled_time_kill_ref¶
stalled_time_kill_ref (Float)
Default value 440.0
작업을 종료하기 전까지의 정지 시간(초)입니다(정지된 것으로 가정). 참조 시간은 사용된 stalled_time_kill을 얻기 위해 행 * 열의 학습 데이터 모양에 따라 조정됩니다.
num_cpu_sockets_override¶
num_cpu_sockets_override (Number)
Default value 0
중요하지 않은 시스템에서 DAI 결정이 잘못된 경우 소켓 수를 재정의하는 값입니다. 0은 자동을 의미합니다.
num_gpus_override¶
num_gpus_override (Number)
Default value -1
중요하지 않은 시스템에서 DAI 결정이 잘못된 경우 GPU 수를 재정의하는 값입니다. -1은 자동을 의미합니다. 또한 min_num_cores_per_gpu=-1을 설정하여 코어 수에 관계없이 각 실험에 대해 임의의 GPU 수를 허용할 수 있습니다.
show_gpu_usage_only_if_locked¶
show_gpu_usage_only_if_locked (String)
Default value 'auto'
잠금 시에만 GPU 사용량의 표시 여부. 〈auto’는 num_gpus_override가 실제 총 가시 GPU와 다른 경우 〈on’을 의미하고, 그렇지 않으면 〈off’를 의미합니다.
show_inapplicable_models_preview¶
show_inapplicable_models_preview (Boolean)
Default value False
사용할 수 있는 모델이 누락되지 않도록 미리보기에 적용할 수 없는 모델 표시
show_inapplicable_transformers_preview¶
show_inapplicable_transformers_preview (Boolean)
Default value False
사용할 수 있는 트랜스포머가 누락되지 않도록 미리보기에 적용할 수 없는 트랜스포머 표시
show_warnings_preview¶
show_warnings_preview (Boolean)
Default value False
사용 조건이 충족되지만 정확도/성능에 도움이 될 수 있는 누락된 모델을 피하기 위해 선택되지 않은 경우 모델(이미지 자동, dask 다중 노드/다중 GPU)에 대한 경고 표시
show_warnings_preview_unused_map_features¶
show_warnings_preview_unused_map_features (Boolean)
Default value True
특정 특징에 대한 트랜스포머가 없는 모델에 대한 경고 표시.
max_cols_show_unused_features¶
max_cols_show_unused_features (Number)
Default value 1000
GUI/클라이언트 미리보기 중에 사용하지 않는 특징을 결정할 최대 입력 특징 수. 너무 많으면 미리보기가 느려집니다.
max_cols_show_feature_transformer_mapping¶
max_cols_show_feature_transformer_mapping (Number)
Default value 1000
각 입력 특징에 사용되는 트랜스포머를 표시할 최대 입력 특징 수.
warning_unused_feature_show_max¶
warning_unused_feature_show_max (Number)
Default value 3
사용하지 않는 특징을 미리보기에 표시할 최대 입력 특징 수.
interaction_finder_max_rows_x_cols¶
interaction_finder_max_rows_x_cols (Float)
Default value 200000.0
interaction_finder_corr_threshold¶
interaction_finder_corr_threshold (Float)
Default value 0.95
min_bootstrap_samples¶
Minimum number of bootstrap samples (Number)
Default value 1
점수 및 표준 편차 추정에 사용할 부트스트랩 샘플의 최소 수. 실제 부트스트랩 샘플 수는 행 수(행이 많을수록 샘플이 적음) 및 정확도 설정(정확도가 높을수록 샘플이 많음)에 따라 최소값과 최대값 사이에서 결정됩니다.
max_bootstrap_samples¶
Maximum number of bootstrap samples (Number)
Default value 100
점수 및 표준 편차 추정에 사용할 부트스트랩 샘플의 최대 수. 실제 부트스트랩 샘플 수는 행 수(행이 많을수록 샘플이 적음) 및 정확도 설정(정확도가 높을수록 샘플이 많음)에 따라 최소값과 최대값 사이에서 결정됩니다.
min_bootstrap_sample_size_factor¶
Minimum fraction of rows to use for bootstrap samples (Float)
Default value 1.0
부트스트랩 추정기의 샘플 크기로 사용할 행 크기의 최소 비율. 부트스트랩 추정에 사용되는 실제 샘플 크기는 행 수(행이 많을수록 샘플 크기가 작음) 및 정확도 설정(정확도가 높을수록 샘플 크기가 커짐)에 따라 최소값과 최대값 사이에서 결정됩니다.
max_bootstrap_sample_size_factor¶
Maximum fraction of rows to use for bootstrap samples (Float)
Default value 10.0
부트스트랩 추정기의 샘플 크기로 사용할 행 크기의 최대 비율. 부트스트랩 추정에 사용되는 실제 샘플 크기는 행 수(행이 많을수록 샘플 크기가 작음) 및 정확도 설정(정확도가 높을수록 샘플 크기가 커짐)에 따라 최소값과 최대값 사이에서 결정됩니다.
bootstrap_final_seed¶
Seed to use for final model bootstrap sampling (Number)
Default value -1
최종 모델 부트스트랩 샘플링에 사용할 시드, -1은 실험에서 파생된 시드 사용을 의미합니다. 예를 들어 점수에 대해 다른 최종 모델 오차 막대를 얻기 위해 다른 시드로 최종 모델을 재학습할 수 있습니다.
benford_mad_threshold_int¶
benford_mad_threshold_int (Float)
Default value 0.03
Benford의 법칙: 정수 값 열도 범주형으로 처리되는 평균 절대 편차 임계값과 동일하거나 그 이상
benford_mad_threshold_real¶
benford_mad_threshold_real (Float)
Default value 0.1
Benford의 법칙: 실수 값 열도 범주형으로 처리되는 평균 절대 편차 임계값과 동일하거나 그 이상
stabilize_features¶
Use tuning-evolution search result for final model transformer. (Boolean)
Default value True
- 최종 파이프라인이 일반적으로 사용하는 일부 트랜스포머에 대해 고정 기능을 사용하는지 여부
InteractionsTransformer와 같은 검색을 수행합니다. 튜닝 및 진화에서 배운 것을 사용(True)하거나 새로운 특징을 새로 검색(False)합니다. 이것은 특히 작은 데이터에 대해 또는 다중 레이어 파이프라인에서 사전 트랜스포머로 상호 작용 트랜스포머를 사용할 때 보다 안정적인 파이프라인을 제공할 수 있습니다.
fraction_std_bootstrap_ladder_factor¶
Factor of standard deviation of bootstrap scores by which to accept new model in genetic algorithm. Too small a fraction will lead to accepting new models easily even if no significant improvement in score, while too large a fraction will reject too many good models. Non-zero value is a bit risky when no folds are used in GA, because bootstrap score is only rough estimate of error. (Float)
Default value 0.01
bootstrap_ladder_samples_limit¶
Minimum number of bootstrap samples that are required to limit accepting new model. If less than this, then new model is always accepted. (Number)
Default value 10
rdelta_percent_score_penalty_per_feature_by_interpretability¶
rdelta_percent_score_penalty_per_feature_by_interpretability (String)
Default value '{1: 0.0, 2: 0.1, 3: 1.0, 4: 2.0, 5: 5.0, 6: 10.0, 7: 20.0, 8: 30.0, 9: 50.0, 10: 100.0, 11: 100.0, 12: 100.0, 13: 100.0}'
drop_low_meta_weights¶
drop_low_meta_weights (Boolean)
Default value True
meta_weight_allowed_by_interpretability¶
meta_weight_allowed_by_interpretability (String)
Default value '{1: 1E-7, 2: 1E-5, 3: 1E-4, 4: 1E-3, 5: 1E-2, 6: 0.03, 7: 0.05, 8: 0.08, 9: 0.10, 10: 0.15, 11: 0.15, 12: 0.15, 13: 0.15}'
meta_weight_allowed_for_reference¶
Min. weight of meta learner for reference models during ensembling. If 1.0, then reference model must be the clear winner to be kept. Set to 0.0 to never drop reference models (Float)
Default value 1.0
show_full_pipeline_details¶
Whether to show full pipeline details (Boolean)
Default value False
num_transformed_features_per_pipeline_show¶
Number of features to show when logging size of fitted transformers (Number)
Default value 10
fs_data_vary_for_interpretability¶
fs_data_vary_for_interpretability (Number)
Default value 7
fs_data_frac¶
fs_data_frac (Float)
Default value 0.5
many_columns_count¶
Number of columns beyond which reduce expensive tasks at cost of some accuracy. (Number)
Default value 400
columns_count_interpretable¶
Number of columns beyond which do not set default knobs to high interpretability even if bigger data. (Number)
Default value 200
round_up_indivs_for_busy_gpus¶
Whether to round-up individuals to ensure all GPUs used. Not always best if (say) have 16 GPUs, better to have multiple experiments if in multi-user environment on single node. (Boolean)
Default value True
check_timeout_per_gpu¶
check_timeout_per_gpu (Number)
Default value 20
시스템 검사 중에 tensorflow/torch가 실행될 때까지 GPU당 대기 시간입니다.
gpu_exit_if_fails¶
gpu_exit_if_fails (Boolean)
Default value True
GPU 검사를 성공적으로 실행할 수 없는 경우 시동 실패 여부
require_graphviz¶
Whether to require Graphviz package at startup (Boolean)
Default value True
Graphviz는 실험 아티팩트의 일부로 파이프라인 시각화를 위해 .dot 파일을 .png 파일로 변환하기 위한 기본 설치(Docker 외부의 RPM/DEP/Tar-SH)에 대한 선택적 요구 사항입니다.
fast_approx_max_num_trees_ever¶
fast_approx_max_num_trees_ever (Number)
Default value -1
모든 트리 모델 예측에 사용할 치대 트리 수입니다. 테스트를 위해 예측이 중요하지 않은 경우. -1은 비활성화됨을 의미합니다.
fast_approx_num_trees¶
fast_approx_num_trees (Number)
Default value 250
fast_approx=True에 사용할 최대 트리 수(예: AutoDoc/MLI의 경우).
fast_approx_do_one_fold¶
fast_approx_do_one_fold (Boolean)
Default value True
모든 교차 검증 폴드 중 하나만 사용하여 fast_approx=True 속도를 높일지 여부(예: AutoDoc/MLI의 경우).
fast_approx_do_one_model¶
fast_approx_do_one_model (Boolean)
Default value False
모든 앙상블 모델(예: AutoDoc/MLI의 경우) 중 하나의 모델만 사용하여 fast_approx=True의 속도를 더 높일지 여부.
fast_approx_contribs_num_trees¶
fast_approx_contribs_num_trees (Number)
Default value 50
fast_approx_contribs=True에 사용할 최대 트리 수(예: Shapley 예측을 할 때 GUI의 〈Fast Approximation〉 및 AutoDoc/MLI의 경우).
fast_approx_contribs_do_one_fold¶
fast_approx_contribs_do_one_fold (Boolean)
Default value True
모든 교차 검증 폴드 중 하나의 폴드만 사용하여 fast_approx_contribs=True 속도를 높일지 여부(예: Shapley 예측을 할 때 GUI의 〈Fast Approximation〉 및 AutoDoc/MLI의 경우).
fast_approx_contribs_do_one_model¶
fast_approx_contribs_do_one_model (Boolean)
Default value True
모든 앙상블 모델 중 하나의 모델만 사용하여 fast_approx_contribs=True 속도를 높일지 여부(예: Shapley 예측을 할 때 GUI의 〈Fast Approximation〉 및 AutoDoc/MLI의 경우).
use_187_prob_logic¶
use_187_prob_logic (Boolean)
Default value True
DAI 1.8.x와 같은 활용-탐색 로직을 사용할지 여부. 더 많이 탐색하려면 False를 사용합니다.
enable_ohe_linear¶
enable_ohe_linear (Boolean)
Default value False
교차 검증된 OneHotEncoding+LinearModel 트랜스포머 활성화 여부
max_absolute_feature_expansion¶
max_absolute_feature_expansion (Number)
Default value 1000
booster_for_fs_permute¶
booster_for_fs_permute (String)
Default value 'auto'
model_class_name_for_fs_permute¶
model_class_name_for_fs_permute (String)
Default value 'auto'
switch_from_tree_to_lgbm_if_can¶
switch_from_tree_to_lgbm_if_can (Boolean)
Default value True
textlin_num_classes_switch¶
Class count above which do not use TextLin Transformer (Number)
Default value 5
TextLin Transformer를 사용하지 않는 클래스 수 이상입니다.
text_gene_dim_reduction_choices¶
text_gene_dim_reduction_choices (List)
Default value [50]
text_gene_max_ngram¶
text_gene_max_ngram (List)
Default value [1, 2, 3]
number_of_texts_to_cache_in_bert_transformer¶
number_of_texts_to_cache_in_bert_transformer (Number)
Default value -1
임베딩 벡터를 실험 디렉터리에 임시로 저장하여 BERT 임베딩 캐싱을 활성화합니다. 모든 텍스트를 캐시하려면 -1로 설정하고, 캐시를 비활성화하려면 0으로 설정합니다.
gbm_early_stopping_rounds_min¶
gbm_early_stopping_rounds_min (Number)
Default value 1
gbm_early_stopping_rounds_max¶
gbm_early_stopping_rounds_max (Number)
Default value 10000000000
max_varimp_to_save¶
max_varimp_to_save (Number)
Default value 100
반복당 저장할 최상위 변수 중요도 최대 수(GUI는 최대 14개만 표시할 수 있음)
max_num_varimp_to_log¶
max_num_varimp_to_log (Number)
Default value 10
특징 진화 중 로그에 표시할 최상위 변수 중요도 최대 수
max_num_varimp_shift_to_log¶
max_num_varimp_shift_to_log (Number)
Default value 10
최종 모델 빌드 후 로그 및 GUI에 표시할 최상위 변수 중요도 시프트 최대 수
can_skip_final_upper_layer_failures¶
can_skip_final_upper_layer_failures (Boolean)
Default value True
다중레이어 파이프라인의 경우 레이어 > 첫 번째 레이어에 대한 최종 모델 트랜스포머 오류를 건너뛸 수 있는지 여부.
config_overrides¶
Add to config.toml via toml string (String)
Default value ''
GUI 전문가 페이지의 〈toml 문자열을 통해 config.toml에 추가’에 대한 지침. 다른 toml 매개변수를 다음으로 구분된 toml 문자열로 설정하기 위한 자체 참조 toml 매개변수
(주변 공백은 괜찮습니다).
toml 매개변수가 전문가 모드가 아니지만 실험별 제어를 원할 때 유용합니다. 이것을 설정하면 다른 모든 선택 사항은 무시됩니다. 전문가 페이지에서 전문가 옵션이 저장될 때마다 이전 설정이 복원되지 않고 새 상태가 설정됩니다. 입력한 항목은 toml.load()에 의해 직접 처리되는 완전히 호환되는 toml 문자열입니다. 전체 설정 주위에 2개의 큰따옴표를 포함하거나 큰따옴표를 이스케이프해야 합니다. 다음과 같이 전문가 페이지 텍스트에 입력합니다. 예: enable_glm=》off》
enable_xgboost_gbm=》off》 enable_lightgbm=》on》
- 예: 《》enable_glm=》off》
enable_xgboost_gbm=》off》 enable_lightgbm=》off》 enable_tensorflow=》on》》》
예: fixed_num_individuals=4 예: params_lightgbm=》{〈objective〉:〉poisson〉}》 예: 《》params_lightgbm=》{〈objective〉:〉poisson〉}》》》 예: max_cores=10
data_precision=》float32》 max_rows_feature_evolution=50000000000 ensemble_accuracy_switch=11 feature_engineering_effort=1 target_transformer=》identity》 tournament_feature_style_accuracy_switch=5 params_tensorflow=》{〈layers〉: (100, 100, 100, 100, 100, 100)}》
- 예: 《》max_cores=10
data_precision=》float32》 max_rows_feature_evolution=50000000000 ensemble_accuracy_switch=11 feature_engineering_effort=1 target_transformer=》identity》 tournament_feature_style_accuracy_switch=5 params_tensorflow=》{〈layers〉: (100, 100, 100, 100, 100, 100)}》》》
《toml.TomlDecodeError》가 표시되면 toml이 올바르게 설정되었는지 확인합니다. 실험의 전문가 페이지에서 설정하면 이러한 변경 사항은 실험에만 영향을 끼치고 서버에는 영향을 미치지 않습니다. 일반적으로 이 toml 파일에서 이를 빈 문자열로 유지해야 합니다.
dump_modelparams_every_scored_indiv_feature_count¶
dump_modelparams_every_scored_indiv_feature_count (Number)
Default value 3
점수가 매겨진 모든 개체의 모델 덤프에 표시할 특징의 수
dump_modelparams_every_scored_indiv_mutation_count¶
dump_modelparams_every_scored_indiv_mutation_count (Number)
Default value 3
점수가 매겨진 모든 개체의 모델 덤프에 표시할 이전 뮤테이션의 수
dump_modelparams_separate_files¶
dump_modelparams_separate_files (Boolean)
Default value False
추가(false) 또는 다음과 같은 별도의 파일을 가질지 여부: 점수가 매겨진 모든 개체 모델 매개변수의 경우 individual_scored_id%d.iter%d*params* (true)
delete_preview_trans_timings¶
delete_preview_trans_timings (Boolean)
Default value True
트랜스포머 타이밍을 작성한 경우 미리보기 타이밍의 삭제 여부
use_random_text_file¶
use_random_text_file (Boolean)
Default value False
runtime_estimation_train_frame¶
runtime_estimation_train_frame (String)
Default value ''
enable_bad_scorer¶
enable_bad_scorer (Boolean)
Default value False
debug_col_dict_prefix¶
debug_col_dict_prefix (String)
Default value ''
return_early_debug_col_dict_prefix¶
return_early_debug_col_dict_prefix (Boolean)
Default value False
return_early_debug_preview¶
return_early_debug_preview (Boolean)
Default value False
autoviz_enable_recommendations¶
Autoviz Use Recommended Transformations (Boolean)
Default value True
활성화되면 실험은 Autoviz에서 권장하는 특징 변환을 사용하려고 시도합니다.
autoviz_recommended_transformation¶
Autoviz Recommended Transformations (Dict)
Default value {}
열 이름의 키-값 쌍 및 Autoviz가 권장하는 변환
last_recipe¶
last_recipe (String)
Default value ''
레시피 변경 시, 메모리를 허용하는 내부 도우미
make_mojo_scoring_pipeline_for_features_only¶
Create MOJO for feature engineering pipeline only (no predictions) (Boolean)
Default value False
특징 가공 파이프라인 전용 MOJO 생성(예측 없음)
mojo_replace_target_encoding_with_grouped_input_cols¶
Replaces target encoding features with concatenated input features. (Boolean)
Default value False
대상 인코딩 특징을 입력 열로 대체합니다. CVTE_Age:Income:Zip 대신 Age:Income:Zip이 생성됩니다. make_mojo_scoring_pipeline_for_features_only가 활성화된 경우에만.
time_series_causal_split_recipe¶
Whether causal recipe is used for non-lag-based recipe (Boolean)
Default value False
time_series_recipe가 false일 때 인과 분할이 사용되는지 여부 또는 지연 트랜스포머가 비활성화된 경우 동일한 train-gap-test 분할을 사용할지 여부(기본 동작). 지연 기반 레시피가 비활성화될 때 사용할 train-test 간격, 기간 등의 경우, 이것은 false여야 합니다.
use_lags_if_causal_recipe¶
Use lag transformers when using causal time-series recipe (Boolean)
Default value False
- 검증을 위해 인과 분할을 사용할 때 지연 트랜스포머의 사용 여부
(시간 기반 지연 레시피를 사용하지 않을 때 발생). 시간 그룹 열이 없는 경우 지연 트랜스포머는 시간 열을 유일한 시간 그룹 열로 계속 사용합니다.
min_ymd_timestamp¶
min_ymd_timestamp (Number)
Default value 19000101
구문 분석 중에 정수를 시간 열로 자동 변환할 수 있는 가장 먼저 허용되는 날짜시간(%Y%m%d 형식)입니다. 예를 들어, 2010 또는 201004 또는 20100402 또는 201004022312는 유효한 날짜/날짜시간으로 변환될 수 있지만 1000 또는 100004 또는 10000402 또는 10004022010 등은 변환될 수 없으며 201000 또는 20100500도 변환될 수 없습니다.
max_ymd_timestamp¶
max_ymd_timestamp (Number)
Default value 21000101
구문 분석 중에 정수를 시간 열로 자동 변환할 수 있는 가장 나중에 허용되는 날짜시간(%Y%m%d 형식)입니다. 예를 들어, 2010 또는 201004 또는 20100402는 유효한 날짜/날짜시간으로 변환될 수 있지만 3000 또는 300004 또는 30000402 또는 30004022313 등은 변환될 수 없으며 201000 또는 20100500도 변환될 수 없습니다.
max_rows_datetime_format_detection¶
max_rows_datetime_format_detection (Number)
Default value 100000
날짜/날짜시간 형식 감지를 위한 최대 데이터 샘플 수(무작위로 선택된 행)
disallowed_datetime_formats¶
List of disallowed datetime formats. (List)
Default value ['%y']
데이터 수집 및 실험 중에 특정 날짜시간 형식을 수동으로 비활성화합니다. 예를 들어, [〈%y〉]는 〈00〉, 〈01〉, 〈02〉 문자열 값이 포함된 열을 날짜 열로 구문 분석되지 않도록 방지합니다.
use_datetime_cache¶
use_datetime_cache (Boolean)
Default value True
날짜시간 캐시 사용 여부
datetime_cache_min_rows¶
datetime_cache_min_rows (Number)
Default value 10000
날짜시간 캐시를 활용하는 데 필요한 최소 행 수
holiday_country¶
holiday_country (String)
Default value ''
max_time_series_properties_sample_size¶
max_time_series_properties_sample_size (Number)
Default value 250000
최대 시간 열이 선택된 경우에만 Time Series 교육/유효한 분할 속성의 자동 결정을 위한 샘플 크기
max_lag_sizes¶
max_lag_sizes (Number)
Default value 30
지연 기반 시계열 실험에 사용할 최대 지연 크기 수입니다. sample_lag_sizes==True인 경우 샘플링되고, 그렇지 않으면 모두 취해집니다(-1 == 자동).
min_lag_autocorrelation¶
min_lag_autocorrelation (Float)
Default value 0.1
특징 가공을 위해 고려되는 지연에 대한 최소 필수 자기상관 임계값
max_signal_lag_sizes¶
max_signal_lag_sizes (Number)
Default value 100
단일 시간 그룹(단일 Time Series 신호)에 사용할 지연 크기의 샘플 수
single_model_vs_cv_score_reldiff¶
single_model_vs_cv_score_reldiff (Float)
Default value 0.05
single_model_vs_cv_score_reldiff2¶
single_model_vs_cv_score_reldiff2 (Float)
Default value 0.0
blend_in_link_space¶
Whether to blend ensembles in link space (applies to classification only) (Boolean)
Default value True
링크 공간에서 앙상블을 혼합할지 여부, 혼합 후 예측을 얻기 위해 역 링크 기능을 적용할 수 있습니다. 이를 통해 역 링크 기능을 적용한 후 Shapley 값을 합산하여 최종 예측을 얻을 수 있습니다. preds = inverse_link( (blend(링크 공간의 기본 학습기 예측 ))) = inverse_link(sum(blend(링크 공간의 기본 학습기 shapley 값))) = inverse_link(sum( 링크 공간의 앙상블 shapley 값 ))바이러리 분류의 경우 inverse_link = logistic = 1/(1+exp(-x))인 경우에만 지원됨. 다중 클래스 분류의 경우 inverse_link = softmax = exp(x)/sum(exp(x))인 경우에만 지원됨. 회귀의 경우 모든 기본 학습기가 ID 연결 기능을 사용하면 이 동작이 자연스럽게 발생하고 그렇지 않으면 불가능합니다.
tgc_via_ui_max_ncols¶
tgc_via_ui_max_ncols (Number)
Default value 10
TGC를 자동 감지하기 위해 UI에서 백엔드로 보내는 최대 열 수
tgc_dup_tolerance¶
tgc_dup_tolerance (Float)
Default value 0.01
TGC 감지를 위한 중복 타임스탬프의 최대 빈도