실험 설정¶
본 섹션에는 총 런타임, 재현성 레벨, 파이프라인 구축, 특성 브레인 제어, config.toml 설정 추가 등과 같은 실험의 사용자 지정에 이용할 수 있는 설정이 포함되어 있습니다.
max_runtime_minutes
¶
Max Runtime in Minutes Before Triggering the Finish Button
실험의 최대 런타임을 분 단위로 지정하십시오. 이것은 지정된 시간 값의 절반이 지나면 Finish 버튼을 누르는 것과 같습니다. 전체적으로 적용되는 런타임은 근사치입니다.
이 값의 기본값은 1440으로, 이는 대략 24시간 전체 런타임과 같습니다. Finish 버튼은 12시간이 지나면 자동으로 선택되고, Driverless AI는 남은 12시간 동안 전체 실험의 완료를 시도합니다. 해당 설정을 사용하지 않으려면, 이 값을 0으로 설정하십시오.
이 설정은 실험별로 적용되기 때문에 리더보드 모델(n)의 빌드 시에는 각 실험에 별도로 적용됩니다(즉, 허용되는 총 실행 시간은 n*24 시간입니다. 이러한 예상 시간은 각 실험을 한 번에 하나씩 순차적으로 실행한다고 가정한 것입니다).
max_runtime_minutes_until_abort
¶
Max Runtime in Minutes Before Triggering the Abort Button
중단 버튼을 트리거하기 전에 실험의 최대 런타임을 분 단위로 지정합니다. 해당 옵션은 추가 아티팩트를 지속해서 생성하면서 요약 및 로그 zip 파일을 위해 생성된 실험 아티팩트를 보존합니다. 기본값은 10,080분(7일)입니다.
이 설정은 실험별로 적용되기 때문에 리더보드 모델(n)의 빌드 시에는 각 실험에 별도로 적용됩니다(즉, 허용되는 총 실행 시간은 n*7일입니다. 이러한 예상 시간은 각 실험을 한 번에 하나씩 순차적으로 실행한다고 가정한 것입니다). 또한, time_abort 를 참조하십시오.
pipeline-building-recipe
¶
Pipeline Building Recipe
파이프라인 빌딩 레시피 유형을 지정하십시오(GUI 설정 무시). 다음 중에서 선택하십시오.
Auto: 모든 모델과 특성이 실험 설정, config.toml 설정 및 변수 가공 활동에 의해 자동으로 결정되도록 지정하십시오(기본값).
Compliant: 다음을 제외하고 Auto 와 유사합니다.
해석 가능성은 10으로 설정됩니다.
GLM 또는 부스터를 〈giblinear’로만 사용합니다.
Fixed ensemble level 은 0으로 설정됩니다.
Feature brain level 은 0으로 설정됩니다.
Max 특성 상호 작용 깊이는 1로 설정됩니다.
회귀 분석을 위해 대상 트랜스포머가 〈identity’로 설정됩니다.
distribution shift 감지를 사용하지 마십시오.
monotonicity_constraints_correlation_threshold 은 0으로 설정됩니다.
monotonic_gbm: 다음을 제외하고 Auto 와 유사합니다.
monotonicity constraints 활성화
LightGBM 모델만 사용합니다.
대상과 상관없는 특성을 최소 0.01만큼 삭제합니다. monotonicity-constraints-drop-low-correlation-features 및 monotonicity-constraints-correlation-threshold 를 참조하십시오.
앙상블 모델을 빌드하지 않습니다. 즉
fixed_ensemble_level=0
을 설정합니다.feature brain 은 모든 재시작이 같도록 보장하는 데 사용되지 않습니다.
Interaction depth 는 1로 설정됩니다. 즉, 복잡성을 피하기 위해 다중 기능 상호 작용을 수행하지 않습니다.
회귀 분석 문제에 적용되는 대상 변환이 없습니다. 즉 target_transformer 를 〈identity’로 설정합니다. 등가 config.toml 매개변수는
recipe=['monotonic_gbm']
입니다.num_as_cat 특성 변환이 비활성화되었습니다.
included_transformers 목록
〈OriginalTransformer〉, #numeric (클러스터링 없음, 상호 작용 없음, num->cat 없음)〈CatOriginalTransformer〉, 〈RawTransformer〉,〉CVTargetEncodeTransformer〉, 〈FrequentTransformer〉,〉WeightOfEvidenceTransformer〉,〉OneHotEncodingTransformer〉, #categorical(하지만 num-cat 없음)〈CatTransformer〉,〉StringConcatTransformer〉, # 빅 데이터만 해당〈DateOriginalTransformer〉, 〈DateTimeOriginalTransformer〉, 〈DatesTransformer〉, 〈DateTimeDiffTransformer〉, 〈IsHolidayTransformer〉, 〈LagsTransformer〉, 〈EwmaLagsTransformer〉, 〈LagsInteractionTransformer〉, 〈LagsAggregatesTransformer〉,#날짜/시간〈TextOriginalTransformer〉, 〈TextTransformer〉, 〈StrFeatureTransformer〉, 〈TextCNNTransformer〉, 〈TextBiGRUTransformer〉, 〈TextCharCNNTransformer〉, 〈BERTTransformer〉,#문자〈ImageOriginalTransformer〉, 〈ImageVectorizerTransformer〉] #이미지
Monotonicity Constraints in Driverless AI 도 참조하십시오.
Kaggle: 다음을 제외하고 Auto 와 유사합니다.
모든 외부 검증 세트는 대상이 누락된 것으로 표시된 학습 세트와 연결됩니다.
해당 테스트 세트는 학습 세트와 연결되며 대상은 누락된 것으로 나타납니다.
대상을 사용하지 않는 트랜스포머는 학습, 검증 및 테스트 세트 전체에 걸쳐서
fit_transform
을 허용합니다.몇 가지의 config.toml 상세 옵션 개방 제한을 가지고 있습니다.
nlp_model: Pytorch를 기반으로 하는 NLP BERT 모델만 순수 문자의 처리가 가능합니다.
included_models = bert_models [〈TextBERTModel〉, 〈TextXLNETModel〉, 〈TextXLMModel〉,〉TextRoBERTaModel〉, 〈TextDistilBERTModel〉, 〈TextALBERTModel〉, 〈TextCamemBERTModel〉, 〈TextXLMRobertaModel〉]
enable_pytorch_nlp = 〈on〉
더 자세한 내용은 Driverless AI에서의 NLP 를 참조하십시오.
nlp_transformer: 순수 문자를 처리하는 Pytorch 기반 BERT 트랜스포머만 활성화합니다.
included_transformers = [〈BERTTransformer〉]
excluded_models = bert_models
enable_pytorch_nlp = 〈on〉
더 자세한 내용은 Driverless AI에서의 NLP 를 참조하십시오.
image_model: 순수 이미지를 처리하는 이미지 모델 (ImageAutoModel)만 활성화합니다. 자세한 내용은 자동 이미지 모델 을 참조하십시오.
Notes:
이 옵션은 유전 알고리즘(GA)을 비활성화합니다.
이미지 인사이트는 이 옵션을 선택한 경우에만 사용이 가능합니다.
image_transformer: 순수 이미지를 처리하는 ImageVectorizer transformer만 활성화합니다. 자세한 내용은 임베딩 Transformer(이미지 Vectorizer) 를 참조하십시오.
enable_genetic_algorithm
¶
Enable Genetic Algorithm for Selection and Tuning of Features and Models
특성 및 모델의 선택 및 하이퍼파라미터 튜닝에 유전 알고리즘을 사용할지 여부를 지정하십시오.
auto: 기본값은 〈auto’입니다. 순수한 NLP 또는 이미지 실험이 아니면 〈on’과 같습니다.
on: Driverless AI 유전 알고리즘은 변수 가공, 모델 튜닝 및 선택에 사용됩니다.
Optuna: 〈Optuna〉 선택 시, 모델 하이퍼파라미터가 Optuna 로 튜닝되고, 변수 가공에 Driverless AI 유전 알고리즘이 사용됩니다. Optuna의 경우 반복 패널에 표시된 점수는 최고 점수 및 트라이얼 점수입니다. Optuna 모드는 현재 XGBoost, LightGBM 및 CatBoost (사용자 정의 레시피)에만 Optuna를 사용합니다. Pruner 활성 시, 기본적으로 Optuna 모드는 평가 메트릭(eval_metric)의 변형을 비활성화하기 때문에 가지치기는 비교를 위해 트라이얼에 걸쳐서 동일한 메트릭을 사용합니다.
off: 〈off’ 로 설정 시, 기본 변수 가공 및 특성 선택을 사용하여 최종 파이프라인이 학습됩니다.
등가 config.toml 매개변수는``enable_genetic_algorithm`` 입니다.
tournament_style
¶
Tournament Model for Genetic Algorithm
각 반복에서 가장 적합한 모델의 결정 방법을 선택하십시오. 기본적으로 Auto 로 설정됩니다. 다음 중에서 선택하십시오.
auto: accuracy 및 해석 가능성을 기준으로 선택
uniform**: 모집단 내의 모든 개체가 최고가 되기 위해 경쟁합니다(최종 앙상블에서 모두 (예)LightGBM 모델이 될 수 있으며, 다양성 부족으로 인해 앙상블 성능이 향상되지 않을 수도 있습니다).
fullstack: 최적 모델 및 특성 유형에서 선택
feature: 비슷한 특성 유형을 가진 개체들이 경쟁합니다(대상 인코딩, 주파수 인코딩 및 기타 특성 세트가 훌륭한 결과로 이어지는 경우가 좋음)
model**: 동일한 모델 유형을 가진 개체들이 경쟁합니다(여러 모델이 잘 되는 경우가 좋지만 잘 되지 않는 일부 모델도 여전히 앙상블 향상에 기여합니다).
각각의 경우에 대해 round robin approach를 사용하여 선택할 모델 유형 중에서 최고 점수를 선택하십시오.
enable_genetic_algorithm==〉Optuna’인 경우, 모든 개체는 유전 알고리즘 도중에 토너먼트 없이 자체 돌연변이화가 됩니다. 토너먼트는 예를 들어 튜닝 -> 진화 및 진화-> 최종 모델을 위해 개체의 가지치기에만 사용됩니다.
make_python_scoring_pipeline
¶
Make Python Scoring Pipeline
실험을 위해 Python Scoring Pipeline의 자동 빌드 여부를 지정하십시오. On 또는 Auto (기본값)을 선택하면 실험이 완료될 때 Python Scoring Pipeline을 바로 다운로드할 수 있습니다. Python Scoring Pipeline의 자동 생성을 비활성화하려면 Off 를 선택하십시오.
make_mojo_scoring_pipeline
¶
Make MOJO Scoring Pipeline
실험을 위해 MOJO(Java) 스코어링 파이프라인의 자동 빌드 여부를 지정하십시오. On 를 선택하면 실험 종료 시, MOJO Scoring Pipeline을 바로 다운로드할 수 있습니다. 해당 옵션을 사용하면 파이프라인 생성을 저해하는 모든 기능이 삭제됩니다. Off 를 선택하여 MOJO Scoring Pipeline의 자동 생성을 비활성화하십시오. Auto (기본값)을 선택하여 기능 삭제 없이 MOJO Scoring Pipeline을 생성합니다.
reduce_mojo_size
¶
Attempt to Reduce the Size of the MOJO (Small MOJO)
실험 빌드 시, 소규모 MOJO Scoring Pipeline의 생성 여부를 지정하십시오. MOJO가 작을수록 스코어링할 동안 메모리 사용량이 줄어듭니다. 해당 설정은 실험의 최대 interaction depth 를 3 으로 제한하고, ensemble level 을 0 으로 설정하여 즉, 최종 파이프라인에 대한 앙상블 모델이 없고 모델의 maximum number of features 를 200 로 제한하여 mojo 크기를 줄이고자 합니다. 일부 경우 이러한 설정은 변수 가공 및 모델 구축 공간의 복잡성을 제한하기 때문에 전체 모델의 예측 accuracy에 영향을 미칠 수도 있음에 유념하십시오.
기본적으로 비활성화되어 있습니다. 등가 config.toml 설정은 reduce_mojo_size
입니다.
benchmark_mojo_latency
¶
Measure MOJO Scoring Latency
MOJO 생성 시 MOJO 스코어링 대기 시간의 측정 여부를 지정하십시오. 기본적으로 Auto* 로 설정됩니다. 이 경우, pipeline.mojo 파일 크기가 100MB 미만이면 MOJO 스코어링 대기 시간이 측정됩니다.
mojo_building_timeout
¶
Timeout in Seconds to Wait for MOJO Creation at End of Experiment
실험 종료 시, MOJO 생성 대기 시간(초)을 지정하십시오. MOJO 생성 프로세스의 시간이 초과된 경우에도 GUI 또는 R 및 Python client에서 MOJO를 만들 수 있습니다(시간 제한이 적용되지 않음). 기본값은 1,800초(30분)입니다.
mojo_building_parallelism
¶
Number of Parallel Workers to Use During MOJO Creation
MOJO 작성 중에 사용할 병렬 워커 수를 지정하십시오. 값이 높을수록 MOJO의 생성 속도는 빨라지지만 더 많은 메모리가 사용됩니다. 모든 물리 코어를 사용하기 위해서는 이 값을 -1(기본값)로 설정하십시오.
make_pipeline_visualization
¶
Make Pipeline Visualization
실험 종료 시, 스코어링 파이프라인의 시각화 생성 여부를 지정하십시오. 기본적으로 Auto 로 설정됩니다. Visualize Scoring Pipeline 특성은 실험적이고 지원 중단된 모델에는 사용이 불가합니다. 새로 생성된 모든 실험에 시각화를 사용할 수 있습니다.
make_autoreport
¶
Make AutoDoc
실험이 완료된 후, 실험 AutoDoc의 생성 여부를 지정하십시오. 기본적으로 활성화되어 있습니다.
min_num_rows
¶
Min Number of Rows Needed to Run an Experiment
실험의 실행을 위해 데이터 세트에 포함할 최소 행 수를 지정하십시오. 기본값은 100입니다.
kaggle_username
¶
Kaggle Username
필요 시, Kaggle 사용자 이름을 지정하여 테스트 세트 예측의 자동 제출 및 스코어링 활성화를 지정하십시오. 해당 옵션이 지정되면 Kaggle Key 옵션값도 지정해야 합니다. Kaggle 계정이 없는 경우 https://www.kaggle.com에서 가입하십시오.
kaggle_key
¶
Kaggle Key
Kaggle API 키를 지정하여 테스트 세트 예측의 자동 제출 및 스코어링을 활성화하십시오. 이 옵션이 지정되면 Kaggle Username 옵션값도 지정해야 합니다. Kaggle API 자격 증명 획득 방법에 대한 자세한 내용은 https://github.com/Kaggle/kaggle-api#api-credentials를 참조하십시오.
kaggle_timeout
¶
Kaggle Submission Timeout in Seconds
Kaggle 제출 제한 시간(초)을 지정하십시오. 기본값은 120초입니다.
reproducibility_level
¶
Reproducibility Level
다음의 재현성 레벨 중 하나를 지정하십시오. 해당 설정은 실험에서 재현 옵션이 활성화된 경우에만 사용됩니다.
1 = 동일한 O/S, 동일한 CPU 및 동일한 GPU에 대한 동일한 실험 결과(기본값)
2 = 동일한 O/S, 동일한 CPU 아키텍처 및 동일한 GPU 아키텍처에 대한 동일한 실험 결과
3 = 동일한 O/S, 동일한 CPU 아키텍처에 대한 동일한 실험 결과 (GPU 제외)
4 = 동일한 O/S에 대해 동일한 실험 결과(최고 근사치)
기본값은 1입니다.
seed
¶
Random Seed
실험을 위한 랜덤 시드를 지정하십시오. 시드가 정의되고 재현 가능 버튼이 활성화되면(기본 설정 아님) 알고리즘이 결정론적으로 작동합니다.
allow_different_classes_across_fold_splits
¶
Allow Different Sets of Classes Across All Train/Validation Fold Splits
( Note: 멀티 클래스 문제에만 적용이 가능합니다.) 단일 홀드 아웃 분할이 아닌 특성 진화 중에 전체 교차 검증(다중 폴드)을 활성화할지의 여부를 지정하십시오. 기본적으로 활성화되어 있습니다.
max_num_classes
¶
Max Number of Classes for Classification Problems
분류 문제를 허용할 최대 클래스 수를 지정하십시오. 클래스 수가 많을수록 특정 프로세스에 더 많은 시간이 소요될 수 있습니다. 메모리 요건은 클래스의 수가 증가할수록 커집니다. 기본값은 200입니다.
max_num_classes_compute_roc
¶
Max Number of Classes to Compute ROC and Confusion Matrix for Classification Problems
ROC 및 CM의 계산 시 사용할 최대 클래스 수를 지정하십시오. 이 값을 초과하면, roc_reduce_type
에 의해 지정된 축소 유형이 적용됩니다. 기본값은 200이며 2보다 작으면 안됩니다.
max_num_classes_client_and_gui
¶
Max Number of Classes to Show in GUI for Confusion Matrix
CM용 GUI에 표시할 최대 클래스 수를 지정하여 첫 번째 max_num_classes_client_and_gui
레이블을 표시하십시오. 기본값은 10이지만 6을 초과하면 진단이 시각적으로 절단됩니다. 이 값이 config.toml에서 변경되고 서버가 재시작되면 해당 설정은 클라이언트 -GUI 실행 진단만 수정하게 됩니다. 실험 플롯을 제거하려면 상세 설정 패널에서 이 값을 변경하면 됩니다.
roc_reduce_type
¶
ROC/CM Reduction Technique for Large Class Counts
많은 클래스 수에 사용되는 ROC 혼동 행렬 축소 기술을 지정하십시오.
Rows (Default): 무작위로 행을 샘플링하여 축소
Classes: 클래스를
max_num_classes_compute_roc
에 지정된 값 이하로 절단해서 축소시킵니다.
feature_brain1
¶
Model/Feature Brain Level
새로운 실험을 위한 유용한 특성 및 모델을 생성하기 위해 이전 실험의 로컬 caching 및 스마트 re-use(체크 포인트)를 가능케 하는 H2O.ai brain의 사용 여부를 지정하십시오. 일시 중지되거나 중단된 실험의 체크 포인트의 제어에도 사용이 가능합니다.
활성 시, 캐시 파일이 아래와 같은 경우 H2O.ai 브레인 캐시를 사용합니다.
비슷한 실험 유형과 매치하는 열 이름 및 유형을 가지고 있음
정확히 매치하는 클래스를 가지고 있음
정확히 매치하는 클래스 레이블을 가지고 있음
매치하는 기본 time series 선택 항목을 가지고 있음
캐시의 해석 가능성이 같거나 낮음
새 실험에 의해 주 모델(부스터)이 허용됨
-1: 브레인 캐시를 사용하지 않음(기본값).
0: 브레인 캐시를 사용하지 않지만 여전히 캐시에 기록. 유스케이스: 차후에 사용할 수 있도록 모델을 저장하고 싶지만 현재 모델이 브레인 모델 없이 구축되도록 하고 싶을 때
1: 최신 최고의 개별 모델의 스마트 체크 포인트. 유스케이스: 최신 매칭 모델을 사용하고자 할 때. 매치가 정확하지 않을 수 있기 때문에 주의해서 사용해야 합니다.
2: 실험이 모든 열 이름, 열 유형, 클래스, 클래스 레이블 및 time series 옵션과 동일하게 매치하는 경우의 스마트 체크 포인트. 유스케이스: Driverless AI가 H2O.ai 브레인 캐시를 통해 재시작할 최적의 모델을 검색합니다.
3: 레벨 #1과 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 불충분한 경우에만 조정합니다. 이것은 단일 반복에서 전체 모집단을 다시 스코어링하기 때문에 첫 반복의 완료에 더 긴 시간이 걸리는 것으로 보입니다.
4: 레벨 #2와 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 불충분한 경우에만 조정합니다. 이것은 단일 반복에서 전체 모집단을 다시 스코어링하기 때문에 첫 반복의 완료에 더 긴 시간이 걸리는 것으로 보입니다.
5: 스마트 체크 포인트는 레벨 #4와 비슷하지만 전체 브레인 캐시의 스캔을 통해 최고 점수를 얻은 개체를 확보합니다. 캐시가 큰 경우 브레인 캐시 스캔 때문에 속도가 느려질 수도 있습니다.
활성 시, H2O.ai Brain 메타 모델 파일이 저장되는 디렉터리는 H2O.ai_brain입니다. 또한 기본 최대 브레인 크기는 20GB입니다. config.toml 파일에서 디렉터리 및 최대 크기 모두 변경이 가능합니다. 기본값은 2입니다.
feature_brain2
¶
Feature Brain Save Every Which Iteration
which_iteration_brain >== 0으로 다시 시작/refit 할 수 있도록 iter_num % feature_brain_iterations_save_every_iteration == 0마다 특성 브레인 반복을 저장하십시오. 기본적으로 비활성화(0) 됩니다.
-1: 브레인 캐시를 사용하지 마십시오.
0: 브레인 캐시를 사용하지는 말고 캐시에 쓰십시오.
1: 이전 experiment_id가 패스된 경우의 스마트 체크 포인트(예: GUI에서 《resume one like this》 실행을 통해)
2: 실험이 모든 열 이름, 열 유형, 클래스, 클래스 레이블 및 time series 옵션과 동일하게 일치할 때의 스마트 체크 포인트.(기본값)
3: 레벨 #1과 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 충분하지 않은 경우에만 조정합니다.
4: 레벨 #2와 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 충분하지 않은 경우에만 조정합니다.
5: 스마트 체크 포인트는 레벨 #4와 유사하지만 가장 높은 점수를 받은 개체의 획득을 위해 모집단의 전체 브레인 캐시(선택 시, 재개된 실험에서 시작)를 스캔합니다.
활성 시, H2O.ai Brain 메타 모델 파일이 저장되는 디렉터리는 H2O.ai_brain입니다. 또한 기본 최대 브레인 크기는 20GB입니다. config.toml 파일에서 디렉터리 및 최대 크기 모두 변경이 가능합니다.
feature_brain3
¶
Feature Brain Restart from Which Iteration
재개된 ID를 통해 feature_brain_level 유형의 재시작 또는 re-fit의 수행 시, 최후의 최선 대신 시작할 반복을 지정합니다. 이용 가능한 옵션은 아래와 같습니다.
-1: 최후의 최선을 사용하십시오.
1: feature_brain_iterations_save_every_iteration=1 또는 기타 숫자로 하나의 실험을 실행하십시오.
2: 재시작 /refit하려는 반복 브레인 덤프를 확인하십시오.
3: 상세 설정에서 which_iteration_brain을 해당 숫자로 설정하여 원래 실험에서 재시작/Refit 합니다.
Note: 튜닝 반복으로부터 재시작하면, 스코어링된 전체 튜닝 모집단을 가져와 기능 발전에 사용하십시오. 기본값은 -1입니다.
feature_brain4
¶
Feature Brain Refit Uses Same Best Individual
refit 수행 시, 동일한 최상의 개체 사용 여부를 지정하십시오. 해당 설정을 비활성화하면 최상의 개체 순서의 재정렬을 통해 향상된 최종 결과를 얻을 수 있습니다. 이 설정을 사용하면 새로운 특성이 하나만 추가된 상태에서 정확히 같은 모델 또는 특성을 확인할 수 있습니다. 기본적으로 비활성화되어 있습니다.
feature_brain5
¶
Feature Brain Adds Features with New Columns Even During Retraining of Final Model
최종 모델의 재학습 수행 시, 새로운 열의 추가 특성을 파이프라인에 추가할지 여부를 지정하십시오. 새로운 데이터 세트의 새로운 열에 관계없이 같은 파이프라인을 유지하려면 해당 옵션을 사용하십시오. 새로운 데이터는 이동 또는 유출 감지로 인해 새로운 특성이 떨어질 수도 있습니다. 데이터 변경 시, 파이프라인이 완벽하게 보존될 수 있도록 열을 새로운 특성으로 추가하지 않으려면 해당 옵션을 비활성화합니다. 기본적으로 활성화되어 있습니다.
force_model_restart_to_defaults
¶
Restart-Refit Use Default Model Settings If Model Switches
재시작 또는 refitting 시, 기존의 모델 클래스를 더 이상 사용할 수 없는 경우 모델 클래스의 기본 설정을 사용할지 여부를 지정하십시오. 비활성화 시, 기존의 하이퍼파라미터가 대신 사용됩니다(이로써 오류가 발생할 수도 있습니다). 기본적으로 활성화되어 있습니다.
min_dai_iterations
¶
Min DAI Iterations
실험을 위한 최소 Driverless AI의 반복 횟수를 지정하십시오. 해당 기능은 점수가 향상되지 않더라도 더 긴 시간 지속하고자 할 때 재시작 시 사용이 가능합니다. 기본값은 0입니다.
target_transformer
¶
Select Target Transformation of the Target for Regression Problems
회귀 분석 문제에 대한 대상 변환의 자동 선택 여부를 지정하십시오. 이용 가능한 옵션은 다음과 같습니다.
auto
identity
identity_noclip
center
standardize
unit_box
log
log_noclip
square
sqrt
double_sqrt
inverse
logit
sigmoid
auto (기본값)로 설정 시, Accuracy 가 ``tune_target_transform_accuracy_switch``구성 옵션(기본값 5) 이상의 값으로 설정된 경우 Driverless AI가 자동으로 최적의 대상 트랜스포머를 선택합니다. Identity_noclip 을 선택하면 모든 대상 변환이 자동으로 해제됩니다. center, standardize, identity_noclip 및 log_noclip 을 제외한 모든 트랜스포머는 클리핑 수행을 통해 예측을 학습 데이터의 대상의 도메인으로 제한하기 때문에 외삽을 활성화하려는 경우에는 피하십시오.
등가 config.toml 설정은 target_transformer
입니다.
fixed_num_folds_evolution
¶
Number of Cross-Validation Folds for Feature Evolution
특성 진화를 위해 고정된 교차 검증 폴드 수(2 이상인 경우)를 지정하십시오. 허용된 폴드의 실제 수는 지정된 값보다 적을 수 있으며 허용되는 폴드 수는 실험이 실행 시 결정됩니다. 기본값은 -1 (자동)입니다.
fixed_num_folds
¶
Number of Cross-Validation Folds for Final Model
최종 모델을 위해 고정된 교차 검증 폴드 수(2 이상인 경우)를 지정하십시오. 허용된 폴드의 실제 수는 지정된 값보다 적을 수 있으며 허용되는 폴드 수는 실험이 실행 시 결정됩니다. 기본값은 -1 (자동)입니다.
fixed_only_first_fold_model
¶
Force Only First Fold for Models
모델에 첫 번째 폴드만 적용할 것인지의 여부를 지정하십시오. Auto (기본값), On 또는 Off 중에서 선택하십시오. 《on》설정 시, 모델의 첫 번째 폴드만 적용됩니다. 데이터에 관계없이 빠른 실행에 유용합니다
feature_evolution_data_size
¶
Max Number of Rows Times Number of Columns for Feature Evolution Data Splits
특성 진화 데이터 분할에 허용되는 최대 행 수를 지정하십시오(최종 파이프라인이 아님). 기본값은 100,000,000입니다.
final_pipeline_data_size
¶
Max Number of Rows Times Number of Columns for Reducing Training Dataset
최종 파이프라인 학습을 위해 행 수에 열 수를 곱한 상한치를 지정하십시오. 기본값은 500,000,000입니다.
max_validation_to_training_size_ratio_for_final_ensemble
¶
Maximum Size of Validation Data Relative to Training Data
학습 데이터를 기준으로 검증 데이터의 최대 크기를 지정하십시오. 작은 값일수록 최종 파이프라인 모델 학습 프로세스가 더 빨라집니다. 최종 모델 예측과 점수는 항상 제공된 전체 데이터 세트에 제공됩니다. 기본값은 2.0입니다.
force_stratified_splits_for_imbalanced_threshold_binary
¶
Perform Stratified Sampling for Binary Classification If the Target Is More Imbalanced Than This
이진 분류 실험 시, 계층화된 샘플링이 수행되는 대상 열에 대해 소수 클래스 대다수 클래스의 임계값 비율을 지정하십시오. 임계값을 초과하지 않으면 무작위 샘플링이 수행됩니다. 기본값은 0.01입니다. 해당 값을 0으로 설정하여 항상 무작위 샘플링을 수행하거나 또는 이 값을 1로 설정하여 항상 계층화된 샘플링을 수행하도록 선택할 수도 있습니다.
mli_custom
¶
Add to config.toml via toml String
실험에 포함될 config.toml 파일에서 추가 구성 오버라이드를 지정하십시오(실험 중에 오버라이드할 수 있는 옵션을 확인하려면 샘플 config.toml 파일 섹션을 참조하십시오.). 해당 항목을 설정하면 다른 모든 설정이 오버라이드됩니다. 다양한 구성 오버라이드를 \
로 분리하십시오. 예를 들어, 다음은 LightGBM에 대한 포아송 분포를 활성화하고 대상 트랜스포머 튜닝을 비활성화합니다. 해당 예제에서 큰따옴표는 escaped(\" \"
) 처리됩니다.
params_lightgbm=\"{'objective':'poisson'}\" \n target_transformer=identity
또는 큰따옴표를 escaped 하지 않고도 다음과 비슷한 구성 오버라이드 지정이 가능합니다.
""enable_glm="off" \n enable_xgboost_gbm="off" \n enable_lightgbm="off" \n enable_tensorflow="on"""
""max_cores=10 \n data_precision="float32" \n max_rows_feature_evolution=50000000000 \n ensemble_accuracy_switch=11 \n feature_engineering_effort=1 \n target_transformer="identity" \n tournament_feature_style_accuracy_switch=5 \n params_tensorflow="{'layers': [100, 100, 100, 100, 100, 100]}"""
Python client 실행 시, 구성 오버라이드는 다음과 같이 설정됩니다.
model = h2o.start_experiment_sync(
dataset_key=train.key,
target_col='target',
is_classification=True,
accuracy=7,
time=5,
interpretability=1,
config_overrides="""
feature_brain_level=0
enable_lightgbm="off"
enable_xgboost_gbm="off"
enable_ftrl="off"
"""
)
last_recipe
¶
last_recipe
레시피 변경 시, 메모리를 허용하는 내부 도우미
time_abort
¶
Time to trigger the 〈Abort〉 button
이때까지 실험이 완료되지 않으면 abort 버튼을 누르십시오. 이것은 리더보드에도 적용됩니다. 즉, 모든 리더보드 실험이 완료되지 않았을 때는 실제 시간이 지나면 전체 리더보드가 중단됩니다. 또한, 실험 abort 시간을 통제하려면 max_runtime_minutes_until_abort 를 참조하십시오.
이것은 time_abort_format(defaults to %Y-%m-%d %H:%M:%S)에 의해 주어진 형식으로 시간을 받아들입니다. 이것은 config.toml(기본값 UTC)의 time_abort_timezone에 의해 설정된 시간대를 가정합니다. 사용자는 1970-01-01 00:00:00 UTC 이후 정수 초를 지정할 수도 있습니다.
이것은 실험을 실행하는 DAI 워커의 시간에 적용됩니다. max_runtime_minutes_until_abort 와 비슷하게, 시간 abort는 요약 및 로그 zip 파일을 위해 지금까지 만든 실험 아티팩트를 보존합니다. 사용자가 이 실험을 복제하여 rerun/refit/restart 하는 경우, 이 절대 시간이 해당 실험 또는 리더보드 실험 세트에 적용됩니다.