실험 설정¶

본 섹션에는 총 런타임, 재현성 레벨, 파이프라인 구축, 특성 브레인 제어, config.toml 설정 추가 등과 같은 실험의 사용자 지정에 이용할 수 있는 설정이 포함되어 있습니다.

`max_runtime_minutes`¶

`max_runtime_minutes_until_abort`¶

`pipeline-building-recipe`¶

Pipeline Building Recipe

파이프라인 빌딩 레시피 유형을 지정하십시오(GUI 설정 무시). 다음 중에서 선택하십시오.

Auto: 모든 모델과 특성이 실험 설정, config.toml 설정 및 변수 가공 활동에 의해 자동으로 결정되도록 지정하십시오(기본값).
Compliant: 다음을 제외하고 Auto 와 유사합니다.
- 해석 가능성은 10으로 설정됩니다.
- GLM 또는 부스터를 〈giblinear’로만 사용합니다.
- Fixed ensemble level 은 0으로 설정됩니다.
- Feature brain level 은 0으로 설정됩니다.
- Max 특성 상호 작용 깊이는 1로 설정됩니다.
- 회귀 분석을 위해 대상 트랜스포머가 〈identity’로 설정됩니다.
- distribution shift 감지를 사용하지 마십시오.
- monotonicity_constraints_correlation_threshold 은 0으로 설정됩니다.
monotonic_gbm: 다음을 제외하고 Auto 와 유사합니다.
- monotonicity constraints 활성화
- LightGBM 모델만 사용합니다.
- 대상과 상관없는 특성을 최소 0.01만큼 삭제합니다. monotonicity-constraints-drop-low-correlation-features 및 monotonicity-constraints-correlation-threshold 를 참조하십시오.
- 앙상블 모델을 빌드하지 않습니다. 즉 fixed_ensemble_level=0 을 설정합니다.
- feature brain 은 모든 재시작이 같도록 보장하는 데 사용되지 않습니다.
- Interaction depth 는 1로 설정됩니다. 즉, 복잡성을 피하기 위해 다중 기능 상호 작용을 수행하지 않습니다.
- 회귀 분석 문제에 적용되는 대상 변환이 없습니다. 즉 target_transformer 를 〈identity’로 설정합니다. 등가 config.toml 매개변수는 recipe=['monotonic_gbm'] 입니다.
- num_as_cat 특성 변환이 비활성화되었습니다.
- included_transformers 목록
〈OriginalTransformer〉, #numeric (클러스터링 없음, 상호 작용 없음, num->cat 없음)

〈CatOriginalTransformer〉, 〈RawTransformer〉,〉CVTargetEncodeTransformer〉, 〈FrequentTransformer〉,〉WeightOfEvidenceTransformer〉,〉OneHotEncodingTransformer〉, #categorical(하지만 num-cat 없음)

〈CatTransformer〉,〉StringConcatTransformer〉, # 빅 데이터만 해당

〈DateOriginalTransformer〉, 〈DateTimeOriginalTransformer〉, 〈DatesTransformer〉, 〈DateTimeDiffTransformer〉, 〈IsHolidayTransformer〉, 〈LagsTransformer〉, 〈EwmaLagsTransformer〉, 〈LagsInteractionTransformer〉, 〈LagsAggregatesTransformer〉,#날짜/시간

〈TextOriginalTransformer〉, 〈TextTransformer〉, 〈StrFeatureTransformer〉, 〈TextCNNTransformer〉, 〈TextBiGRUTransformer〉, 〈TextCharCNNTransformer〉, 〈BERTTransformer〉,#문자

〈ImageOriginalTransformer〉, 〈ImageVectorizerTransformer〉] #이미지

Monotonicity Constraints in Driverless AI 도 참조하십시오.

Kaggle: 다음을 제외하고 Auto 와 유사합니다.
- 모든 외부 검증 세트는 대상이 누락된 것으로 표시된 학습 세트와 연결됩니다.
- 해당 테스트 세트는 학습 세트와 연결되며 대상은 누락된 것으로 나타납니다.
- 대상을 사용하지 않는 트랜스포머는 학습, 검증 및 테스트 세트 전체에 걸쳐서 fit_transform 을 허용합니다.
- 몇 가지의 config.toml 상세 옵션 개방 제한을 가지고 있습니다.
nlp_model: Pytorch를 기반으로 하는 NLP BERT 모델만 순수 문자의 처리가 가능합니다.
- included_models = bert_models [〈TextBERTModel〉, 〈TextXLNETModel〉, 〈TextXLMModel〉,〉TextRoBERTaModel〉, 〈TextDistilBERTModel〉, 〈TextALBERTModel〉, 〈TextCamemBERTModel〉, 〈TextXLMRobertaModel〉]
- enable_pytorch_nlp = 〈on〉

더 자세한 내용은 Driverless AI에서의 NLP 를 참조하십시오.

nlp_transformer: 순수 문자를 처리하는 Pytorch 기반 BERT 트랜스포머만 활성화합니다.
- included_transformers = [〈BERTTransformer〉]
- excluded_models = bert_models
- enable_pytorch_nlp = 〈on〉

더 자세한 내용은 Driverless AI에서의 NLP 를 참조하십시오.

image_model: 순수 이미지를 처리하는 이미지 모델 (ImageAutoModel)만 활성화합니다. 자세한 내용은 자동 이미지 모델 을 참조하십시오.
Notes:
- 이 옵션은 유전 알고리즘(GA)을 비활성화합니다.
- 이미지 인사이트는 이 옵션을 선택한 경우에만 사용이 가능합니다.
image_transformer: 순수 이미지를 처리하는 ImageVectorizer transformer만 활성화합니다. 자세한 내용은 임베딩 Transformer(이미지 Vectorizer) 를 참조하십시오.

`enable_genetic_algorithm`¶

`tournament_style`¶

`make_python_scoring_pipeline`¶

`make_mojo_scoring_pipeline`¶

`reduce_mojo_size`¶

`benchmark_mojo_latency`¶

`mojo_building_timeout`¶

`mojo_building_parallelism`¶

`make_pipeline_visualization`¶

`make_autoreport`¶

`min_num_rows`¶

`kaggle_username`¶

`kaggle_key`¶

`kaggle_timeout`¶

`reproducibility_level`¶

`seed`¶

`allow_different_classes_across_fold_splits`¶

`max_num_classes`¶

`max_num_classes_compute_roc`¶

`max_num_classes_client_and_gui`¶

`roc_reduce_type`¶

`feature_brain1`¶

Model/Feature Brain Level

새로운 실험을 위한 유용한 특성 및 모델을 생성하기 위해 이전 실험의 로컬 caching 및 스마트 re-use(체크 포인트)를 가능케 하는 H2O.ai brain의 사용 여부를 지정하십시오. 일시 중지되거나 중단된 실험의 체크 포인트의 제어에도 사용이 가능합니다.

활성 시, 캐시 파일이 아래와 같은 경우 H2O.ai 브레인 캐시를 사용합니다.

비슷한 실험 유형과 매치하는 열 이름 및 유형을 가지고 있음

정확히 매치하는 클래스를 가지고 있음

정확히 매치하는 클래스 레이블을 가지고 있음

매치하는 기본 time series 선택 항목을 가지고 있음

캐시의 해석 가능성이 같거나 낮음

새 실험에 의해 주 모델(부스터)이 허용됨

-1: 브레인 캐시를 사용하지 않음(기본값).
0: 브레인 캐시를 사용하지 않지만 여전히 캐시에 기록. 유스케이스: 차후에 사용할 수 있도록 모델을 저장하고 싶지만 현재 모델이 브레인 모델 없이 구축되도록 하고 싶을 때
1: 최신 최고의 개별 모델의 스마트 체크 포인트. 유스케이스: 최신 매칭 모델을 사용하고자 할 때. 매치가 정확하지 않을 수 있기 때문에 주의해서 사용해야 합니다.
2: 실험이 모든 열 이름, 열 유형, 클래스, 클래스 레이블 및 time series 옵션과 동일하게 매치하는 경우의 스마트 체크 포인트. 유스케이스: Driverless AI가 H2O.ai 브레인 캐시를 통해 재시작할 최적의 모델을 검색합니다.
3: 레벨 #1과 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 불충분한 경우에만 조정합니다. 이것은 단일 반복에서 전체 모집단을 다시 스코어링하기 때문에 첫 반복의 완료에 더 긴 시간이 걸리는 것으로 보입니다.
4: 레벨 #2와 같지만 전체 모집단을 위한 스마트 체크 포인트. 브레인 모집단의 크기가 불충분한 경우에만 조정합니다. 이것은 단일 반복에서 전체 모집단을 다시 스코어링하기 때문에 첫 반복의 완료에 더 긴 시간이 걸리는 것으로 보입니다.
5: 스마트 체크 포인트는 레벨 #4와 비슷하지만 전체 브레인 캐시의 스캔을 통해 최고 점수를 얻은 개체를 확보합니다. 캐시가 큰 경우 브레인 캐시 스캔 때문에 속도가 느려질 수도 있습니다.

활성 시, H2O.ai Brain 메타 모델 파일이 저장되는 디렉터리는 H2O.ai_brain입니다. 또한 기본 최대 브레인 크기는 20GB입니다. config.toml 파일에서 디렉터리 및 최대 크기 모두 변경이 가능합니다. 기본값은 2입니다.

실험 설정¶

max_runtime_minutes¶

max_runtime_minutes_until_abort¶

pipeline-building-recipe¶

enable_genetic_algorithm¶

tournament_style¶

make_python_scoring_pipeline¶

make_mojo_scoring_pipeline¶

reduce_mojo_size¶

benchmark_mojo_latency¶

mojo_building_timeout¶

mojo_building_parallelism¶

make_pipeline_visualization¶

make_autoreport¶

min_num_rows¶

kaggle_username¶

kaggle_key¶

kaggle_timeout¶

reproducibility_level¶

seed¶

allow_different_classes_across_fold_splits¶

max_num_classes¶

max_num_classes_compute_roc¶

max_num_classes_client_and_gui¶

roc_reduce_type¶

feature_brain1¶

feature_brain2¶

feature_brain3¶

feature_brain4¶

feature_brain5¶

force_model_restart_to_defaults¶

min_dai_iterations¶

target_transformer¶

fixed_num_folds_evolution¶

fixed_num_folds¶

fixed_only_first_fold_model¶

feature_evolution_data_size¶

final_pipeline_data_size¶

max_validation_to_training_size_ratio_for_final_ensemble¶

force_stratified_splits_for_imbalanced_threshold_binary¶

mli_custom¶

last_recipe¶

time_abort¶

`max_runtime_minutes`¶

`max_runtime_minutes_until_abort`¶

`pipeline-building-recipe`¶

`enable_genetic_algorithm`¶

`tournament_style`¶

`make_python_scoring_pipeline`¶

`make_mojo_scoring_pipeline`¶

`reduce_mojo_size`¶

`benchmark_mojo_latency`¶

`mojo_building_timeout`¶

`mojo_building_parallelism`¶

`make_pipeline_visualization`¶

`make_autoreport`¶

`min_num_rows`¶

`kaggle_username`¶

`kaggle_key`¶

`kaggle_timeout`¶

`reproducibility_level`¶

`seed`¶

`allow_different_classes_across_fold_splits`¶

`max_num_classes`¶

`max_num_classes_compute_roc`¶

`max_num_classes_client_and_gui`¶

`roc_reduce_type`¶

`feature_brain1`¶

`feature_brain2`¶

`feature_brain3`¶

`feature_brain4`¶

`feature_brain5`¶

`force_model_restart_to_defaults`¶

`min_dai_iterations`¶

`target_transformer`¶

`fixed_num_folds_evolution`¶

`fixed_num_folds`¶

`fixed_only_first_fold_model`¶

`feature_evolution_data_size`¶

`final_pipeline_data_size`¶

`max_validation_to_training_size_ratio_for_final_ensemble`¶

`force_stratified_splits_for_imbalanced_threshold_binary`¶

`mli_custom`¶

`last_recipe`¶

`time_abort`¶