NLP 구성¶
enable_tensorflow_textcnn¶
Enable word-based CNN TensorFlow transformers for NLP (String)
Default value 'auto'
TensorFlow가 활성화된 경우 NLP용 트랜스포머로 Word 기반 CNN TensorFlow 모델의 out-of-fold 예측을 사용할지 여부
enable_tensorflow_textbigru¶
Enable word-based BiGRU TensorFlow transformers for NLP (String)
Default value 'auto'
TensorFlow가 활성화된 경우 NLP용 트랜스포머로 Word 기반 Bi-GRU TensorFlow 모델의 out-of-fold 예측을 사용할지 여부
enable_tensorflow_charcnn¶
Enable character-based CNN TensorFlow transformers for NLP (String)
Default value 'auto'
TensorFlow가 활성화된 경우 NLP용 트랜스포머로 Character 기반 CNN TensorFlow 모델의 out-of-fold 예측을 사용할지 여부
enable_pytorch_nlp_transformer¶
Enable PyTorch transformers for NLP (String)
Default value 'auto'
사전 교육된 PyTorch 모델을 NLP 작업의 트랜스포머로 사용할지 여부. 사전 교육된 임베딩 위에 선형 모델을 맞춥니다. 인터넷 연결이 필요합니다. 기본값 〈auto〉 는 비활성화됨을 의미합니다. 활성화하려면 〈on〉 으로 설정하십시오. GPU를 적극 권장합니다.
pytorch_nlp_transformer_max_rows_linear_model¶
Max number of rows to use for fitting the linear model on top of the pretrained embeddings. (Number)
Default value 50000
행이 많을수록 피팅 프로세스가 느려질 수 있습니다. 권장 값은 100000 미만입니다.
enable_pytorch_nlp_model¶
Enable PyTorch models for NLP (String)
Default value 'auto'
사전 교육된 PyTorch 모델을 사용하고 NLP 작업을 위해 이런 모델을 미세 조정할지 여부. 인터넷 연결이 필요합니다. 기본값 〈auto〉 는 비활성화됨을 의미합니다. 활성화하려면 〈on〉 으로 설정합니다. 이러한 모델은 첫 번째 텍스트 열만 사용하며 교육 속도가 느릴 수 있습니다. GPU를 적극 권장합니다.
pytorch_nlp_pretrained_models¶
Select which pretrained PyTorch NLP model(s) to use. (List)
Default value ['bert-base-uncased', 'distilbert-base-uncased', 'bert-base-multilingual-cased']
사용할 사전 교육된 PyTorch NLP 모델을 선택합니다. 기본 모델이 아니면 MOJO를 지원하지 않을 수 있습니다. 인터넷 연결이 필요합니다. NLP용 PyTorch 모델 또는 트랜스포머가 〈on〉 으로 설정된 경우에만.
tensorflow_max_epochs_nlp¶
Max. TensorFlow epochs for NLP (Number)
Default value 2
NLP 특징을 만들기 위한 TensorFlow 모델의 최대 에포크 수
enable_tensorflow_nlp_accuracy_switch¶
Accuracy above enable TensorFlow NLP by default for all models (Number)
Default value 5
TensorFlow NLP 트랜스포머가 자동으로 설정된 경우 텍스트 위주 문제에 대한 실험 시작 시 아래에 활성화된 모든 TensorFlow NLP 모델을 추가하는 동일 및 그 이상 정확도 설정. on으로 설정하면 이 매개변수는 무시됩니다. 그렇지 않으면 낮은 정확도에서 TensorFlow NLP 변환이 뮤테이션로만 생성됩니다.
tensorflow_nlp_pretrained_embeddings_file_path¶
Path to pretrained embeddings for TensorFlow NLP models. If empty, will train from scratch. (String)
Default value ''
TensorFlow NLP 모델에 대한 사전 교육된 임베딩 경로는 로컬 파일 시스템 또는 S3 위치(s3://)의 경로일 수 있습니다. 예를 들어 https://nlp.stanford.edu/data/glove.6B.zip tensorflow_nlp_pretrained_embeddings_file_path = /path/on/server/to/glove.6B.300d.txt 를 다운로드하고 압축을 풉니다.
tensorflow_nlp_pretrained_s3_access_key_id¶
S3 access key Id to use when tensorflow_nlp_pretrained_embeddings_file_path is set to an S3 location. (String)
Default value ''
tensorflow_nlp_pretrained_s3_secret_access_key¶
S3 secret access key to use when tensorflow_nlp_pretrained_embeddings_file_path is set to an S3 location. (String)
Default value ''
tensorflow_nlp_pretrained_embeddings_trainable¶
For TensorFlow NLP, allow training of unfrozen pretrained embeddings (in addition to fine-tuning of the rest of the graph) (Boolean)
Default value False
사전 교육된 임베딩 레이어 가중치를 포함하여 신경망 그래프의 모든 가중치 교육을 허용합니다. 비활성화하면 임베딩 레이어가 고정되지만 다른 모든 가중치는 여전히 미세 조정됩니다.
pytorch_tokenizer_parallel¶
pytorch_tokenizer_parallel (Boolean)
Default value True
BERT 모델/트랜스포머에 대한 토큰화의 병렬화 여부.
pytorch_nlp_fine_tuning_num_epochs¶
Number of epochs for fine-tuning of PyTorch NLP models. (Number)
Default value -1
PyTorch NLP 모델의 미세 조정을 위한 에포크 수. 값이 크면 정확도가 높아지지만 교육 시간이 더 걸립니다.
pytorch_nlp_fine_tuning_batch_size¶
Batch size for PyTorch NLP models. -1 for automatic. (Number)
Default value -1
PyTorch NLP 모델의 배치 크기. 모델이 더 크고 배치 크기가 더 크면 메모리를 더 많이 사용합니다.
pytorch_nlp_fine_tuning_padding_length¶
Maximum sequence length (padding length) for PyTorch NLP models. -1 for automatic. (Number)
Default value -1
PyTorch NLP 모델의 최대 시퀀스 길이(패딩 길이). 모델이 더 크고 패딩 길이가 더 길면 메모리를 더 많이 사용합니다.
pytorch_nlp_pretrained_models_dir¶
Path to pretrained PyTorch NLP models. If empty, will get models from S3 (String)
Default value ''
Path to pretrained PyTorch NLP models. Note that this can be either a path in the local file system (/path/on/server/to/bert_models_folder), an URL or a S3 location (s3://). To get all models, download http://s3.amazonaws.com/artifacts.h2o.ai/releases/ai/h2o/pretrained/bert_models.zip and unzip and store it in a directory on the instance where DAI is installed. pytorch_nlp_pretrained_models_dir = /path/on/server/to/bert_models_folder
pytorch_nlp_pretrained_s3_access_key_id¶
S3 access key Id to use when pytorch_nlp_pretrained_models_dir is set to an S3 location. (String)
Default value ''
pytorch_nlp_pretrained_s3_secret_access_key¶
S3 secret access key to use when pytorch_nlp_pretrained_models_dir is set to an S3 location. (String)
Default value ''
text_fraction_for_text_dominated_problem¶
Fraction of text columns out of all features to be considered a text-dominated problem (Float)
Default value 0.3
텍스트 위주 문제로 간주되는 모든 특징 중 텍스트 열의 비율
text_transformer_fraction_for_text_dominated_problem¶
Fraction of text per all transformers to trigger that text dominated (Float)
Default value 0.3
텍스트 위주 문제를 유발하는 모든 트랜스포머에 대한 텍스트 트랜스포머의 비율
string_col_as_text_threshold¶
Threshold for string columns to be treated as text (0.0 - text, 1.0 - string) (Float)
Default value 0.3
내부 휴리스틱에 의해 결정된 평균 문자열-텍스트 점수에 대한 임계값. 스트링 열이 문자(NLP 문제의 경우) 또는 표준 범주 변수로 처리되는 시기를 지정합니다. 값이 높을수록 범주 문자열 열을 선호하고 낮을수록 텍스트 문자열 열을 선호합니다.
string_col_as_text_threshold_preview¶
string_col_as_text_threshold_preview (Float)
Default value 0.1
Threshold for string columns to be treated as text during preview - should be less than string_col_as_text_threshold to allow data with first 20 rows that don’t look like text to still work for Text-only transformers (0.0 - text, 1.0 - string)
tokenize_single_chars¶
Tokenize single characters. (Boolean)
Default value True
If disabled, require 2 or more alphanumeric characters for a token in Text (Count and TF/IDF) transformers, otherwise create tokens out of single alphanumeric characters. True means that 〈Street 3〉 is tokenized into 〈Street〉 and 〈3〉, while False means that it’s tokenized into 〈Street〉.
text_transformers_max_vocabulary_size¶
Max size of the vocabulary for text transformers. (List)
Default value [1000, 5000]
- Tfidf/Count 기반 텍스트 트랜스포머(CNN/BERT 아님)를 피팅하는 동안 생성된 어휘의 최대 크기(토큰).
여러 값이 제공되면 초기 모델에 첫 번째 값을 사용하고 매개변수 조정 및 특징 진화 중에 나머지 값을 사용합니다. 속도를 위해서는 10000보다 작은 값을 사용하는 것이 좋습니다.