Driverless AI에서의 NLP¶

이 섹션에서는 Driverless AI의 NLP(문자) 처리 능력에 관해 설명합니다. Driverless AI 플랫폼은 예측 기능으로 기타 열 유형을 포함한 독립형 문자 및 문자를 모두 지원할 수 있습니다. Tensorflow 기반 및 PyTorch Transformer 아키텍처(예: BERT)는 변수 가공 및 모델 구축에 사용됩니다.

자세한 내용은 다음을 참조하세요;

NLP Feature Engineering and Modeling

NLP Expert Settings

NLP Feature Naming Convention

An NLP example in Dreiverless AI

NLP 변수 가공 및 모델링¶

Driverless AI에서 사전 학습된 Pytorch 모델

다음 NLP Recipes를 문자열에 사용할 수 있습니다. NLP Transformers 의 전체 목록은 here 에서 확인할 수 있습니다.

n-gram 빈도/TF-IDF에 뒤따른 Truncated SVD

n-gram 빈도/TF-IDF에 뒤따른 Linear/Logistic regression

Word embeddings에 뒤따른 CNN model(TensorFlow)

Word embeddings에 뒤따른 BiGRU model(TensorFlow)

Character embeddings에 뒤따른 CNN model(TensorFlow)

변수 가공의 BERT/DistilBERT 기반 임베딩(PyTorch)

모델링 알고리즘(PyTorch)으로 다중 Transformer 아키텍처(예: BERT) 지원

이러한 기술뿐만 아니라, Driverless AI는 PyTorch 또는 Flair를 사용하여 custom NLP recipes 를 지원합니다.

NLP 기능 명명 규약¶

NLP 기능 명명 규약은 생성된 기능의 유형 파악에 도움이 됩니다.

기능 이름의 구문은 다음과 같습니다.

[FEAT TYPE]:[COL].[TARGET_CLASS]

[FEAT TYPE] 은 다음 중 하나를 나타냅니다:

n-gram의 Txt – 빈도 / TF-IDF에 뒤따른 Truncated SVD

n-gram의 TxtTE - 빈도 / TF-IDF에 뒤따른 선형 모델

TextCNN_TE – Word embeddings에 뒤따른 CNN model

TextBiGRU_TE – Word embeddings에 뒤따른 양방향 GRU 모델

TextCharCNN_TE – Character embeddings에 뒤따른 CNN model

[COL] 은 문자열의 이름을 나타냅니다.
[TARGET_CLASS] 는 모델 예측이 만들어지는 대상 클래스를 나타냅니다.

예를 들면, TxtTE:text.0은 선형 모델이 뒤따르는 n-gram의 빈도 / TF-IDF를 사용하여 문자열 《text》에 대한 클래스 0 예측과 동일시됩니다.

NLP 전문가 설정¶

Driverless AI의 NLP에 대해 몇 가지 구성 가능한 설정이 이용 가능합니다. 더 자세한 내용은 전문가 설정 주제의 NLP Settings 을 참조하십시오. 또한 실험 설정의 pipeline building recipes 에서 nlp model 및 nlp transformer 를 참조하십시오.

NLP 예제: 감성 분석¶

다음 섹션은 NLP 예제에 대한 내용입니다. 이 정보는 문자 분석을 위한 자동 변수 가공 블로그 게시물을 기초로 합니다. Python client를 사용하는 유사한 예제는 Python Client 에 있습니다.

이 예제는 US Airline Sentiment dataset 를 사용한 트윗에 대한 감성 분석의 고전적인 사례를 이용합니다. 각 트윗의 감성에는 미리 라벨이 지정되어 있으며 우리 모델은 새로운 트윗을 라벨링 하는 데 사용됩니다. Driverless AI에서 무작위 분할을 사용하여 데이터 세트를 훈련 및 테스트(80/20)로 분할할 수 있습니다. 이 데모에서는 〈문자’열의 트윗과 〈airline_sentiment’ 열의 감성(긍정적, 부정적 또는 중립적)을 사용합니다.

데이터 세트가 표 포맷으로 준비되면, 모두 Driverless AI를 사용하도록 설정됩니다. Driverless AI 설정의 다른 문제와 비슷하게, 데이터 세트를 선택한 후 대상 열(‘airline_sentiment’)을 지정해야 합니다.

데이터 세트에서 다른 열의 사용을 피하기 위해, Dropped Cols 를 클릭한 후 아래와 같이 text 를 뺀 나머지 모든 항목을 제외해야 합니다.

다음으로, TensorFlow NLP recipes를 켭니다. Expert Settings, NLP 로 이동한 후, 다음을 켭니다: CNN TensorFlow models, BiGRU TensorFlow models, character-based TensorFlow models 또는 pretrained PyTorch NLP models

이 시점에서 실험을 시작할 준비가 되었습니다. 문자 기능은 변수 가공 프로세스 중에 자동으로 생성되고 평가됩니다. TextCNN과 같은 일부 기능은 TensorFlow 모델에 의존한다는 것을 참고하십시오. GPU(들)를 사용하여 TensorFlow 또는 PyTorch Transformer 모델의 성능을 활용하고 변수 가공 프로세스를 가속화하는 것을 권장합니다.

실험이 종료되면 사용자는 기타 Driverless AI 실험과 마찬가지로 새로운 예측을 만들고 스코어링 파이프 라인을 다운로드할 수 있습니다.

Resources:

fastText: https://fasttext.cc/
GloVe: https://nlp.stanford.edu/projects/glove/