Timeseries 구성¶
time_series_recipe¶
Time-series lag-based recipe (Boolean)
Default value True
지연 트랜스포머를 사용하여 time series 지연 기반 레시피를 활성화합니다. 비활성화된 경우 동일한 학습 테스트 간격 및 기간이 사용되지만 지연 트랜스포머는 활성화되지 않습니다. 비활성화된 경우 특징 변환 세트는 지연 트랜스포머 없이 매우 제한적이므로 문제를 IID 유형 문제처럼 처리하려면 enable_time_unaware_transformers를 true로 설정하는 것이 좋습니다.
time_series_leaderboard_mode¶
Control the automatic time-series leaderboard mode (String)
Default value 'diverse'
〈diverse〉: 다양한 전문가 설정을 사용하여 구축된 다양한 모델 세트를 탐색합니다. 이러한 전문가 설정을 효과적으로 구성하는 데 유용할 최고 성능 모델 상단에 다양한 리더보드를 다시 실행할 수 있습니다. 〈sliding_window〉: forecast horizon이 N 기간이면 (0,n), (n,n), (2*n,n), . .., (2*N-1, n) 기간 단위의 (0,n), (n,n), (2*n,n), …, (2*N-1, n)으로 구성된 》 각 (gap, horizon) 쌍에 대해 별도의 모델을 생성합니다. 모델 n당 예측할 기간 수는 전문가 설정 〈time_series_leaderboard_periods_per_model〉 에 의해 제어되며 기본값은 1입니다. 이를 통해 단기 예측 품질을 개선할 수 있습니다.
time_series_leaderboard_periods_per_model¶
Number of periods per model if time_series_leaderboard_mode is 〈sliding_window〉. (Number)
Default value 1
〈sliding_window〉 모드에서 빌드된 모델의 수를 제한하는 미세 제어. 값이 클수록 모델 수가 줄어듭니다.
time_series_merge_splits¶
Larger validation splits for lag-based recipe (Boolean)
Default value True
forecast horizon의 길이에 제한되지 않는 더 큰 검증 분할의 생성 여부.
merge_splits_max_valid_ratio¶
Maximum ratio of training data samples used for validation (-1 = auto) (Float)
Default value -1.0
더 큰 검증 분할이 생성될 때 분할 전체의 검증에 사용되는 교육 데이터 샘플의 최대 비율.
fixed_size_train_timespan¶
Fixed-size train timespan across splits (Boolean)
Default value False
- 시간 기반 분할에서 고정된 크기의 학습 시간 범위의 유지 여부.
이는 모든 분할에서 대략 동일한 양의 학습 샘플로 이어집니다.
time_series_validation_fold_split_datetime_boundaries¶
Custom validation splits for time-series experiments (String)
Default value ''
《tr_start1, tr_end1, va_start1, va_end1, …, tr_startN, tr_endN, va_startN, va_endN》 과 같은 사용자 정의 교육 및 검증 분할에 대해 날짜 또는 날짜시간 타임스탬프(시간 열과 동일한 형식)를 제공합니다.
time_series_validation_splits¶
Number of time-based splits for internal model validation (-1 = auto) (Number)
Default value -1
내부 모델 검증에 대해 고정된 시간 기반 분할 수를 설정합니다(허용되는 실제 분할 수는 더 적을 수 있으며 실험 런타임에 결정됨).
time_series_splits_max_overlap¶
Maximum overlap between two time-based splits. (Float)
Default value 0.5
두 개의 시간 기반 분할 간의 최대 겹침입니다. 값이 높을수록 가능한 분할 수가 증가합니다.
holiday_features¶
Generate holiday features (Boolean)
Default value True
날짜 열에서 is-holiday 특징을 자동으로 생성
holiday_countries¶
Country code(s) for holiday features (List)
Default value ['UnitedStates', 'UnitedKingdom', 'EuropeanCentralBank', 'Germany', 'Mexico', 'Japan']
휴일 캘린더를 조회하고 is-Holiday 특징을 생성할 국가 목록
sample_lag_sizes¶
Whether to sample lag sizes (Boolean)
Default value False
활성화된 경우 각 지연 기반 트랜스포머에 대해 가능한 지연 크기 세트(예: lags=[1, 4, 8])에서 최대 max_sampled_lag_sizes 지연까지 샘플링합니다. 전체 모델 복잡성과 크기를 줄일 수 있습니다.
max_sampled_lag_sizes¶
Number of sampled lag sizes. -1 for auto. (Number)
Default value -1
sample_lag_sizes가 활성화된 경우 각 지연 기반 트랜스포머에 대해 가능한 지연 크기 세트(예: lags=[1, 4, 8])에서 최대 max_sampled_lag_sizes 지연까지 샘플링합니다. 전체 모델 복잡성과 크기를 줄일 수 있습니다. 기본값은 -1(자동)이며, 이 경우 이는 max_feature_interaction_depth로 제어되는 특징 상호 작용 깊이와 동일합니다.
override_lag_sizes¶
Time-series lags override, e.g. [7, 14, 21] (List)
Default value []
사용할 지연을 재정의합니다. 예: [7, 14, 21] #은 이 정확한 목록 예: 21 #은 1에서 21까지 생성 예: 21:3은 1에서 21까지 3단계로 생성. 예: 5-21은 5에서 21까지 생성. 예: 5-21:3은 5에서 21까지 3단계로 생성
override_ufapt_lag_sizes¶
Lags override for features that are not known ahead of time (List)
Default value []
미리 알려지지 않은 특징에 사용할 지연 재정의 예: [7, 14, 21] #은 이 정확한 목록 예: 21 #은 1에서 21까지 생성 예: 21:3은 1에서 21까지 3단계로 생성. 예: 5-21은 5에서 21까지 생성. 예: 5-21:3은 5에서 21까지 3단계로 생성
override_non_ufapt_lag_sizes¶
Lags override for features that are known ahead of time (List)
Default value []
미리 알려진 특징에 사용할 지연 재정의 예: [7, 14, 21] #은 이 정확한 목록 예: 21 #은 1에서 21까지 생성 예: 21:3은 1에서 21까지 3단계로 생성. 예: 5-21은 5에서 21까지 생성. 예: 5-21:3은 5에서 21까지 3단계로 생성
min_lag_size¶
Smallest considered lag size (-1 = auto) (Number)
Default value -1
최소 고려 지연 크기
allow_time_column_as_feature¶
Enable feature engineering from time column (Boolean)
Default value True
선택한 시간 열을 기반으로 특징 가공 활성화 여부. 예: 날짜~평일.
allow_time_column_as_numeric_feature¶
Allow integer time column as numeric feature (Boolean)
Default value False
정수 시간 열을 숫자 특징으로 사용할지 여부. time series 레시피를 사용하는 경우 시간 열(숫자 타임스탬프)을 입력 특징으로 사용하면 미래로 일반화하는 특징 대신 실제 타임스탬프를 기억하는 모델로 이어질 수 있습니다.
datetime_funcs¶
Allowed date and date-time transformations (List)
Default value ['year', 'quarter', 'month', 'week', 'weekday', 'day', 'dayofyear', 'hour', 'minute', 'second']
- 날짜 또는 날짜-시간 변환이 허용됩니다.
날짜 트랜스포머에는 year, quarter, month, week, weekday, day, dayofyear, num이 포함됩니다. 날짜 트랜스포머에는 hour, minute, second도 포함됩니다. DAI의 특징은 get_ + 변환 이름으로 표시됩니다. 예를 들어 num은 시간의 부동 소수점 값을 나타내는 직접적인 숫자 값으로, IID 문제에 사용하면 과적합이 발생할 수 있습니다. 따라서 이는 기본적으로 꺼진 상태입니다.
filter_datetime_funcs¶
Auto filtering of date and date-time transformations (Boolean)
Default value True
미래에 보이지 않는 값으로 이어지는 날짜 및 날짜-시간 변환을 필터링할지 여부.
allow_tgc_as_features¶
Consider time groups columns as standalone features (Boolean)
Default value False
- 시간 그룹 열(tgc)을 독립 실행형 특징으로 고려할지 여부.
〈time_column〉 은 〈시간 열에서 특징 가공 허용’을 통해 별도로 처리됩니다〉. 특징 유형별로 제어하려면 allowed_coltypes_for_tgc_as_features를 사용합니다.
allowed_coltypes_for_tgc_as_features¶
Which tgc feature types to consider as standalone features (List)
Default value ['numeric', 'categorical', 'ohe_categorical', 'datetime', 'date', 'text']
해당 플래그 《시간 그룹 열을 독립 실행형 특징으로 고려》 가 true로 설정된 경우 독립 실행형 특징으로 고려할 시간 그룹 열(tgc) 기능 유형. 예를 들어 모든 열 유형은 [《numeric》, 《categorical》, 《ohe_categorical》, 《datetime》, 《date》, 《text》] 입니다. 〈time_column〉 은 〈시간 열에서 특징 가공 허용〉 을 통해 별도로 처리됩니다. 지연 기반 time series 레시피가 비활성화된 경우 모든 tgc는 허용되는 특징입니다.
enable_time_unaware_transformers¶
Enable time unaware transformers (String)
Default value 'auto'
다양한 트랜스포머(클러스터링, truncated SVD)의 활성화 여부와 관계없이 각 폴드의 적합 내에서 시간에 경과에 따른 누출로 과적합이 발행할 수 있으므로 time series에 대해 비활성화됩니다.
tgc_only_use_all_groups¶
Always group by all time groups columns for creating lag features (Boolean)
Default value True
지연 특징을 생성하기 위해 모든 시간 그룹 열에서 샘플링하는 대신 모든 시간 그룹 열을 기준으로 그룹화할지 여부.
tgc_allow_target_encoding¶
Target encoding of time groups (Boolean)
Default value False
시간 그룹의 대상 인코딩을 허용할지 여부. 그룹이 많은 경우 유용할 수 있습니다.
time_series_holdout_preds¶
Generate Time-Series Holdout Predictions (Boolean)
Default value True
- 교육 데이터에 대한 홀드아웃 예측 생성 활성화
이동 윈도우 사용(MLI에 유용하지만 느릴 수 있음)
time_series_max_holdout_splits¶
Maximum number of splits used for creating final time-series model’s holdout predictions (Number)
Default value -1
최종 time-series 모델의 홀드아웃/백테스팅 예측을 생성하는 데 사용되는 최대 분할 수. 기본값 〈-1〉 을 사용하면 모델 검증 동안과 동일한 양의 분할이 사용됩니다. 모델 검증에 사용되는 시간 기반 분할의 양을 제어하려면 〈time_series_validation_splits〉 를 사용합니다.
mli_ts_fast_approx¶
Whether to speed up calculation of Time-Series Holdout Predictions (Boolean)
Default value False
교육 데이터에 대한 백테스트를 위해 time series 홀드아웃 예측의 속도를 높일지 여부(MLI 및 메트릭 계산에 사용됨). 약간 덜 정확할 수 있습니다.
mli_ts_fast_approx_contribs¶
Whether to speed up calculation of Shapley values for Time-Series Holdout Predictions (Boolean)
Default value True
교육 데이터에 대한 백테스트를 위해 time series 홀드아웃 예측에 대한 Shapley 값의 속도를 높일지 여부(MLI에 사용됨). 약간 덜 정확할 수 있습니다.
mli_ts_holdout_contribs¶
Generate Shapley values for Time-Series Holdout Predictions at the time of experiment (Boolean)
Default value True
- 교육 데이터에 대한 홀드아웃 예측을 위해 Shapley 값 생성 활성화
실험 시 이동 윈도우 사용(MLI에 유용하지만 느릴 수 있음). 비활성화된 경우 MLI는 요청 시 Shapley 값을 생성합니다.
time_series_min_interpretability¶
Lower limit on interpretability setting for time-series experiments, implicitly enforced. (Number)
Default value 5
5 이상의 값은 가장 덜 중요한 특징을 보다 적극적으로 삭제하여 일반화를 향상시킬 수 있습니다. 비활성화하려면 1로 설정합니다.
lags_dropout¶
Dropout mode for lag features (String)
Default value 'dependent'
교육과 검증/테스트 사이에 동일한 n.a.-비율을 달성하기 위한 지연 특징에 대한 드롭아웃 모드. 독립 모드는 간단한 특징별 드롭아웃을 수행하는 반면 종속 모드는 샘플/행당 지연 크기 종속성을 고려합니다.
prob_lag_non_targets¶
Probability to create non-target lag features (-1.0 = auto) (Float)
Default value -1.0
대상에 상대적으로 비대상을 지연시키는 선택의 정규화된 확률(-1.0 = 자동)
rolling_test_method¶
Method to create rolling test set predictions (String)
Default value 'tta'
forecast horizon이 테스트 세트의 시간 범위보다 짧은 경우 롤링 테스트 세트 예측을 만드는 메서드입니다. TTA(Test Time Augmentation)와 최종 파이프라인의 연속적인 재조정 중에서 선택할 수 있습니다.
fast_tta_internal¶
Fast TTA for internal validation (feature evolution and holdout predictions) (Boolean)
Default value True
내부 검증 분할 예측에 롤링 윈도우를 사용하는 대신 한 번에 TTA를 적용합니다.
fast_tta_test¶
Fast TTA for test set predictions (Boolean)
Default value True
테스트 세트 예측에 롤링 윈도우를 사용하는 대신 한 번에 TTA를 적용합니다.
prob_default_lags¶
Probability for new time-series transformers to use default lags (-1.0 = auto) (Float)
Default value -1.0
새로운 지연/EWMA 유전자가 기본 지연을 사용할 확률(빈도/갭/horizon으로 결정됨, 데이터와 무관)(-1.0 = 자동)
prob_lagsinteraction¶
Probability of exploring interaction-based lag transformers (-1.0 = auto) (Float)
Default value -1.0
상호 작용을 기반으로 다른 지연 time-series 트랜스포머를 선택할 비정규화 확률(-1.0 = 자동)
prob_lagsaggregates¶
Probability of exploring aggregation-based lag transformers (-1.0 = auto) (Float)
Default value -1.0
집계를 기반으로 다른 지연 time-series 트랜스포머를 선택할 비정규화 확률(-1.0 = 자동)
ts_target_trafo¶
Time series centering or detrending transformation (String)
Default value 'none'
Time series 센터링 또는 추세 제거 변환. 추세 모델의 자유 매개변수가 적합하고 대상 신호에서 추세가 제거되고 파이프라인이 잔차에 적합합니다. 추세를 다시 추가하여 예측합니다. 강력한 센터링 또는 선형 디트렌딩 변형은 RANSAC를 사용하여 outliers에 관해 더 높은 허용 오차를 달성합니다. 전염병 대상 트랜스포머는 SEIR 모델을 사용합니다: https://en.wikipedia.org/wiki/Compartmental_models_in_epidemiology#The_SEIR_model
ts_target_trafo_epidemic_params_dict¶
Custom bounds for SEIRD epidemic model parameters (Dict)
Default value {}
time series 그룹별 대상의 추세 제거를 위해 Epidemic SEIRD 모델을 제어하는 사전입니다. 참고: 대상 열은 시간 함수로 감염된 사례인 I(t)와 일치해야 합니다.
각 교육 분할 및 time series 그룹에 대해 SEIRD 모델은 대상 신호에 적합합니다(각 time series 그룹에 대해 아래에 표시된 자유 매개변수의 최적화를 통해).
그런 다음 교육 응답에서 SEIRD 모델의 값을 빼고 나머지는 특징 가공 및 모델링 파이프라인으로 전달됩니다. 예측의 경우, SEIRD 모델의 값을 각 time series 그룹에 대한 파이프라인의 잔차 예측에 더합니다.
참고: 좋은 결과를 얻으려면 자유 매개변수 N, beta, gamma, delta, alpha, rho, lockdown, beta_decay, beta_decay_rate 에 대한 경계를 신중하게 선택해야 합니다.
S(t) : 감수성/건강/면역 없음
E(t) : 노출됨/아직 감염되지 않음
I(t) : 감염성/활성 <= 대상 열
R(t) : 회복/면역
D(t) : 사망
### 자유 매개변수: - N : 총 모집단, N=S+E+I+R+D - beta : 접촉률 (S -> E) - gamma : 회복률 (I -> R) - delta : 잠복 기간 - alpha : 사망률 - rho : 사망 비율 - lockdown : 봉쇄일 (-1 => 봉쇄 없음) - beta_decay : 봉쇄로 인한 Beta 감쇠 - beta_decay_rate : Beta 감쇠 속도
### 역학: 봉쇄 >= 0인 경우:
beta_min = beta * (1 - beta_decay) beta = (beta - beta_min) / (1 + np.exp(-beta_decay_rate * (-t + lockdown))) + beta_min
dSdt = -beta * S * I / N dEdt = beta * S * I / N - delta * E dIdt = delta * E - (1 - alpha) * gamma * I - alpha * rho * I dRdt = (1 - alpha) * gamma * I dDdt = alpha * rho * I
경계를 제어하려는 각 매개변수에 대해 하한/상한을 제공합니다. 유효한 매개변수는 다음과 같음: N_min, N_max, beta_min, beta_max, gamma_min, gamma_max, delta_min, delta_max, alpha_min, alpha_max, rho_min, rho_max, lockdown_min, lockdown_max, beta_decay_min, beta_decay_max, beta_decay_rate_min, beta_decay_rate_max. 매개변수의 서브세트를 변경할 수 있습니다. 예: ts_target_trafo_epidemic_params_dict=》{〈N_min〉: 1000, 〈beta_max〉: 0.2}》
SEIR 모델을 얻으려면(사망률이 매우 낮은 경우 계산 속도를 크게 높일 수 있음): alpha_min=alpha_max=rho_min=rho_max=beta_decay_rate_min=beta_decay_rate_max=0, lockdown_min=lockdown_max=-1로 설정.
ts_target_trafo_epidemic_target¶
Which SEIRD model component the target column corresponds to: I: Infected, R: Recovered, D: Deceased. (String)
Default value 'I'
ts_lag_target_trafo¶
Time series lag-based target transformation (String)
Default value 'none'
Time series 지연 기반 대상 변환. 현재 대상과 지연 대상의 차이와 비율 중에서 선택할 수 있습니다. 해당 지연 크기는 〈대상 변환 지연 크기’를 통해 설정할 수 있습니다.
ts_target_trafo_lag_size¶
Lag size used for time series target transformation (Number)
Default value -1
time series 대상 변환에 사용되는 지연 크기입니다. 〈time series 대상 변환〉 설정을 참조하십시오.
timeseries_split_suggestion_timeout¶
Timeout in seconds for time-series properties detection in UI. (Float)
Default value 30.0
UI의 time series 속성 감지에 대한 시간 초과(초).