»
配置与身份验证 »
DriverlessAI 配置 »
时间序列配置
Edit on GitHub

时间序列配置¶

`time_series_recipe`¶

Time-series lag-based recipe (Boolean)

默认值 True

使用滞后转换器启用基于 Time Series 滞后的插件。若禁用，则使用相同的训练测试间隔和周期，但不启用滞后转换器。若禁用，特征转换集在没有滞后转换器的情况下是很少的，所以考虑将 enable_time_unaware_transformers 设置为 true，以将此问题更多地作为一个 IID 类型问题进行处理。

`time_series_leaderboard_mode`¶

Control the automatic time-series leaderboard mode (String)

默认值 'diverse'

‘diverse’：探索使用各种专家设置构建的各种模型集。注意，您可以在表现最好的模型之上重新运行另一个不同的排行榜，这将有效地帮助您构建这些专家设置。’sliding_window’：如果 Forecast Horizon 为 N 时段，以时段为单位为 “每个 (gap, horizon) 对 (0,n), (n,n), (2*n,n), …, (2*N-1, n) 创建一个独立模型。” 每个模型的预测时段数 n 由专家设置 ‘time_series_leaderboard_periods_per_model’ 控制，默认值为 1。这有助于提高短期预测的质量。

`time_series_leaderboard_periods_per_model`¶

Number of periods per model if time_series_leaderboard_mode is ‘sliding_window’. (Number)

默认值 1

微调控制，以限制 ‘sliding_window’ 模式中内置的模型数量。值越大，模型越少。

`time_series_merge_splits`¶

Larger validation splits for lag-based recipe (Boolean)

默认值 True

是否创建不局限于 Forecast Horizon 长度的更大验证拆分。

`merge_splits_max_valid_ratio`¶

Maximum ratio of training data samples used for validation (-1 = auto) (Float)

默认值 -1.0

创建更大的验证拆分时，用于跨多个拆分验证的训练数据样本的最大比例。

`fixed_size_train_timespan`¶

Fixed-size train timespan across splits (Boolean)

默认值 False

是否使基于时间的拆分保持固定大小的训练时间间隔。: 这就导致了每次分割中产生的训练样本数量大致相同。

`time_series_validation_fold_split_datetime_boundaries`¶

Custom validation splits for time-series experiments (String)

默认值 ''

提供日期或日期时间时间戳（格式与时间列相同）用于自定义训练和验证分割，如下：”tr_start1, tr_end1, va_start1, va_end1, …, tr_startN, tr_endN, va_startN, va_endN”

`time_series_validation_splits`¶

Number of time-based splits for internal model validation (-1 = auto) (Number)

默认值 -1

为内部模型验证设置固定数量的时间分割（允许的实际分割数量可能会更少，具体在实验运行时确定）。

`time_series_splits_max_overlap`¶

Maximum overlap between two time-based splits. (Float)

默认值 0.5

两个时间分割之间的最大重叠：值越高，可能的分割数量就越多。

`holiday_features`¶

Generate holiday features (Boolean)

默认值 True

从日期列自动生成假日特征

`holiday_countries`¶

Country code(s) for holiday features (List)

默认值 ['UnitedStates', 'UnitedKingdom', 'EuropeanCentralBank', 'Germany', 'Mexico', 'Japan']

要为其查找假日日历和生成假日特征的国家/地区的列表

`sample_lag_sizes`¶

Whether to sample lag sizes (Boolean)

默认值 False

若启用，对于每个基于滞后的转换器，从一组可能的滞后大小（例如 lags=[1, 4, 8]）中取样，不超过 max_sampled_lag_sizes 滞后。可以帮助降低模型整体的复杂性和大小。

`max_sampled_lag_sizes`¶

Number of sampled lag sizes. -1 for auto. (Number)

默认值 -1

若启用了 sample_lag_sizes，对于每个基于滞后的转换器，从一组可能的滞后大小（例如 lags=[1, 4, 8]）中取样，不超过 max_sampled_lag_sizes 滞后。可以帮助降低模型整体的复杂性和大小。默认设置为 -1（自动），这种情况下，它与 max_feature_interaction_depth 控制的特征交互深度相同。

`override_lag_sizes`¶

Time-series lags override, e.g. [7, 14, 21] (List)

默认值 []

覆盖要使用的滞后，例如 [7, 14, 21] # 此确切列表，例如 21 # 从 1 到 21 生成例如 21:3 在步骤 3 中从 1 到 21 生成例如 5-21 从 5 到 21 生成例如 5-21:3 在步骤 3 中从 5 到 21 生成

`override_ufapt_lag_sizes`¶

Lags override for features that are not known ahead of time (List)

默认值 []

覆盖要用于未提前知晓的特征的滞后，例如 [7, 14, 21] # 此确切列表，例如 21 # 从 1 到 21 生成例如 21:3 在步骤 3 中从 1 到 21 生成例如 5-21 从 5 到 21 生成例如 5-21:3 在步骤 3 中从 5 到 21 生成

`override_non_ufapt_lag_sizes`¶

Lags override for features that are known ahead of time (List)

默认值 []

覆盖要用于提前知晓的特征的滞后，例如 [7, 14, 21] # 此确切列表，例如 21 # 从 1 到 21 生成例如 21:3 在步骤 3 中从 1 到 21 生成例如 5-21 从 5 到 21 生成例如 5-21:3 在步骤 3 中从 5 到 21 生成

`min_lag_size`¶

Smallest considered lag size (-1 = auto) (Number)

默认值 -1

最小考虑滞后大小

`allow_time_column_as_feature`¶

Enable feature engineering from time column (Boolean)

默认值 True

是否根据所选时间列（如 Date~weekday）启用特征工程。

`allow_time_column_as_numeric_feature`¶

Allow integer time column as numeric feature (Boolean)

默认值 False

是否启用整数时间列作为数字特征。如果使用 Time Series 插件，将时间列（数字时间戳）用作输入特征会导致模型存储实际时间戳而非在未来可泛化的特征。

`datetime_funcs`¶

Allowed date and date-time transformations (List)

默认值 ['year', 'quarter', 'month', 'week', 'weekday', 'day', 'dayofyear', 'hour', 'minute', 'second']

允许的日期或日期时间转换。: 日期转换器包括：年、季、月、周、星期名称、日、一年中的某天、数字。日期转换器还包括：小时、分钟、秒。特征在 DAI 中显示为 get_ + 转换器名称。例如，数字是一个表示时间浮点值的直接数值，如果用于 IID 问题，可能导致过拟合。因此此设置默认关闭。

`filter_datetime_funcs`¶

Auto filtering of date and date-time transformations (Boolean)

默认值 True

指定是否过滤掉会在未来产生不可见值的日期和日期时间转换。

`allow_tgc_as_features`¶

Consider time groups columns as standalone features (Boolean)

默认值 False

是否将时间分组列 (tgc) 视为独立特征。: 注意，’time_column’ 通过 ‘Allow to engineer features from time column’ 单独进行处理。将 allowed_coltypes_for_tgc_as_features 用于每个特征类型的控制。

`allowed_coltypes_for_tgc_as_features`¶

Which tgc feature types to consider as standalone features (List)

默认值 ['numeric', 'categorical', 'ohe_categorical', 'datetime', 'date', 'text']

如果对应的标志 “Consider time groups columns as standalone features” 设置为 true，则将哪些时间分组列 (tgc) 特征类型视为独立特征。例如所有列类型将是 [“numeric”, “categorical”, “ohe_categorical”, “datetime”, “date”, “text”] 注意，’time_column’ 通过 ‘Allow to engineer features from time column’ 单独进行处理。注意，如果禁用了基于滞后的 Time Series 插件，则所有 tgc 都是允许的特征。

`enable_time_unaware_transformers`¶

Enable time unaware transformers (String)

默认值 'auto'

是否启用各种转换器（聚类、Truncated SVD），对于 Time Series，由于在每个折叠的拟合范围内可能随时间泄露而发生过度拟合，因此会禁用此选项。

`tgc_only_use_all_groups`¶

Always group by all time groups columns for creating lag features (Boolean)

默认值 True

是否对用于创建滞后特征而非进行采样的所有时间分组列进行分组。

`tgc_allow_target_encoding`¶

Target encoding of time groups (Boolean)

默认值 False

是否允许对时间分组进行目标编码。如果有很多分组，此设置可能很有用

`time_series_holdout_preds`¶

Generate Time-Series Holdout Predictions (Boolean)

默认值 True

启用使用移动窗口根据训练数据: 创建保持预测（对 MLI 有用，但速度可能较慢）

`time_series_max_holdout_splits`¶

Maximum number of splits used for creating final time-series model’s holdout predictions (Number)

默认值 -1

用于创建最终 Time Series 模型的保持/回测预测的最大拆分段数量。使用默认值 ‘-1’ 时，会使用在模型验证过程中使用的拆分数量。使用 ‘time_series_validation_splits’ 控制用于模型验证的时间拆分数量。

`mli_ts_fast_approx`¶

Whether to speed up calculation of Time-Series Holdout Predictions (Boolean)

默认值 False

是否加快对训练数据回测的 Time Series 保持预测（用于 MLI 和指标计算）。可能准确度略低。

`mli_ts_fast_approx_contribs`¶

Whether to speed up calculation of Shapley values for Time-Series Holdout Predictions (Boolean)

默认值 True

是否加快对训练数据回测的 Shapley 值 Time Series 保持预测（用于 MLI）。可能准确度略低。

`mli_ts_holdout_contribs`¶

Generate Shapley values for Time-Series Holdout Predictions at the time of experiment (Boolean)

默认值 True

在进行实验时，启用使用移动窗口根据训练数据: 创建保持预测的 Shapley 值（对 MLI 有用，但可能速度较慢）。若禁用，MLI 将按需生成 Shapley 值。

`time_series_min_interpretability`¶

Lower limit on interpretability setting for time-series experiments, implicitly enforced. (Number)

默认值 5

值为 5 或更高时，可以通过更积极地丢弃重要性最低的特征来改善泛化。设置为 1 表示禁用。

`lags_dropout`¶

Dropout mode for lag features (String)

默认值 'dependent'

滞后特征的丢弃模式，用于达到训练与验证/测试之间相等的 NA 比。独立模式将执行简单的特征丢弃，而依赖模式将对每个样本/行考虑滞后阶数的依赖性。

`prob_lag_non_targets`¶

Probability to create non-target lag features (-1.0 = auto) (Float)

默认值 -1.0

选择相对于目标滞后非目标的归一化概率（-1.0 = 自动）

`rolling_test_method`¶

Method to create rolling test set predictions (String)

默认值 'tta'

在 Forecast Horizon 小于测试集的时间跨度的情况下，创建滚动测试集预测的方法。可以选择 Test Time Augmentation (TTA) 或最终管道连续重新拟合。

`fast_tta_internal`¶

Fast TTA for internal validation (feature evolution and holdout predictions) (Boolean)

默认值 True

应用一次 TTA，而不是使用滚动窗口进行内部验证分割预测。

`fast_tta_test`¶

Fast TTA for test set predictions (Boolean)

默认值 True

应用一次 TTA，而不是使用滚动窗口进行测试集预测。

`prob_default_lags`¶

Probability for new time-series transformers to use default lags (-1.0 = auto) (Float)

默认值 -1.0

新的滞后/EWMA 基因使用默认滞后的概率（由频率/间隔/范围决定，与数据无关）（-1.0 = 自动）

`prob_lagsinteraction`¶

Probability of exploring interaction-based lag transformers (-1.0 = auto) (Float)

默认值 -1.0

基于交互作用选择其他滞后 Time Series 转换器的非归一化概率（-1.0 = 自动）

`prob_lagsaggregates`¶

Probability of exploring aggregation-based lag transformers (-1.0 = auto) (Float)

默认值 -1.0

基于聚合作用选择其他滞后 Time Series 转换器的非归一化概率（-1.0 = 自动）

`ts_target_trafo`¶

Time series centering or detrending transformation (String)

默认值 'none'

Time Series 居中或趋势分离转换。拟合趋势模型的自由参数，从目标信号中移除趋势，并在残差上拟合管道。预测是通过加回趋势来实现的。稳健的居中或线性趋势分离变体使用 RANSAC 实现有关 Outliers 的更高公差。Epidemic 目标转换器使用 SEIR 模型：https://en.wikipedia.org/wiki/Compartmental_models_in_epidemiology#The_SEIR_model

`ts_target_trafo_epidemic_params_dict`¶

Custom bounds for SEIRD epidemic model parameters (Dict)

默认值 {}

用于控制 Epidemic SEIRD 模型，以对每个 Time Series 分组的目标执行趋势分离的字典。注意：目标列必须对应于 I(t)（即将感染病例数表示为时间的函数）。

对于每个训练拆分段和 Time Series 分组，SEIRD 模型拟合到目标信号（通过优化下方显示的针对各个 Time Series 分组的自由参数）。

然后，从训练响应中减去 SEIRD 模型的值，将残差传递给特征工程和建模管道。为了进行预测，对于每个 Time Series 分组，将 SEIRD 模型的值添加到管道的残差预测中。

注意：想要取得良好的结果，谨慎选择自由参数 N、beta、gamma、delta、alpha、rho、lockdown、beta_decay、beta_decay_rate 的范围是非常重要的。

S(t)：易感染/健康/非免疫
E(t)：已暴露/尚无感染性
I(t)：有感染性/活动 <= 目标列
R(t)：已恢复/免疫
D(t)：已故

### 自由参数：- N：总人数，N=S+E+I+R+D - beta：暴露率 (S -> E) - gamma：恢复率 (I -> R) - delta：潜伏期 - alpha：致死率 - rho：死亡率 - lockdown：封锁天数（-1 => 不封锁）- beta_decay：因封锁产生的 Beta 衰减 - beta_decay_rate：beta 衰减的速度

### Dynamics：如果 lockdown >= 0：

beta_min = beta * (1 - beta_decay) beta = (beta - beta_min) / (1 + np.exp(-beta_decay_rate * (-t + lockdown))) + beta_min

dSdt = -beta * S * I / N dEdt = beta * S * I / N - delta * E dIdt = delta * E - (1 - alpha) * gamma * I - alpha * rho * I dRdt = (1 - alpha) * gamma * I dDdt = alpha * rho * I

提供您想控制的每个参数的上限或下限。有效参数有：N_min、N_max、beta_min、beta_max、gamma_min、gamma_max、delta_min、delta_max、alpha_min、alpha_max、rho_min、rho_max、lockdown_min、lockdown_max、beta_decay_min、beta_decay_max、beta_decay_rate_min、beta_decay_rate_max。您可以更改参数的任何子集。例如 ts_target_trafo_epidemic_params_dict=”{‘N_min’: 1000, ‘beta_max’: 0.2}”

要获取 SEIR 模型（若死亡率极低，此模型可以显著提高计算速度），需设置 alpha_min=alpha_max=rho_min=rho_max=beta_decay_rate_min=beta_decay_rate_max=0, lockdown_min=lockdown_max=-1.

`ts_target_trafo_epidemic_target`¶

Which SEIRD model component the target column corresponds to: I: Infected, R: Recovered, D: Deceased. (String)

默认值 'I'

`ts_lag_target_trafo`¶

Time series lag-based target transformation (String)

默认值 'none'

基于 Time Series 滞后的目标转换。可以选择当前和滞后目标之间的差异和比率。相应的滞后大小可以通过 ‘Target transformation lag size’ 来设置。

`ts_target_trafo_lag_size`¶

Lag size used for time series target transformation (Number)

默认值 -1

用于 Time Series 目标转换的滞后大小。请参阅设置 ‘Time series target transformation’。

`timeseries_split_suggestion_timeout`¶

Timeout in seconds for time-series properties detection in UI. (Float)

默认值 30.0

UI 中 Time Series 属性检测的超时时间（单位为秒）。

Next Previous

Built with Sphinx using a theme provided by Read the Docs.

时间序列配置¶

time_series_recipe¶

time_series_leaderboard_mode¶

time_series_leaderboard_periods_per_model¶

time_series_merge_splits¶

merge_splits_max_valid_ratio¶

fixed_size_train_timespan¶

time_series_validation_fold_split_datetime_boundaries¶

time_series_validation_splits¶

time_series_splits_max_overlap¶

holiday_features¶

holiday_countries¶

sample_lag_sizes¶

max_sampled_lag_sizes¶

override_lag_sizes¶

override_ufapt_lag_sizes¶

override_non_ufapt_lag_sizes¶

min_lag_size¶

allow_time_column_as_feature¶

allow_time_column_as_numeric_feature¶

datetime_funcs¶

filter_datetime_funcs¶

allow_tgc_as_features¶

allowed_coltypes_for_tgc_as_features¶

enable_time_unaware_transformers¶

tgc_only_use_all_groups¶

tgc_allow_target_encoding¶

time_series_holdout_preds¶

time_series_max_holdout_splits¶

mli_ts_fast_approx¶

mli_ts_fast_approx_contribs¶

mli_ts_holdout_contribs¶

time_series_min_interpretability¶

lags_dropout¶

prob_lag_non_targets¶

rolling_test_method¶

fast_tta_internal¶

fast_tta_test¶

prob_default_lags¶

prob_lagsinteraction¶

prob_lagsaggregates¶

ts_target_trafo¶

ts_target_trafo_epidemic_params_dict¶

ts_target_trafo_epidemic_target¶

ts_lag_target_trafo¶

ts_target_trafo_lag_size¶

timeseries_split_suggestion_timeout¶

`time_series_recipe`¶

`time_series_leaderboard_mode`¶

`time_series_leaderboard_periods_per_model`¶

`time_series_merge_splits`¶

`merge_splits_max_valid_ratio`¶

`fixed_size_train_timespan`¶

`time_series_validation_fold_split_datetime_boundaries`¶

`time_series_validation_splits`¶

`time_series_splits_max_overlap`¶

`holiday_features`¶

`holiday_countries`¶

`sample_lag_sizes`¶

`max_sampled_lag_sizes`¶

`override_lag_sizes`¶

`override_ufapt_lag_sizes`¶

`override_non_ufapt_lag_sizes`¶

`min_lag_size`¶

`allow_time_column_as_feature`¶

`allow_time_column_as_numeric_feature`¶

`datetime_funcs`¶

`filter_datetime_funcs`¶

`allow_tgc_as_features`¶

`allowed_coltypes_for_tgc_as_features`¶

`enable_time_unaware_transformers`¶

`tgc_only_use_all_groups`¶

`tgc_allow_target_encoding`¶

`time_series_holdout_preds`¶

`time_series_max_holdout_splits`¶

`mli_ts_fast_approx`¶

`mli_ts_fast_approx_contribs`¶

`mli_ts_holdout_contribs`¶

`time_series_min_interpretability`¶

`lags_dropout`¶

`prob_lag_non_targets`¶

`rolling_test_method`¶

`fast_tta_internal`¶

`fast_tta_test`¶

`prob_default_lags`¶

`prob_lagsinteraction`¶

`prob_lagsaggregates`¶

`ts_target_trafo`¶

`ts_target_trafo_epidemic_params_dict`¶

`ts_target_trafo_epidemic_target`¶

`ts_lag_target_trafo`¶

`ts_target_trafo_lag_size`¶

`timeseries_split_suggestion_timeout`¶