时间序列配置¶
time_series_recipe¶
Time-series lag-based recipe (Boolean)
默认值 True
使用滞后转换器启用基于 Time Series 滞后的插件。若禁用,则使用相同的训练测试间隔和周期,但不启用滞后转换器。若禁用,特征转换集在没有滞后转换器的情况下是很少的,所以考虑将 enable_time_unaware_transformers 设置为 true,以将此问题更多地作为一个 IID 类型问题进行处理。
time_series_leaderboard_mode¶
Control the automatic time-series leaderboard mode (String)
默认值 'diverse'
‘diverse’: 探索使用各种专家设置构建的各种模型集。注意,您可以在表现最好的模型之上重新运行另一个不同的排行榜,这将有效地帮助您构建这些专家设置。’sliding_window’:如果 Forecast Horizon 为 N 时段,以时段为单位为 “每个 (gap, horizon) 对 (0,n), (n,n), (2*n,n), …, (2*N-1, n) 创建一个独立模型。” 每个模型的预测时段数 n 由专家设置 ‘time_series_leaderboard_periods_per_model’ 控制,默认值为 1。这有助于提高短期预测的质量。
time_series_leaderboard_periods_per_model¶
Number of periods per model if time_series_leaderboard_mode is ‘sliding_window’. (Number)
默认值 1
微调控制,以限制 ‘sliding_window’ 模式中内置的模型数量。值越大,模型越少。
time_series_merge_splits¶
Larger validation splits for lag-based recipe (Boolean)
默认值 True
是否创建不局限于 Forecast Horizon 长度的更大验证拆分。
merge_splits_max_valid_ratio¶
Maximum ratio of training data samples used for validation (-1 = auto) (Float)
默认值 -1.0
创建更大的验证拆分时,用于跨多个拆分验证的训练数据样本的最大比例。
fixed_size_train_timespan¶
Fixed-size train timespan across splits (Boolean)
默认值 False
- 是否使基于时间的拆分保持固定大小的训练时间间隔。
这就导致了每次分割中产生的训练样本数量大致相同。
time_series_validation_fold_split_datetime_boundaries¶
Custom validation splits for time-series experiments (String)
默认值 ''
提供日期或日期时间时间戳(格式与时间列相同)用于自定义训练和验证分割,如下:”tr_start1, tr_end1, va_start1, va_end1, …, tr_startN, tr_endN, va_startN, va_endN”
time_series_validation_splits¶
Number of time-based splits for internal model validation (-1 = auto) (Number)
默认值 -1
为内部模型验证设置固定数量的时间分割(允许的实际分割数量可能会更少,具体在实验运行时确定)。
time_series_splits_max_overlap¶
Maximum overlap between two time-based splits. (Float)
默认值 0.5
两个时间分割之间的最大重叠:值越高,可能的分割数量就越多。
holiday_features¶
Generate holiday features (Boolean)
默认值 True
从日期列自动生成假日特征
holiday_countries¶
Country code(s) for holiday features (List)
默认值 ['UnitedStates', 'UnitedKingdom', 'EuropeanCentralBank', 'Germany', 'Mexico', 'Japan']
要为其查找假日日历和生成假日特征的国家/地区的列表
sample_lag_sizes¶
Whether to sample lag sizes (Boolean)
默认值 False
若启用,对于每个基于滞后的转换器,从一组可能的滞后大小(例如 lags=[1, 4, 8])中取样,不超过 max_sampled_lag_sizes 滞后。可以帮助降低模型整体的复杂性和大小。
max_sampled_lag_sizes¶
Number of sampled lag sizes. -1 for auto. (Number)
默认值 -1
若启用了 sample_lag_sizes,对于每个基于滞后的转换器,从一组可能的滞后大小(例如 lags=[1, 4, 8])中取样,不超过 max_sampled_lag_sizes 滞后。可以帮助降低模型整体的复杂性和大小。默认设置为 -1(自动),这种情况下,它与 max_feature_interaction_depth 控制的特征交互深度相同。
override_lag_sizes¶
Time-series lags override, e.g. [7, 14, 21] (List)
默认值 []
覆盖要使用的滞后,例如 [7, 14, 21] # 此确切列表,例如 21 # 从 1 到 21 生成 例如 21:3 在步骤 3 中从 1 到 21 生成 例如 5-21 从 5 到 21 生成 例如 5-21:3 在步骤 3 中从 5 到 21 生成
override_ufapt_lag_sizes¶
Lags override for features that are not known ahead of time (List)
默认值 []
覆盖要用于未提前知晓的特征的滞后,例如 [7, 14, 21] # 此确切列表,例如 21 # 从 1 到 21 生成 例如 21:3 在步骤 3 中从 1 到 21 生成 例如 5-21 从 5 到 21 生成 例如 5-21:3 在步骤 3 中从 5 到 21 生成
override_non_ufapt_lag_sizes¶
Lags override for features that are known ahead of time (List)
默认值 []
覆盖要用于提前知晓的特征的滞后,例如 [7, 14, 21] # 此确切列表,例如 21 # 从 1 到 21 生成 例如 21:3 在步骤 3 中从 1 到 21 生成 例如 5-21 从 5 到 21 生成 例如 5-21:3 在步骤 3 中从 5 到 21 生成
min_lag_size¶
Smallest considered lag size (-1 = auto) (Number)
默认值 -1
最小考虑滞后大小
allow_time_column_as_feature¶
Enable feature engineering from time column (Boolean)
默认值 True
是否根据所选时间列(如 Date~weekday)启用特征工程。
allow_time_column_as_numeric_feature¶
Allow integer time column as numeric feature (Boolean)
默认值 False
是否启用整数时间列作为数字特征。如果使用 Time Series 插件,将时间列(数字时间戳)用作输入特征会导致模型存储实际时间戳而非在未来可泛化的特征。
datetime_funcs¶
Allowed date and date-time transformations (List)
默认值 ['year', 'quarter', 'month', 'week', 'weekday', 'day', 'dayofyear', 'hour', 'minute', 'second']
- 允许的日期或日期时间转换。
日期转换器包括:年、季、月、周、星期名称、日、一年中的某天、数字。日期转换器还包括:小时、分钟、秒。特征在 DAI 中显示为 get_ + 转换器名称。例如,数字是一个表示时间浮点值的直接数值,如果用于 IID 问题,可能导致过拟合。因此此设置默认关闭。
filter_datetime_funcs¶
Auto filtering of date and date-time transformations (Boolean)
默认值 True
指定是否过滤掉会在未来产生不可见值的日期和日期时间转换。
allow_tgc_as_features¶
Consider time groups columns as standalone features (Boolean)
默认值 False
- 是否将时间分组列 (tgc) 视为独立特征。
注意,’time_column’ 通过 ‘Allow to engineer features from time column’ 单独进行处理。将 allowed_coltypes_for_tgc_as_features 用于每个特征类型的控制。
allowed_coltypes_for_tgc_as_features¶
Which tgc feature types to consider as standalone features (List)
默认值 ['numeric', 'categorical', 'ohe_categorical', 'datetime', 'date', 'text']
如果对应的标志 “Consider time groups columns as standalone features” 设置为 true,则将哪些时间分组列 (tgc) 特征类型视为独立特征。例如所有列类型将是 [“numeric”, “categorical”, “ohe_categorical”, “datetime”, “date”, “text”] 注意,’time_column’ 通过 ‘Allow to engineer features from time column’ 单独进行处理。注意,如果禁用了基于滞后的 Time Series 插件,则所有 tgc 都是允许的特征。
enable_time_unaware_transformers¶
Enable time unaware transformers (String)
默认值 'auto'
是否启用各种转换器(聚类、Truncated SVD),对于 Time Series,由于在每个折叠的拟合范围内可能随时间泄露而发生过度拟合,因此会禁用此选项。
tgc_only_use_all_groups¶
Always group by all time groups columns for creating lag features (Boolean)
默认值 True
是否对用于创建滞后特征而非进行采样的所有时间分组列进行分组。
tgc_allow_target_encoding¶
Target encoding of time groups (Boolean)
默认值 False
是否允许对时间分组进行目标编码。如果有很多分组,此设置可能很有用
time_series_holdout_preds¶
Generate Time-Series Holdout Predictions (Boolean)
默认值 True
- 启用使用移动窗口根据训练数据
创建保持预测(对 MLI 有用,但速度可能较慢)
time_series_max_holdout_splits¶
Maximum number of splits used for creating final time-series model’s holdout predictions (Number)
默认值 -1
用于创建最终 Time Series 模型的保持/回测预测的最大拆分段数量。使用默认值 ‘-1’ 时,会使用在模型验证过程中使用的拆分数量。使用 ‘time_series_validation_splits’ 控制用于模型验证的时间拆分数量。
mli_ts_fast_approx¶
Whether to speed up calculation of Time-Series Holdout Predictions (Boolean)
默认值 False
是否加快对训练数据回测的 Time Series 保持预测(用于 MLI 和指标计算)。可能准确度略低。
mli_ts_fast_approx_contribs¶
Whether to speed up calculation of Shapley values for Time-Series Holdout Predictions (Boolean)
默认值 True
是否加快对训练数据回测的 Shapley 值 Time Series 保持预测(用于 MLI)。可能准确度略低。
mli_ts_holdout_contribs¶
Generate Shapley values for Time-Series Holdout Predictions at the time of experiment (Boolean)
默认值 True
- 在进行实验时,启用使用移动窗口根据训练数据
创建保持预测的 Shapley 值(对 MLI 有用,但可能速度较慢)。若禁用,MLI 将按需生成 Shapley 值。
time_series_min_interpretability¶
Lower limit on interpretability setting for time-series experiments, implicitly enforced. (Number)
默认值 5
值为 5 或更高时,可以通过更积极地丢弃重要性最低的特征来改善泛化。设置为 1 表示禁用。
lags_dropout¶
Dropout mode for lag features (String)
默认值 'dependent'
滞后特征的丢弃模式,用于达到训练与验证/测试之间相等的 NA 比。独立模式将执行简单的特征丢弃,而依赖模式将对每个样本/行考虑滞后阶数的依赖性。
prob_lag_non_targets¶
Probability to create non-target lag features (-1.0 = auto) (Float)
默认值 -1.0
选择相对于目标滞后非目标的归一化概率(-1.0 = 自动)
rolling_test_method¶
Method to create rolling test set predictions (String)
默认值 'tta'
在 Forecast Horizon 小于测试集的时间跨度的情况下,创建滚动测试集预测的方法。可以选择 Test Time Augmentation (TTA) 或最终管道连续重新拟合。
fast_tta_internal¶
Fast TTA for internal validation (feature evolution and holdout predictions) (Boolean)
默认值 True
应用一次 TTA,而不是使用滚动窗口进行内部验证分割预测。
fast_tta_test¶
Fast TTA for test set predictions (Boolean)
默认值 True
应用一次 TTA,而不是使用滚动窗口进行测试集预测。
prob_default_lags¶
Probability for new time-series transformers to use default lags (-1.0 = auto) (Float)
默认值 -1.0
新的滞后/EWMA 基因使用默认滞后的概率(由频率/间隔/范围决定,与数据无关)(-1.0 = 自动)
prob_lagsinteraction¶
Probability of exploring interaction-based lag transformers (-1.0 = auto) (Float)
默认值 -1.0
基于交互作用选择其他滞后 Time Series 转换器的非归一化概率(-1.0 = 自动)
prob_lagsaggregates¶
Probability of exploring aggregation-based lag transformers (-1.0 = auto) (Float)
默认值 -1.0
基于聚合作用选择其他滞后 Time Series 转换器的非归一化概率(-1.0 = 自动)
ts_target_trafo¶
Time series centering or detrending transformation (String)
默认值 'none'
Time Series 居中或趋势分离转换。拟合趋势模型的自由参数,从目标信号中移除趋势,并在残差上拟合管道。预测是通过加回趋势来实现的。稳健的居中或线性趋势分离变体使用 RANSAC 实现有关 Outliers 的更高公差。Epidemic 目标转换器使用 SEIR 模型:https://en.wikipedia.org/wiki/Compartmental_models_in_epidemiology#The_SEIR_model
ts_target_trafo_epidemic_params_dict¶
Custom bounds for SEIRD epidemic model parameters (Dict)
默认值 {}
用于控制 Epidemic SEIRD 模型,以对每个 Time Series 分组的目标执行趋势分离的字典。注意:目标列必须对应于 I(t)(即将感染病例数表示为时间的函数)。
对于每个训练拆分段和 Time Series 分组,SEIRD 模型拟合到目标信号(通过优化下方显示的针对各个 Time Series 分组的自由参数)。
然后,从训练响应中减去 SEIRD 模型的值,将残差传递给特征工程和建模管道。为了进行预测,对于每个 Time Series 分组,将 SEIRD 模型的值添加到管道的残差预测中。
注意:想要取得良好的结果,谨慎选择自由参数 N、beta、gamma、delta、alpha、rho、lockdown、beta_decay、beta_decay_rate 的范围是非常重要的。
S(t):易感染/健康/非免疫
E(t):已暴露/尚无感染性
I(t):有感染性/活动 <= 目标列
R(t):已恢复/免疫
D(t):已故
### 自由参数:- N:总人数,N=S+E+I+R+D - beta:暴露率 (S -> E) - gamma:恢复率 (I -> R) - delta:潜伏期 - alpha:致死率 - rho:死亡率 - lockdown:封锁天数(-1 => 不封锁)- beta_decay:因封锁产生的 Beta 衰减 - beta_decay_rate:beta 衰减的速度
### Dynamics:如果 lockdown >= 0:
beta_min = beta * (1 - beta_decay) beta = (beta - beta_min) / (1 + np.exp(-beta_decay_rate * (-t + lockdown))) + beta_min
dSdt = -beta * S * I / N dEdt = beta * S * I / N - delta * E dIdt = delta * E - (1 - alpha) * gamma * I - alpha * rho * I dRdt = (1 - alpha) * gamma * I dDdt = alpha * rho * I
提供您想控制的每个参数的上限或下限。有效参数有:N_min、N_max、beta_min、beta_max、gamma_min、gamma_max、delta_min、delta_max、alpha_min、alpha_max、rho_min、rho_max、lockdown_min、lockdown_max、beta_decay_min、beta_decay_max、beta_decay_rate_min、beta_decay_rate_max。您可以更改参数的任何子集。例如 ts_target_trafo_epidemic_params_dict=”{‘N_min’: 1000, ‘beta_max’: 0.2}”
要获取 SEIR 模型(若死亡率极低,此模型可以显著提高计算速度),需设置 alpha_min=alpha_max=rho_min=rho_max=beta_decay_rate_min=beta_decay_rate_max=0, lockdown_min=lockdown_max=-1.
ts_target_trafo_epidemic_target¶
Which SEIRD model component the target column corresponds to: I: Infected, R: Recovered, D: Deceased. (String)
默认值 'I'
ts_lag_target_trafo¶
Time series lag-based target transformation (String)
默认值 'none'
基于 Time Series 滞后的目标转换。可以选择当前和滞后目标之间的差异和比率。相应的滞后大小可以通过 ‘Target transformation lag size’ 来设置。
ts_target_trafo_lag_size¶
Lag size used for time series target transformation (Number)
默认值 -1
用于 Time Series 目标转换的滞后大小。请参阅设置 ‘Time series target transformation’。
timeseries_split_suggestion_timeout¶
Timeout in seconds for time-series properties detection in UI. (Float)
默认值 30.0
UI 中 Time Series 属性检测的超时时间(单位为秒)。