Driverless AI 中的集成学习¶
本节介绍 Driverless AI 的集成学习能力。
集成方法¶
集成方法是带有非负权重的线性模型。权重根据模型级别而非折叠级别进行分配。例如,如果将 2 个模型(一个 LightGBM 模型和一个 XGBoost 模型)集成在一起,则线性模型将分别为所有 LightGBM CV 模和所有 XGBoost CV 模型分配权重。当 Driverless AI 集成单个模型(级别 1)时,由于将根据模型级别分配权重,因此将对 CV 模型预测结果取平均值。
集成级别¶
Driverless AI 有多个集成级别,均与准确度旋钮关联。随着准确度提高,集成级别也会随之提高。
还可使用专家设置面板中模型设置部分的 Ensemble Level for Final Modeling Pipeline 来控制集成级别。以下是每个集成级别的说明:
级别 0:没有集成,只有单个的最终模型。交叉验证仅用于确定模型验证性能。最终模型将基于整个数据集进行训练。
级别 1:对 1 个模型执行交叉验证,并集成 CV 模型的预测结果。
级别 2:对 2 个模型执行交叉验证,并集成 CV 模型的预测结果。例如,Driverless AI 可能会选择集成一个 XGBoost 模型和一个 LightGBM 模型:混合来自于交叉验证 XGBoost 模型和交叉验证 Light GBM 模型的预测结果,从而实现集成。如果 Driverless AI 决定进行 5 折交叉验证,则将集成 10 个模型(XGBoost 模型中的 5 个 CV 模型和 LightGBM 模型中的 5 个 CV 模型)。
级别 3:与级别 2 相同,但是有 3 个模型。
级别 4:与级别 2 相同,但是有 4 个模型。
请注意:
可在 集成基本模型折叠评分 项下的实验日志中获取关于最终模型集成的说明。
您可以使用 Ensemble Level for Final Modeling Pipeline 设置在专家设置面板中手动设置集成级别。