Mli 配置¶
h2o_mli_nthreads¶
h2o_mli_nthreads (Number)
默认值 8
H2O 实例供 MLI 使用的线程数。
mli_sample_above_for_scoring¶
mli_sample_above_for_scoring (Number)
默认值 1000000
当行数超过此限制时,对 MLI 进行采样以对 UI 数据进行评分。
mli_sample_above_for_training¶
mli_sample_above_for_training (Number)
默认值 100000
当行数超过此限制时,对 MLI 进行采样以对替代模型进行训练。
mli_interpreter_status_cache_size¶
mli_interpreter_status_cache_size (Number)
默认值 1000
解释器状态缓存条目的最大数量。
mli_sample_training¶
mli_sample_training (Boolean)
默认值 True
not only sample training, but also sample scoring.
mli_strict_version_check¶
mli_strict_version_check (Boolean)
默认值 True
MLI 的严格版本检查
mli_cloud_name¶
mli_cloud_name (String)
默认值 'H2O-MLI-DAI'
MLI 云名称
mli_ice_per_bin_strategy¶
mli_ice_per_bin_strategy (Boolean)
默认值 False
使用每个特征的分箱预测 (true) 或使用 “一帧” 策略 (false) 计算原始模型 ICE。
mli_dia_default_max_cardinality¶
mli_dia_default_max_cardinality (Number)
默认值 10
默认对分类列运行 DIA,且基数 <= mli_dia_default_max_cardinality。
mli_dia_default_min_cardinality¶
mli_dia_default_min_cardinality (Number)
默认值 2
默认对分类列运行 DIA,且基数 >= mli_dia_default_min_cardinality。
enable_mli_keeper¶
enable_mli_keeper (Boolean)
默认值 True
启用 MLI 保留程序,确保 MLI 高效使用 filesystem/memory/DB。
enable_mli_sa¶
enable_mli_sa (Boolean)
默认值 True
启用 MLI Sensitivity Analysis
enable_mli_priority_queues¶
enable_mli_priority_queues (Boolean)
默认值 True
启用基于优先级队列的解释器执行。优先级队列限制可用的系统资源,防止系统过度使用。解释执行时间可能会(显著)变长。
mli_sequential_task_execution¶
mli_sequential_task_execution (Boolean)
默认值 True
解释器默认按顺序运行。此选项可用于并行运行所有解释器,根据硬件强度和解释器数量,这可减少解释时间。考虑解释器依赖关系、随机解释器顺序和硬件过度利用。
mli_dia_sample_size¶
Sample size for Disparate Impact Analysis (Number)
默认值 100000
当行数超过此限制时,进行采样,用于 Disparate Impact Analysis。
mli_pd_sample_size¶
Sample size for Partial Dependence Plot (Number)
默认值 25000
当行数超过此限制时,进行采样,用于部分依赖性图。
mli_pd_numcat_num_chart¶
Unique feature values count driven Partial Dependence Plot binning and chart selection (Boolean)
默认值 True
若实验中将特征同时用作数值型和分类型特征,则在部分依赖性图数值和分类分箱和 UI 图表选择之间进行动态切换。
mli_pd_numcat_threshold¶
Threshold for Partial Dependence Plot binning and chart selection (<=threshold categorical, >threshold numeric) (Number)
默认值 11
如果启用了 ‘mli_pd_numcat_num_chart’,当特征唯一值计数大于阈值时,使用数值分箱和图表,否则使用分类分箱和图表。
new_mli_list_only_explainable_datasets¶
new_mli_list_only_explainable_datasets (Boolean)
默认值 False
在“新解释”画面中,仅显示可用于解释选定模型的数据集。这会显著降低服务器的速度。
enable_mli_async_api¶
enable_mli_async_api (Boolean)
默认值 True
启用基于异步/等待的非阻塞 MLI API
enable_mli_sa_main_chart_aggregator¶
enable_mli_sa_main_chart_aggregator (Boolean)
默认值 True
在 Sensitivity Analysis 中启用主图表聚合器
mli_sa_sampling_limit¶
Sample size for SA (Number)
默认值 500000
何时为 Sensitivity Analysis 采样(采样后的行数)。
mli_sa_main_chart_aggregator_limit¶
mli_sa_main_chart_aggregator_limit (Number)
默认值 1000
当数据集实例数量大于给定限制时,在 Sensitivity Analysis 中运行主图表聚合器。
mli_predict_safe¶
mli_predict_safe (Boolean)
默认值 False
在 MLI(PD、ICE、SA…)中使用 predict_safe() (true) 或 predict_base() (false)。
mli_max_surrogate_retries¶
mli_max_surrogate_retries (Number)
默认值 5
替代模型构建失败时的最大重试次数。
enable_mli_symlinks¶
enable_mli_symlinks (Boolean)
默认值 True
允许由 MLI 解释器程序使用符号链接(而非文件复制)。
h2o_mli_fraction_memory¶
h2o_mli_fraction_memory (Float)
默认值 0.45
分配给 h2o MLI jar 的内存份额
excluded_mli_explainers¶
Exclude specific explainers by explainer ID (List)
默认值 []
例如,要排除 Sensitivity Analysis 分析解释器,使用:excluded_mli_explainers=[‘h2oaicore.mli.byor.recipes.sa_explainer.SaExplainer’]。
enable_ws_perfmon¶
enable_ws_perfmon (Boolean)
默认值 False
启用 RPC API 性能监控器。
mli_kernel_explainer_workers¶
mli_kernel_explainer_workers (Number)
默认值 4
在内核解释器中使用 MOJO 进行评分时并行工作节点的数量。
mli_run_kernel_explainer¶
Use Kernel Explainer to obtain Shapley values for original features (Boolean)
默认值 False
使用内核解释器获取原始特征的 Shapley 值。
mli_kernel_explainer_sample¶
Sample input dataset for Kernel Explainer (Boolean)
默认值 True
内核解释器的样本输入数据集。
mli_kernel_explainer_sample_size¶
Sample size for input dataset passed to Kernel Explainer (Number)
默认值 1000
传递到内核解释器的输入数据集的样本大小。
mli_kernel_explainer_nsamples¶
Number of times to re-evaluate the model when explaining each prediction with Kernel Explainer. Default is determined internally (String)
默认值 'auto'
‘auto’ 或 int。解释各个预测时重新评估模型的次数。样本越多,SHAP 值的方差估值越低。’auto’ 设置使用 nsamples = 2 * X.shape[1] + 2048。此设置默认禁用,DAI 内部确定合适的数量。
mli_kernel_explainer_l1_reg¶
L1 regularization for Kernel Explainer (String)
默认值 'aic'
‘num_features(int)’、’auto’(目前为默认值,但已弃用)、’aic’、’bic’ 或浮点值。用于特征选择的 l1 正则化(估计程序基于去偏差的套索)。目前当被枚举的可能样本空间少于 20% 时,’auto’ 选项使用 aic,否则它不使用正则化。’auto’ 的行为将在未来的版本中改变,届时将基于 ‘num_features’ 而不是AIC。aic 和 bic 选项使用 AIC 和 BIC 规则进行正则化。使用 ‘num_features(int)’ 选择固定数量的顶部特征。传递浮点值会直接设置用于特征选择的 sklearn.linear_model.Lasso 模型的 alpha 参数。
mli_kernel_explainer_max_runtime¶
Max runtime for Kernel Explainer in seconds (Number)
默认值 900
内核解释器的最大运行时间(秒)。默认值 900,相当于 15 分钟。将此参数设置为 -1 即表示无论最大运行时间是多少,都以提供的内核 Shapley 样本大小为准。
mli_nlp_tokenizer¶
mli_nlp_tokenizer (String)
默认值 'tfidf'
用于从 MLI 的文本列中提取令牌的令牌器。
mli_image_enable¶
mli_image_enable (Boolean)
默认值 True
启用 MLI 进行图像实验。