跳到主要内容

分类评估

#分类评估使用文档 | 组件名称 |分类评估| | | | --- | --- | --- | --- | | 工具集 | 机器学习 | | | | 组件作者 | 雪浪云-墨文 | | | | 文档版本 | 1.0 | | | | 功能 |分类评估算法| | | | 镜像名称 | ml_components:3 | | | | 开发语言 | Python | | |

组件原理

现实任务中往往会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估并作出选择。通常将包含m个样本的数据集D={(x1,y1),(x2,y2),...,(xm,ym)}拆分成训练集S和测试集T。

留出法:直接将数据集划分为两个互斥集合,训练/测试集划分要尽可能保持数据分布的一致性,一般若干次随机划分、重复实验取平均值。

交叉验证法:将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k最常用的取值是10。

与留出法类似,将数据集D划分为k个子集同样存在多种划分方式,为了减小因样本划分不同而引入的差别,k折交叉验证通常随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的“10次10折交叉验证”。

输入桩

支持单个csv文件输入。

输入端子1

  • 端口名称:预测后数据
  • 输入类型:Csv文件
  • 功能描述: 输入预测后的数据

输出桩

支持json文件输出。

输出端子1

  • 端口名称:评估结果
  • 输出类型:json文件
  • 功能描述: 输出评估的结果

参数配置

评估指标

  • 功能描述:选择分类评估的指标,有以下指标可以选择:f1_score、accuracy_score、precision_score、recall_score、hamming_loss、zero_one_loss、jaccard_score、balanced_accuracy_score、log_loss、sohen_kappa_score、matthews_corrcoef
  • 必选参数:是
  • 默认值:f1_score

标签列

  • 功能描述:标签列
  • 必选参数:是
  • 默认值:(无)

预测列

  • 功能描述:预测列
  • 必选参数:是
  • 默认值:(无)

使用方法

  • 将组件拖入到项目中
  • 与前一个组件输出的端口连接(必须是csv类型)
  • 点击运行该节点