跳到主要内容

通用机器学习

  • 数据多维分析组件总体介绍文档

语雀内容

  • 组件页面总共分为5个,按照顺序分别是数据概览以及标签列选择、特征列选择、特征工程、模型选择以及模型校验展示页面,下面按次序分别说明页面中各个选项含义以及用法。
  • 数据概览以及标签列选择页面
    • 页面如下图所示,大致分为3部分

image.png

  - 第一部分为页面流程,显示当前是整个流程中的哪一步
- 第二部分为标签列选择的下拉框,用以选择用来预测的标签列
- 第三部分为输入数据的概览,包含了当前所有的列
  • 当选择了标签列后,会默认根据标签列中的数据判断当前的预测问题是分类还是回归
    • 若判断为回归:则会展示标签列中数据的区间分布,如下图所示

image.png

  - 若判断为分类:则会展示标签列中各个类别的频率直方图;同时增加了类别权重以及代价矩阵输入按钮,如下图所示

image.png

     - 输入代价矩阵:用于确定分类问题训练时的代价矩阵,可以不输入

image.png

     - 输入类别权重:用于确定分类问题训练时每一个类别的权重,可以不设置,默认所有类别权重为1

image.png

  • 特征列选择页面
    • 页面如下图所示:

image.png

  • 此页面中,展示了除了标签列以外的所有数据列的详细信息,包含了与标签列的相关系数、不同取值占比、最多取值占比、缺失值占比,点击选择符合要求的列,进入下一步。
    • 相关系数:与标签列的相关性系数,系数越大,说明该列与标签列相关性越高。
    • 不同取值占比:该列中所有不同的取值数量占总数的比值,比值越大,则说明数据不同的取值越多,若该列为字符串类型的话,例如姓名,则该列对后续训练、预测没有什么用户,可以丢弃。
    • 最多取值占比:该列中数量最多的某个取值的数量占总数的比值,比值越大,则说明数据越倾向于同一个值,则该列对后续训练、预测没有什么用户,可以丢弃。
    • 缺失值占比:该列中所有缺失值数量占总数的比值,比值越大,说明缺失的数据越多,如果超过一定限额,则该列失去了实际的意义,可以丢弃。
  • 特征工程页面
    • 页面如下图所示:

image.png

  • 模型选择页面
  • 模型校验与展示页面