跳到主要内容

鲁棒归一化(RobustScaler)

组件名称鲁棒归一化(RobustScaler)
工具集机器学习/特征/特征转换/鲁棒归一化(RobustScaler)
组件作者雪浪云-燕青
文档版本1.0
功能鲁棒归一化(RobustScaler)算法
镜像名称ml_components:3
开发语言Python

组件原理

使用统计数据进行缩放功能,这些统计数据对异常值具有很强的鲁棒性。

这个Scaler移除中位数,并根据分位数范围缩放数据(默认为IQR:Interquartile范围)。IQR是第一个四分位数(第25个分位数)和第三个四分位数(第75分位数)之间的范围。

通过计算训练集中样本的相关统计量,对每个特征分别进行中心化和缩放。然后将中间值和四分位数范围存储到以后的数据上,使用transform方法。

数据集的标准化是许多机器学习估计器的共同要求。通常,这是通过删除均值和缩放到单位方差来完成的。然而,异常值通常会以负值的方式影响样本的均值/方差。在这种情况下,中间值和四分位数的范围通常会得到更好的结果。

组件

  • 组件图

输入桩

支持单个csv文件输入。

输入端子1

  • 端口名称: 训练数据
  • 输出类型: Csv文件
  • 功能描述: 输入用于训练的数据

输出桩

支持Csv文件输出。

输出端子1

  • 端口名称: 输出数据
  • 输出类型: Csv文件
  • 功能描述: 输出处理后的结果数据

输出端子2

  • 端口名称: 输出模型
  • 输出类型: sklearn文件
  • 功能描述: 输出训练后的模型

参数配置

数据集中

  • 功能描述: 是否在数据缩放前,将数据进行集中
  • 必选参数:
  • 默认值: true

数据缩放

  • 功能描述: 是否将数据缩放到四分位范围
  • 必选参数:
  • 默认值: true

分位数下限

  • 功能描述: 分位数下限
  • 必选参数:
  • 默认值: 25

分位数上限

  • 功能描述: 分位数上限
  • 必选参数:
  • 默认值: 75

目标字段

  • 功能描述: 目标字段
  • 必选参数:
  • 默认值: (无)

使用方法

  • 加组件拖入到项目中
  • 与前一个组件输出的端口连接(必须是csv类型)
  • 点击运行该节点

测试用例

模板

右面板配置

  • 参数设置:

  • 字段设置:

输入的数据:

输出的结果:

  • 输出数据:

  • 输出模型: