跳到主要内容

偏最小二乘法回归(PLSRegression)使用文档

组件名称偏最小二乘法回归(PLSRegression)
工具集机器学习
组件作者雪浪云-墨文
文档版本1.0
功能偏最小二乘法回归(PLSRegression)算法
镜像名称ml_components:3
开发语言Python

组件原理

偏最小二乘回归(英语:Partial least squares regression, PLS回归)是一种统计学方法,与主成分回归有关系,但不是寻找响应变量和自变量之间最大方差的超平面,而是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。因为数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型(bilinear fator models)。当Y是分类数据时称为“偏最小二乘判别分析(英语:Partial least squares Discriminant Analysis, PLS-DA)”。

偏最小二乘用于查找两个矩阵(X和Y)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。相比之下,标准的回归在这些情况下不见效(除非它是Tikhonov正则化)。

偏最小二乘算法被用在偏最小二乘路径建模中,一个建立隐变量(原因不能没有实验和拟实验来确定,但一个典型的模型会基于之前理论假设(隐变量影响衡量指标的表现)的隐变量模型)这种技术是结构方程模型的一种形式,与经典方法不同的是基于组件而不是基于协方差。

偏最小二乘法是集主成分分析、典型相关分析和多元线性回归分析3种分析方法的优点于一身。它与主成分分析法都试图提取出反映数据变异的最大信息,但主成分分析法只考虑一个自变量矩阵,而偏最小二乘法还有一个“响应”矩阵,因此具有预测功能。

输入桩

支持单个csv文件输入。

输入端子1

  • 端口名称:训练数据
  • 输入类型:Csv文件
  • 功能描述: 输入用于训练的数据

输出桩

支持sklearn模型输出。

输出端子1

  • 端口名称:输出模型
  • 输出类型:sklearn模型
  • 功能描述: 输出训练好的模型用于预测

参数配置

N Components

  • 功能描述:正则化强度;必须是正浮点数
  • 必选参数:是
  • 默认值:2

缩放数据

  • 功能描述:是否对数据进行缩放
  • 必选参数:是
  • 默认值:true

最大迭代次数

  • 功能描述:模型训练时的最大迭代次数
  • 必选参数:是
  • 默认值:500

容差

  • 功能描述:迭代算法中使用的容差
  • 必选参数:是
  • 默认值:0.000001

需要训练

  • 功能描述:该模型是否需要训练,默认为需要训练。
  • 必选参数:是
  • 默认值:true

特征字段

  • 功能描述:特征字段
  • 必选参数:是
  • 默认值:(无)

识别字段

  • 功能描述:识别字段
  • 必选参数:是
  • 默认值:(无)

使用方法

  • 将组件拖入到项目中
  • 与前一个组件输出的端口连接(必须是csv类型)
  • 点击运行该节点