带交叉验证的岭回归（RidgeCV）使用文档

组件名称	带交叉验证的岭回归（RidgeCV）
工具集	机器学习/回归/带交叉验证的岭回归（RidgeCV）
组件作者	雪浪云-燕青
文档版本	1.0
功能	带交叉验证的岭回归（RidgeCV）算法
镜像名称	ml_components:3
开发语言	Python

组件原理

交叉验证，有的时候也称作循环估计（Rotation Estimation），是一种统计学上将数据样本切割成较小子集的实用方法，该理论是由Seymour Geisser提出的。在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。这个过程一直进行，直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和，称为PRESS(predicted Error Sum of Squares)。

交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set)，另一部分做为验证集(validation set or test set)。首先用训练集对分类器进行训练，再利用验证集来测试训练得到的模型(model)，以此来做为评价分类器的性能指标。

岭估计(Ridge estimate)是由Hoerl和Kennard于1970年提出的[Hoerl&Kennard1970]。自1970年以来，这种估计的研究和应用得到广泛重视，成为目前最有影响的一种有偏估计

岭回归又称脊回归，它的名字来源于模型的解与正则化参数λ之间的图像。

岭回归的性质如下：

比较重要的是性质3和4，性质3导致在岭回归中结果向中间靠拢，偏高和偏低的比较少；性质4是证明岭回归优于线性回归。

输入桩

支持单个csv文件输入。

输入端子1

端口名称：训练数据
输入类型：Csv文件
功能描述：输入用于训练的数据

输出桩

支持sklearn模型输出。

输出端子1

端口名称：输出模型
输出类型：sklearn模型
功能描述：输出训练好的模型用于预测

参数配置

正则化强度数组

功能描述：正则化强度，必须是正浮点数；输入时采用英文逗号分隔
必选参数：是
默认值：1.0，1.0

计算截距

功能描述：是否计算模型截距
必选参数：是
默认值：true

归一化

功能描述：是否对数据进行归一化处理，该参数在Fit Intercept参数设为False时会被忽略
必选参数：否
默认值：false

交叉验证拆分数

功能描述：交叉验证将数据集拆分的数量
必选参数：是
默认值：cv

GCV模式

功能描述：执行通用交叉验证时使用哪种策略
必选参数：是
默认值：auto

保存交叉验证的值

功能描述：保存交叉验证的值
必选参数：是
默认值：false

需要训练

功能描述：该模型是否需要训练，默认为需要训练。
必选参数：是
默认值：true

特征字段

功能描述：特征字段
必选参数：是
默认值：（无）

识别字段

功能描述：识别字段
必选参数：是
默认值：（无）

使用方法

将组件拖入到项目中
与前一个组件输出的端口连接（必须是csv类型）
点击运行该节点

测试用例

模板
右面板配置
查看结果

带交叉验证的岭回归（RidgeCV）使用文档

组件原理​

输入桩​

输入端子1​

输出桩​

输出端子1​

参数配置​

正则化强度数组​

计算截距​

归一化​

交叉验证拆分数​

GCV模式​

保存交叉验证的值​

需要训练​

特征字段​

识别字段​

使用方法​

测试用例​