带交叉验证的岭分类（RidgeClassifier）使用文档

组件名称	带交叉验证的岭分类（RidgeClassifier）
工具集	机器学习
组件作者	雪浪云-墨文
文档版本	1.0
功能	带交叉验证的岭分类（RidgeClassifier）算法
镜像名称	ml_components:3
开发语言	Python

组件原理

交叉验证，有的时候也称作循环估计（Rotation Estimation），是一种统计学上将数据样本切割成较小子集的实用方法，该理论是由Seymour Geisser提出的。在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。这个过程一直进行，直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和，称为PRESS(predicted Error Sum of Squares)。

交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set)，另一部分做为验证集(validation set or test set)。首先用训练集对分类器进行训练，再利用验证集来测试训练得到的模型(model)，以此来做为评价分类器的性能指标。

岭估计(Ridge estimate)是由Hoerl和Kennard于1970年提出的[Hoerl&Kennard1970]。自1970年以来，这种估计的研究和应用得到广泛重视，成为目前最有影响的一种有偏估计

岭分类的名字来源于模型的解与正则化参数λ之间的图像。

它的性质如下：

比较重要的是性质3和4。

输入桩

支持单个csv文件输入。

输入端子1

端口名称：训练数据
输入类型：Csv文件
功能描述：输入用于训练的数据

输出桩

支持sklearn模型输出。

输出端子1

端口名称：输出模型
输出类型：sklearn模型
功能描述：输出训练好的模型用于预测

参数配置

正则化强度数组

功能描述：正则化强度数组；必须是正浮点数
必选参数：是
默认值：0.1，1.0，10.0

计算截距

功能描述：是否计算模型截距
必选参数：是
默认值：true

归一化

功能描述：是否对数据进行归一化处理，该参数在Fit Intercept参数设为False时会被忽略
必选参数：是
默认值：false

最大迭代次数

功能描述：模型训练时的最大迭代次数
必选参数：是
默认值：100

交叉验证拆分数量

功能描述：交叉验证拆分数量
必选参数：是
默认值：3

求解器

功能描述：选择模型的求解器
必选参数：是
默认值：auto

Random State

功能描述：当求解器为"sag"或者"saga"时，用来打乱数据
必选参数：否
默认值：（无）

需要训练

功能描述：该模型是否需要训练，默认为需要训练。
必选参数：是
默认值：true

特征字段

功能描述：特征字段
必选参数：是
默认值：（无）

识别字段

功能描述：识别字段
必选参数：是
默认值：（无）

使用方法

将组件拖入到项目中
与前一个组件输出的端口连接（必须是csv类型）
点击运行该节点

带交叉验证的岭分类（RidgeClassifier）使用文档

组件原理​

输入桩​

输入端子1​

输出桩​

输出端子1​

参数配置​

正则化强度数组​

计算截距​

归一化​

最大迭代次数​

交叉验证拆分数量​

求解器​

Random State​

需要训练​

特征字段​

识别字段​

使用方法​