跳到主要内容

MiniBatchK均值聚类(MiniBatchKMeans)使用文档

组件名称MiniBatchK均值聚类(MiniBatchKMeans)
工具集机器学习
组件作者雪浪云-墨文
文档版本1.0
功能MiniBatchK均值聚类(MiniBatchKMeans)算法
镜像名称ml_components:3
开发语言Python

组件原理

MiniBatchKMeans 是 KMeans 算法的一个变种,它使用小批量(mini-batches)来减少计算时间,而这多个批次仍然尝试优化相同的目标函数。小批量是输入数据的子集,在每次训练迭代中随机抽样。这些小批量大大减少了收敛到局部解所需的计算量。 与其他降低 k-means 收敛时间的算法不同,小批量 k-means 产生的结果通常只比标准算法略差。

该算法在两个步骤之间进行迭代,类似于 vanilla k-means 。在第一步, b 样本是从数据集中随机抽取的,形成一个小批量。然后将它们分配到最近的质心。 在第二步,质心被更新。与 k-means 不同, 该变种算法是基于每个样本(per-sample)。对于小批量中的每个样本,通过取样本的流平均值(streaming average)和分配给该质心的所有先前样本来更新分配的质心。 这具有随时间降低质心的变化率(rate of change)的效果。执行这些步骤直到达到收敛或达到预定次数的迭代。

输入桩

支持单个csv文件输入。

输入端子1

  • 端口名称:训练数据
  • 输入类型:Csv文件
  • 功能描述: 输入用于训练的数据

输出桩

支持sklearn模型输出。

输出端子1

  • 端口名称:输出模型
  • 输出类型:sklearn模型
  • 功能描述: 输出训练好的模型用于预测

输出端子2

  • 端口名称:输出数据
  • 输出类型:Csv文件
  • 功能描述: 聚类后的数据

参数配置

类别数目

  • 功能描述:要形成的簇的数量以及要生成的质心的数量
  • 必选参数:是
  • 默认值:8

最大迭代次数

  • 功能描述:最大迭代次数
  • 必选参数:是
  • 默认值:200

初始化方式:

  • 功能描述:初始化方式:
  • 必选参数:是
  • 默认值:k-means++

批大小

  • 功能描述:批大小
  • 必选参数:是
  • 默认值:100

Random State

  • 功能描述:随机种子
  • 必选参数:否
  • 默认值:(无)

提前停止阈值

  • 功能描述:根据由平均中心平方位置变化的平滑、方差标准化测量的相对中心变化,控制提前停止
  • 必选参数:是
  • 默认值:0

平滑惯性没有提升的最大批次数

  • 功能描述:根据连续的未改善改善平滑惯性的小批量数量控制提前停止
  • 必选参数:是
  • 默认值:10

初始化样本数

  • 功能描述:为加速初始化而随机采样的样本数
  • 必选参数:否
  • 默认值:(无)

初始化次数

  • 功能描述:尝试的随机初始化次数
  • 必选参数:是
  • 默认值:3

重新分配比例

  • 功能描述:控制要重新分配的中心的最大比例
  • 必选参数:否
  • 默认值:(无)

需要训练

  • 功能描述:该模型是否需要训练,默认为需要训练。
  • 必选参数:是
  • 默认值:true

特征字段

  • 功能描述:特征字段
  • 必选参数:是
  • 默认值:(无)

识别字段

  • 功能描述:识别字段
  • 必选参数:是
  • 默认值:(无)

使用方法

  • 将组件拖入到项目中
  • 与前一个组件输出的端口连接(必须是csv类型)
  • 点击运行该节点