跳到主要内容

随机生成分类数据集使用文档

组件名称随机生成分类数据集
工具集数据读写
组件作者雪浪云-墨文
文档版本1.0
功能随机生成分类数据集
镜像名称ml_components:3
开发语言Python

组件原理

这个组件可以随机生成分类数据集

输入桩

该组件没有输入

输出桩

支持Csv文件输出。

输出端子1

  • 端口名称: 输出数据
  • 输出类型: Csv文件
  • 功能描述: 输出生成的数据集

参数配置

总样本数

  • 功能描述: 生成数据的总样本数
  • 必选参数:
  • 默认值: 100

特征数

  • 功能描述: 生成数据的特征数
  • 必选参数:
  • 默认值: 20

信息特征数

  • 功能描述: 生成数据的信息特征数
  • 必选参数:
  • 默认值: 2

冗余特征数

  • 功能描述: 生成数据的冗余特征数
  • 必选参数:
  • 默认值: 2

重复特征数

  • 功能描述: 生成数据的重复特征数
  • 必选参数:
  • 默认值: (无)

分类数

  • 功能描述: 生成数据的分类数
  • 必选参数:
  • 默认值: 2

类别内的cluster数

  • 功能描述: 类别内的cluster数
  • 必选参数:
  • 默认值: 2

每一个类别的权重

  • 功能描述: 每一个类别的权重
  • 必选参数:
  • 默认值: (无)

类别随机交换的样本比例

  • 功能描述: 类别随机交换的样本比例
  • 必选参数:
  • 默认值: 0.01

乘以超立方体大小的因子

  • 功能描述: 乘以超立方体大小的因子
  • 必选参数:
  • 默认值: 1

Hypercube

  • 功能描述: 是否为超正立方体
  • 必选参数:
  • 默认值: true

特征移动的值的大小

  • 功能描述: 特征移动的值的大小
  • 必选参数:
  • 默认值: 0

特征放大的比例

  • 功能描述: 特征放大的比例
  • 必选参数:
  • 默认值: (无)

Shuffle

  • 功能描述: 是否打乱数据
  • 必选参数:
  • 默认值: true

Random State

  • 功能描述: 打乱生成数据
  • 必选参数:
  • 默认值: (无)

使用方法

  • 加组件拖入到项目中
  • 与后一个组件输入的端口连接(必须是csv类型)
  • 组件输入不需要连接其他节点
  • 填写参数
  • 点击运行该节点