随机生成分类数据集使用文档
组件名称 | 随机生成分类数据集 | ||
---|---|---|---|
工具集 | 数据读写 | ||
组件作者 | 雪浪云-墨文 | ||
文档版本 | 1.0 | ||
功能 | 随机生成分类数据集 | ||
镜像名称 | ml_components:3 | ||
开发语言 | Python |
组件原理
这个组件可以随机生成分类数据集
输入桩
该组件没有输入
输出桩
支持Csv文件输出。
输出端子1
- 端口名称: 输出数据
- 输出类型: Csv文件
- 功能描述: 输出生成的数据集
参数配置
总样本数
- 功能描述: 生成数据的总样本数
- 必选参数: 是
- 默认值: 100
特征数
- 功能描述: 生成数据的特征数
- 必选参数: 是
- 默认值: 20
信息特征数
- 功能描述: 生成数据的信息特征数
- 必选参数: 是
- 默认值: 2
冗余特征数
- 功能描述: 生成数据的冗余特征数
- 必选参数: 是
- 默认值: 2
重复特征数
- 功能描述: 生成数据的重复特征数
- 必选参数: 是
- 默认值: (无)
分类数
- 功能描述: 生成数据的分类数
- 必选参数: 是
- 默认值: 2
类别内的cluster数
- 功能描述: 类别内的cluster数
- 必选参数: 是
- 默认值: 2
每一个类别的权重
- 功能描述: 每一个类别的权重
- 必选参数: 是
- 默认值: (无)
类别随机交换的样本比例
- 功能描述: 类别随机交换的样本比例
- 必选参数: 是
- 默认值: 0.01
乘以超立方体大小的因子
- 功能描述: 乘以超立方体大小的因子
- 必选参数: 是
- 默认值: 1
Hypercube
- 功能描述: 是否为超正立方体
- 必选参数: 是
- 默认值: true
特征移动的值的大小
- 功能描述: 特征移动的值的大小
- 必选参数: 是
- 默认值: 0
特征放大的比例
- 功能描述: 特征放大的比例
- 必选参数: 是
- 默认值: (无)
Shuffle
- 功能描述: 是否打乱数据
- 必选参数: 是
- 默认值: true
Random State
- 功能描述: 打乱生成数据
- 必选参数: 否
- 默认值: (无)
使用方法
- 加组件拖入到项目中
- 与后一个组件输入的端口连接(必须是csv类型)
- 组件输入不需要连接其他节点
- 填写参数
- 点击运行该节点