跳到主要内容

测试数据集说明

数据概述

在算法设计的机器学习频道中,通常需要用csv上传组件进行数据的上传,用于后续的分类、聚类和回归模型的建立以及预测,本文档介绍回归、聚类、分类以及二分类和多分类这5种数据集。

回归数据集

示例模板

  • 数据介绍: 麻省波士顿的506个不同郊区的房屋数据,一共含有506条数据。
  • 相关参数: 每条数据14个字段,包含13个属性,和一个房价的平均值。
  • 数据附件: boston.csv

分类数据集

示例模板

  • 数据介绍: 鸢尾花数据集,一共含有50条数据,包含3种类别。
  • 相关参数: 每条数据5个字段,包含4个属性,和一个鸢尾花的类别。
  • 数据附件: iris.csv

二分类数据集

示例模板

  • 数据介绍: 乳腺癌数据集,一共含有467条数据,包含2中类别。
  • 相关参数: 每条数据31个字段,包含30个属性,和一个是否为乳腺癌的类别。
  • 数据附件: breast_cancer.csv

多分类数据集

示例模板

  • 数据介绍: 玻璃识别数据集,一共含有215条数据,包含7种玻璃类别。
  • 相关参数: 每条数据10个字段,包含9个属性,和一个是玻璃的类别。
  • 数据路径: glass.csv

聚类数据集

示例模板

  • 数据介绍: 上述几种分类数据都可以作为聚类模型的输入数据。

  • 相关参数: 根据不同的数据集选择相应的特征。

  • 数据附件: iris.csv glass.csv

  • 数据附件: breast_cancer.csv