案例10.1 视频教程

题目：编程实现k近邻分类器，在西瓜数据集3.0α上比较其分类边界与决策树分类边界之异同。
步骤1：在“项目模板”中找到周志华习题，打开第十章降维与度量学习习题案例10.1，创建模板。
步骤2：在“EXCEL上传”模块上传excel文件，这里用到的是西瓜数据集3.0α。
步骤3：在全部组件列表搜索“VS Code Python”模块，拖到操作界面内，在“参数设置”中勾选上“编辑”，在点击运行该节点，在操作中“编辑VS Code”，编写将excel文件的数据转换为CSV格式的文件的代码。注意编写完之后要重新勾掉“编辑”选项，才可以运行程序。
步骤4：在全部组件列表搜索“序数编码”模块，拖到操作界面内，在字段设置的“目标字段”中输入“色泽，根蒂，敲声，纹理，脐部，触感，好瓜”特征字段。该模块主要用来将分类特征编码为整数数组。该模块的输入应为整数或者字符串的数组，表示分类特征采用的值。目的是找到每个特征的唯一值，然后将数据转换为叙述编码。
步骤5：在全部组件列表搜索“决策树分类”组件，参数设置均为默认值不做选择，设置好特征字段和标识字段。决策树只有水平和垂直边界。
步骤6：同样的，在全部组件列表搜索“k近邻分类”组件，参数设置均为默认值不做选择，设置好特征字段和标识字段。k近邻分类器是在该样本最近的k个样本集合中，选择分类最多的一个作为该样本的分类。k近邻分类器不仅有水平和垂直边界不同，还可以有曲线边界。
步骤7：在全部组件列表中搜索“模型预测”组件，将经过标签编码的数据集作为测试集，经过k近邻分类训练和决策树分类训练的数据集分别作为训练集，作为模型预测组件的输入。预测的数据存储在该组件中，可以通过其他可视化组件来查看更清晰的结果。