跳到主要内容

案例10.1 视频教程

10.1.mp4 (19.52MB) 题目:编程实现k近邻分类器,在西瓜数据集3.0α上比较其分类边界与决策树分类边界之异同。
步骤1:在“项目模板”中找到周志华习题,打开第十章降维与度量学习习题案例10.1,创建模板。
步骤2:在“EXCEL上传”模块上传excel文件,这里用到的是西瓜数据集3.0α。
步骤3:在全部组件列表搜索“VS Code Python”模块,拖到操作界面内,在“参数设置”中勾选上“编辑”,在点击运行该节点,在操作中“编辑VS Code”,编写将excel文件的数据转换为CSV格式的文件的代码。注意编写完之后要重新勾掉“编辑”选项,才可以运行程序。
步骤4:在全部组件列表搜索“序数编码”模块,拖到操作界面内,在字段设置的“目标字段”中输入“色泽,根蒂,敲声,纹理,脐部,触感,好瓜”特征字段。该模块主要用来将分类特征编码为整数数组。该模块的输入应为整数或者字符串的数组,表示分类特征采用的值。目的是找到每个特征的唯一值,然后将数据转换为叙述编码。
步骤5:在全部组件列表搜索“决策树分类”组件,参数设置均为默认值不做选择,设置好特征字段和标识字段。决策树只有水平和垂直边界。
步骤6:同样的,在全部组件列表搜索“k近邻分类”组件,参数设置均为默认值不做选择,设置好特征字段和标识字段。k近邻分类器是在该样本最近的k个样本集合中,选择分类最多的一个作为该样本的分类。k近邻分类器不仅有水平和垂直边界不同,还可以有曲线边界。
步骤7: 在全部组件列表中搜索“模型预测”组件,将经过标签编码的数据集作为测试集,经过k近邻分类训练和决策树分类训练的数据集分别作为训练集,作为模型预测组件的输入。预测的数据存储在该组件中,可以通过其他可视化组件来查看更清晰的结果。