跳到主要内容

案例2.2 视频教程

2.2.mov (95.09MB)题目:数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
步骤1:在“项目模板”中找到周志华习题,打开第二章模型评估与选择习题案例2.2,创建模板。
步骤2:在“CSV上传模块”上传data数据,一般为csv格式。这里就是上传的是包含100个的数据集。
步骤3:在全部组件列表搜索“数据拆分”模块,拖到操作界面内,
在参数设置的数据1比重与数据2比重输入0.7:0.3,数据1做为训练集,数据2作为测试集。
步骤4:全部组件列表搜索“岭分类”RidgeClassifier模块,只需在字段设置中设置需要的特征字段。参数设置一般不改。
岭分类即使用岭回归的分类器。对于多类别分类,以一对多的方法训练n_class分类器。通锅利用ridge中的多变量响应支持来实现的。
Alpha表示正则强度,必须为正浮点数。Fit intercept为是否计算此模型的截距。
Tol为解决方案的精度。
步骤5:全部组件列表搜索“带交叉验证的岭分类”模块,只需在字段设置中设置需要的特征字段。参数设置一般不改。
步骤6:全部组件列表搜索“模型预测”模块,分别连接预待预测数据和经过岭分类处理的训练集。设置下特征字段。
步骤7:全部组件列表搜索“混淆矩阵”CSV模块。“标签字段”为“class”,预测字段为“prediction”,参数设置不需要更改。
混淆矩阵confusion matrix 又被称为错误矩阵。每一行代表预测值,每一列代表实际类别。
作出正确判断的肯定记录(真阳性)、作出错误判断的肯定记录(假阴性)、作出正确判断的否定记录(真阴性)以及作出错误判断的否定记录(假阳性)。