机器学习周志华

基本概念:属性\特征\样本\示例\属性值\属性空间\样本空间\输入空间\数据集\标签\特征向量(一个示例都可以在坐标上表示出来)\训练集\测试集\训练样本\输出空间\标记空间\泛化\过拟合\欠拟合

1
2
3
4
5
6
7
8
错误率:分类错误的数据占总样本的比例
精度: 1 - 错误率
查准率(准确率):TP/(TP+FP)
查全率(召回率):TP/(TP+FN)
训练误差/经验误差:学习器的实际预测输出与真实输出的差异称为误差,在训练集上的误差称为~
泛化误差:新样本上的误差
roc/auc/pr曲线/pr图
平衡点(BEP):查准点=查全率 y=x与曲线的交点

训练集和测试集产生的方法

1
2
3
4
5
1.留出法:3,7分,2,8分,将训练集分成互斥的两个集合
2.交叉验证法:又叫k折交叉验证,先将数据集划分为k个大小相似的互斥子集,每次用k-1个子集作为训练集,余下的作为测试集.这样就可以得到k组训练集\测试集,从而可以进行k次训练和测试,最终返回的是这k个测试结果的均值.通常进行p次k折交叉验证

缺点:留出法和交叉验证法,由于保留了一部分样本用于测试,因此实际评估的模型所使用的的训练集比D小,这必然会引入一些因训练样本规模不同而导致的估计偏差
3.自助法 以自助采样法为基础.给定包含m个样本的数据集D,我们对它采样产生数据集D1,每次随机从D中挑选一个样本,将其拷贝到D1,然后再将该样本放回初始数据D中,使得该样本在下次采样时仍有可能被采到.这个过程重复执行m次,我们就得到了包含m个样本的数据集D1.