第二章模型评估与选择

2021/7/17 6:08:17

编程Tag： 测试模型误差样本评估划分第二章泛化

本文主要是介绍第二章模型评估与选择，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

2.1 经验误差与过拟合

1.误差
在这里插入图片描述
2.
m个样本样本，a个分类错误

错误率：分类错误的样本数占样本总数的比例
E = a / m E = a / m E=a/m
准确率、精度：
1 − E 1-E 1−E
我们实际希望得到的是在新样本上模型表现好的学习器。降低经验误差很容易，有些经验误差甚至为0，遗憾的是大多数这种情况都是不好的。

过拟合：

把训练样本自身特点当做潜在样本（需要被泛化的新样本）具有的一般性质。比较难解决

出现原因：学习能力过于强大，把不太一般的特点给学到了

欠拟合：

对样本的一般性质尚未学好。相对好解决

出现原因：学习能力低下

在这里插入图片描述

4.模型选择：理想的解决方案是对模型进行泛化误差评估，选择泛化误差小的模型。

通常才用一个“测试集”来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似，从而对模型作出评估。

从样本真实分布中独立同分布采样得到，尽可能与测试集相斥。

从数据集D中划分二个互斥集合，S、T。即：
D = S ∪ T , S ∩ T = ∅ D=S\cup T,S\cap T =\varnothing D=S∪T,S∩T=∅
在S上训练出模型，用T来评估测试误差，作为泛化误差的估计。

**注意：**训练、测试集划分要尽量保持数据分布的一致性，避免因数据划分过程引入额外偏差。

从抽样角度看待数据集划分，保留类别比例的采样方式。避免了因为S/T样本类别比例差别大，而产生额外的偏差。

综上，单次采用留出法划分数据集往往不够稳定可靠，在使用留出法时，一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估效果。

这篇关于第二章模型评估与选择的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！