第二章 模型评估与选择
2021/7/17 6:08:17
本文主要是介绍第二章 模型评估与选择,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
2.1 经验误差与过拟合
1.误差
2.
m个样本样本,a个分类错误
错误率:分类错误的样本数占样本总数的比例
E
=
a
/
m
E = a / m
E=a/m
准确率、精度:
1
−
E
1-E
1−E
我们实际希望得到的是在新样本上模型表现好的学习器。降低经验误差很容易,有些经验误差甚至为0,遗憾的是大多数这种情况都是不好的。
过拟合:
把训练样本自身特点当做潜在样本(需要被泛化的新样本)具有的一般性质。比较难解决
出现原因:学习能力过于强大,把不太一般的特点给学到了
欠拟合:
对样本的一般性质尚未学好。相对好解决
出现原因:学习能力低下
4.模型选择:理想的解决方案是对模型进行泛化误差评估,选择泛化误差小的模型。
2.2 评估方法
通常才用一个“测试集”来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似,从而对模型作出评估。
测试集选取要求
从样本真实分布中独立同分布采样得到,尽可能与测试集相斥。
留出法
从数据集D中划分二个互斥集合,S、T。即:
D
=
S
∪
T
,
S
∩
T
=
∅
D=S\cup T,S\cap T =\varnothing
D=S∪T,S∩T=∅
在S上训练出模型,用T来评估测试误差,作为泛化误差的估计。
**注意:**训练、测试集划分要尽量保持数据分布的一致性,避免因数据划分过程引入额外偏差。
分层采样
从抽样角度看待数据集划分,保留类别比例的采样方式。避免了因为S/T样本类别比例差别大,而产生额外的偏差。
综上,单次采用留出法划分数据集往往不够稳定可靠,在使用留出法时,一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估效果。
交叉验证法
这篇关于第二章 模型评估与选择的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-06-05做软件测试需要懂代码吗?
- 2024-06-0514-ShardingSphere的分布式主键实现
- 2024-06-03为什么以及如何要进行架构设计权衡?
- 2024-05-31全网首发第二弹!软考2024年5月《软件设计师》真题+解析+答案!(11-20题)
- 2024-05-31全网首发!软考2024年5月《软件设计师》真题+解析+答案!(21-30题)
- 2024-05-30【Java】百万数据excel导出功能如何实现
- 2024-05-30我们小公司,哪像华为一样,用得上IPD(集成产品开发)?
- 2024-05-30java excel上传--poi
- 2024-05-30安装笔记本应用商店的pycharm,再安排pandas等模块,说是没有打包工具?
- 2024-05-29java11新特性