神经网络优化篇:详解学习率衰减(Learning rate decay)
2024/1/22 14:02:51
本文主要是介绍神经网络优化篇:详解学习率衰减(Learning rate decay),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
学习率衰减
加快学习算法的一个办法就是随时间慢慢减少学习率,将之称为学习率衰减,来看看如何做到,首先通过一个例子看看,为什么要计算学习率衰减。
假设要使用mini-batch梯度下降法,mini-batch数量不大,大概64或者128个样本,在迭代过程中会有噪音(蓝色线),下降朝向这里的最小值,但是不会精确地收敛,所以的算法最后在附近摆动,并不会真正收敛,因为用的\(a\)是固定值,不同的mini-batch中有噪音。
但要慢慢减少学习率\(a\)的话,在初期的时候,\(a\)学习率还较大,的学习还是相对较快,但随着\(a\)变小,的步伐也会变慢变小,所以最后的曲线(绿色线)会在最小值附近的一小块区域里摆动,而不是在训练过程中,大幅度在最小值附近摆动。
所以慢慢减少\(a\)的本质在于,在学习初期,能承受较大的步伐,但当开始收敛的时候,小一些的学习率能让步伐小一些。
可以这样做到学习率衰减,记得一代要遍历一次数据,如果有以下这样的训练集,
应该拆分成不同的mini-batch,第一次遍历训练集叫做第一代。第二次就是第二代,依此类推,可以将\(a\)学习率设为\(a= \frac{1}{1 + decayrate * \text{epoch}\text{-num}}a_{0}\)(decay-rate称为衰减率,epoch-num为代数,\(\alpha_{0}\)为初始学习率),注意这个衰减率是另一个需要调整的超参数。
这里有一个具体例子,如果计算了几代,也就是遍历了几次,如果\(a_{0}\)为0.2,衰减率decay-rate为1,那么在第一代中,\(a = \frac{1}{1 + 1}a_{0} = 0.1\),这是在代入这个公式计算(\(a= \frac{1}{1 + decayrate * \text{epoch}\text{-num}}a_{0}\)),此时衰减率是1而代数是1。在第二代学习率为0.67,第三代变成0.5,第四代为0.4等等,可以自己多计算几个数据。要理解,作为代数函数,根据上述公式,的学习率呈递减趋势。如果想用学习率衰减,要做的是要去尝试不同的值,包括超参数\(a_{0}\),以及超参数衰退率,找到合适的值,除了这个学习率衰减的公式,人们还会用其它的公式。
比如,这个叫做指数衰减,其中\(a\)相当于一个小于1的值,如\(a ={0.95}^{\text{epoch-num}} a_{0}\),所以的学习率呈指数下降。
人们用到的其它公式有\(a =\frac{k}{\sqrt{\text{epoch-num}}}a_{0}\)或者\(a =\frac{k}{\sqrt{t}}a_{0}\)(\(t\)为mini-batch的数字)。
有时人们也会用一个离散下降的学习率,也就是某个步骤有某个学习率,一会之后,学习率减少了一半,一会儿减少一半,一会儿又一半,这就是离散下降(discrete stair cease)的意思。
到现在,讲了一些公式,看学习率\(a\)究竟如何随时间变化。人们有时候还会做一件事,手动衰减。如果一次只训练一个模型,如果要花上数小时或数天来训练,有些人的确会这么做,看看自己的模型训练,耗上数日,然后他们觉得,学习速率变慢了,把\(a\)调小一点。手动控制\(a\)当然有用,时复一时,日复一日地手动调整\(a\),只有模型数量小的时候有用,但有时候人们也会这么做。
所以现在有了多个选择来控制学习率\(a\)。可能会想,好多超参数,究竟应该做哪一个选择,觉得,现在担心为时过早。下一周,会讲到,如何系统选择超参数。对而言,学习率衰减并不是尝试的要点,设定一个固定的\(a\),然后好好调整,会有很大的影响,学习率衰减的确大有裨益,有时候可以加快训练,但它并不是会率先尝试的内容。
这就是学习率衰减,最后还要讲讲神经网络中的局部最优以及鞍点,所以能更好理解在训练神经网络过程中,的算法正在解决的优化问题。
这篇关于神经网络优化篇:详解学习率衰减(Learning rate decay)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-15PingCAP 黄东旭参与 CCF 秀湖会议,共探开源教育未来
- 2024-05-13PingCAP 戴涛:构建面向未来的金融核心系统
- 2024-05-09flutter3.x_macos桌面os实战
- 2024-05-09Rust中的并发性:Sync 和 Send Traits
- 2024-05-08使用Ollama和OpenWebUI在CPU上玩转Meta Llama3-8B
- 2024-05-08完工标准(DoD)与验收条件(AC)究竟有什么不同?
- 2024-05-084万 star 的 NocoDB 在 sealos 上一键起,轻松把数据库编程智能表格
- 2024-05-08Mac 版Stable Diffusion WebUI的安装
- 2024-05-08解锁CodeGeeX智能问答中3项独有的隐藏技能
- 2024-05-08RAG算法优化+新增代码仓库支持,CodeGeeX的@repo功能效果提升