神经网络优化篇：详解调试处理（Tuning process）

2024/1/24 14:02:58

编程Tag： 神经网络

本文主要是介绍神经网络优化篇：详解调试处理（Tuning process），对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

调试处理

关于训练深度最难的事情之一是要处理的参数的数量，从学习速率\(a\)到Momentum（动量梯度下降法）的参数\(\beta\)。如果使用Momentum或Adam优化算法的参数，\(\beta_{1}\)，\({\beta}_{2}\)和\(\varepsilon\)，也许还得选择层数，也许还得选择不同层中隐藏单元的数量，也许还想使用学习率衰减。所以，使用的不是单一的学习率\(a\)。接着，当然可能还需要选择mini-batch的大小。

结果证实一些超参数比其它的更为重要，认为，最为广泛的学习应用是\(a\)，学习速率是需要调试的最重要的超参数。

除了\(a\)，还有一些参数需要调试，例如Momentum参数\(\beta\)，0.9就是个很好的默认值。还会调试mini-batch的大小，以确保最优算法运行有效。还会经常调试隐藏单元，用橙色圈住的这些，这三个是觉得其次比较重要的，相对于\(a\)而言。重要性排第三位的是其他因素，层数有时会产生很大的影响，学习率衰减也是如此。当应用Adam算法时，事实上，从不调试\(\beta_{1}\)，\({\beta}_{2}\)和\(\varepsilon\)，总是选定其分别为0.9，0.999和\(10^{-8}\)，如果想的话也可以调试它们。

但希望粗略了解到哪些超参数较为重要，\(a\)无疑是最重要的，接下来是用橙色圈住的那些，然后是用紫色圈住的那些，但这不是严格且快速的标准，认为，其它深度学习的研究者可能会很不同意的观点或有着不同的直觉。

现在，如果尝试调整一些超参数，该如何选择调试值呢？在早一代的机器学习算法中，如果有两个超参数，这里会称之为超参1，超参2，常见的做法是在网格中取样点，像这样，然后系统的研究这些数值。这里放置的是5×5的网格，实践证明，网格可以是5×5，也可多可少，但对于这个例子，可以尝试这所有的25个点，然后选择哪个参数效果最好。当参数的数量相对较少时，这个方法很实用。

在深度学习领域，常做的，推荐采用下面的做法，随机选择点，所以可以选择同等数量的点，对吗？25个点，接着，用这些随机取的点试验超参数的效果。之所以这么做是因为，对于要解决的问题而言，很难提前知道哪个超参数最重要，正如之前看到的，一些超参数的确要比其它的更重要。

举个例子，假设超参数1是\(a\)（学习速率），取一个极端的例子，假设超参数2是Adam算法中，分母中的\(\varepsilon\)。在这种情况下，\(a\)的取值很重要，而\(\varepsilon\)取值则无关紧要。如果在网格中取点，接着，试验了\(a\)的5个取值，那会发现，无论\(\varepsilon\)取何值，结果基本上都是一样的。所以，知道共有25种模型，但进行试验的\(a\)值只有5个，认为这是很重要的。

对比而言，如果随机取值，会试验25个独立的\(a\)，似乎更有可能发现效果做好的那个。

已经解释了两个参数的情况，实践中，搜索的超参数可能不止两个。假如，有三个超参数，这时搜索的不是一个方格，而是一个立方体，超参数3代表第三维，接着，在三维立方体中取值，会试验大量的更多的值，三个超参数中每个都是。

实践中，搜索的可能不止三个超参数有时很难预知，哪个是最重要的超参数，对于的具体应用而言，随机取值而不是网格取值表明，探究了更多重要超参数的潜在值，无论结果是什么。

当给超参数取值时，另一个惯例是采用由粗糙到精细的策略。

比如在二维的那个例子中，进行了取值，也许会发现效果最好的某个点，也许这个点周围的其他一些点效果也很好，那在接下来要做的是放大这块小区域（小蓝色方框内），然后在其中更密集得取值或随机取值，聚集更多的资源，在这个蓝色的方格中搜索，如果怀疑这些超参数在这个区域的最优结果，那在整个的方格中进行粗略搜索后，会知道接下来应该聚焦到更小的方格中。在更小的方格中，可以更密集得取点。所以这种从粗到细的搜索也经常使用。

通过试验超参数的不同取值，可以选择对训练集目标而言的最优值，或对于开发集而言的最优值，或在超参搜索过程中最想优化的东西。

希望，这能给提供一种方法去系统地组织超参数搜索过程。另一个关键点是随机取值和精确搜索，考虑使用由粗糙到精细的搜索过程。

这篇关于神经网络优化篇：详解调试处理（Tuning process）的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

神经网络优化篇：详解调试处理（Tuning process）

调试处理

相关编程文章