正则化可以定义为:对学习算法进行修改,目的是减少泛化误差而不是训练误差。
参数范数惩罚
我们通常是只对权重进行惩罚,而不对偏置进行惩罚。精确拟合偏置所需要的数据要少于拟合权重的数据。
正则化偏置可能会导致明显的欠拟合情况。
L2正则化
权重衰减
权重衰减过程中,每个权值的衰减方向是指向0的方向,而步长是和w大小成正比,所以,权值会朝着0衰减,但是步长会越来越慢,最终达到0的附近。
L1正则化
L1正则化产生系数解。
可以用作特征选择。
作为约束的范数惩罚
通过直接给模型的参数设置越是来进行正则化。
数据增强
- 图像进行翻转,平移等
- 为输入层注入噪音
噪音鲁棒性
一种方法是添加方差极小的噪音,这等价于对权重事实范数惩罚。
另一种使用方法是将噪音增加到权重。主要是用于RNN网络中。
对输入label添加噪音
大多数数据集的label都会有一定的错误。错误的label将会误导系统,所以,可以通过对label增加噪音降低错误label的影响。
标签平滑的方法:将分类目标中的0和1分别替换成$\frac{\theta}{k - 1}$和$1 - \theta$
多任务学习方法
Early Stop
提前终止等价于L2正则化
参数绑定和参数共享
Bagging和其他集成方法
通过结合几个模型降低泛化误差。一般采用模型平均的方法。
Bagging方法的原理是,通过平均多个高方差低偏差的模型的结果,可以显著的降低总和结果的方差,而不会改变模型的偏差。
这是方差的公式决定的。
Dropout
提供一种廉价的bagging集成近似,能够训练和评估指数级数量的神经网络
对抗训练
对抗样本产生的原因是过度线性。