正则化方法

正则化是对学习算法进行修改，目的是为了减少泛化误差而不是训练误差。利用偏差的增加换取方差的减少。

参数的范数惩罚

经过求解梯度后发现，L2正则每次更新权值，都是对权值乘以一个1-a的系数，所以，也叫做权重衰减。
所以，L2正则会得到很多很小的权值。

求解梯度后，可以发现，L1正则每次更新权值，都是对权值增加或者减少固定值a，不再是线性的缩小。这样的结果是有很多不重要特征的权值会直接所见到0. 产生稀疏解。
作为约束的范数惩罚

比如在树模型中，我们会对每棵树的节点数，深度等进行约束显示。
数据集增强

通过增加数据集，减少噪声数据的影响，从而可以提高模型的泛化能力。

DL这本书中说的是提前终止的效果等价于L2正则化。
可以将优化的参数空间限制在初始参数值的小领域中，不让他发生太多变化。

提供一种廉价的近似Bagging的集成方法来防止出现过拟合。