AlexNet
author:Hinton(强!)
这篇论文提出的dropout和神经网络的深度和宽度都很重要
模型的本质是通过5层卷积+3层全链接层(其中前两层使用了dropout来避免overfitting的问题)
注意本文提到的比较火的stochastic gradient descent网络也值得了解,梯度下降的算法选择了momentum,参数为0.9,加入了L2正则化,或者说权重衰减,参数为0.0005
所有层都使用了相等的学习率,当验证误差率在当前学习率下不再降低时,就手动将学习率除以10。学习率初始化为0.01,在训练结束前共减小3次,现有的是开始先线性增长,随后类似余弦函数下降
权重初始化方式:用一个均值为0、标准差为0.01的高斯分布初始化了每一层的权重
AlexNet使用ReLU代替了Sigmoid,其能更快的训练,同时解决sigmoid在训练较深的网络中出现的梯度消失,或者说梯度弥散的问题。
在以前的CNN中普遍使用平均池化层average pooling, AlexNet全部使用最大池化层 max pooling, 避免了平均池化层的模糊化的效果,并且步长比池化的核的尺寸小,这样池化层的输出之间有重叠,提升了特征的丰富性。
提出LRN层,局部响应归一化,对局部神经元创建了竞争的机制,使得其中响应较大的值变得更大,并抑制反馈较小的。
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

