告别2019:属于深度学习的十年,我们必须知道的经典
|
生成对抗网络(GAN)的成功在于它能够生成逼真图片。这一网络通过使用生成器和判别器之间的最小最大(minimax)博弈,GAN 能够建模高纬度、复杂的数据分布。在 GAN 中,生成器用于生成假的样本,而判别器进行判断(是否为生成数据)。 年度荣誉提名: 1、《Wasserstein GAN & Improved Training of Wasserstein GANs(WGAN)》 WGAN 是 GAN 的改进版本,取得了更好的效果。 论文链接:https://arxiv.org/abs/1701.07875 2、《StyleGAN》
论文链接:https://arxiv.org/abs/1812.04948 3、《Neural Machine Translation by Jointly Learning to Align and Translate(attention 机制)》 论文链接:https://arxiv.org/abs/1409.0473(被引用量 9882)
这篇论文介绍了注意力机制的思路。与其将所有信息压缩到一个 RNN 的隐层中,不如将整个语境保存在内存中。这使得所有的输出都能和输入对应。除了在机器翻译中使用外,attention 机制还被用于 GAN 等模型中。 《Adam: A Method for Stochastic Optimization》 论文链接:https://arxiv.org/abs/1412.6980(被引用量 34082) Adam 由于其易微调的特性而被广泛使用。它基于对每个参数的不同学习率进行适应这种思想。虽然近来有对 Adam 性能提出质疑的论文出现,但它依然是深度学习中最受欢迎的目标函数。 年度荣誉提名: 1、《Decoupled Weight Decay Regularization》 论文地址:https://arxiv.org/abs/1711.05101 2、《RMSProp》 和 Adam 一样出名的目标函数。 论文地址 https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf* 2015:超越人类的 ResNet;神奇的批归一化 《Deep Residual Learning for Image Recognition》 论文链接:https://arxiv.org/abs/1512.03385(被引用量 34635)
大名鼎鼎的 ResNet,从 ResNet 开始,神经网络在视觉分类任务上的性能第一次超越了人类。这一方法赢得了 ImageNet 2015、以及 COCO 竞赛的冠军,也获得了 CVPR2016 的最佳论文奖:该研究的作者是何恺明、张祥雨、任少卿和孙剑。 最初 ResNet 的设计是用来处理深层 CNN 结构中梯度消失和梯度爆炸的问题,如今 Residual Block 已经成为了几乎所有 CNN 结构中的基本构造。 这个想法很简单:将输入(input)从卷积层的每个块添加到输出(output)。残差网络之后的启示是,神经网络不应分解为更多的层数,在最不理想的情况下,其他层可以简单设置为恒等映射(identity mapping)。但在实际情况中,更深层的网络常常在训练上遇到困难。残差网络让每一层更容易学习恒等映射,并且还减少了梯度消失的问题。 尽管并不复杂,但残差网络很大程度上优于常规的 CNN 架构,尤其在应用于更深层的网络上时。
众多 CNN 架构都在争夺「头把交椅」,以下是一部分具有代表意义的样本:
年度荣誉提名: 1、《Going Deeper with Convolutions》 论文链接: https://arxiv.org/abs/1409.4842 2、《Very Deep Convolutional Networks for Large-Scale Image Recognition》 论文链接: https://arxiv.org/abs/1409.1556 3、《Neural Ordinary Differential Equations》 论文链接: https://arxiv.org/abs/1806.07366(NIPS 2018 最佳论文奖) 《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift(批归一化)》 论文链接:https://arxiv.org/abs/1502.03167(14384 次引用) 批归一化(Batch normalization)是如今几乎所有神经网络的主流趋势。批归一基于另外一个简单但是很棒的想法:在训练过程中保持均值和方差统计,借此将 activation 的范围变换为零均值和单位方差。 关于批归一化效果的确切原因还未有定论,但从实践上说确实有效的。 年度荣誉提名: (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |






