告别2019：属于深度学习的十年，我们必须知道的经典

发布时间：2020-01-02 10:09:08 所属栏目：数据来源：网络整理

导读：告别2019：属于深度学习的十年，我们必须知道的经典

不同归一化技术的可视化呈现。

1、《层归一化（Layer Normalization）》

论文链接：https://arxiv.org/abs/1607.06450

2、《实例归一化（Instance Normalization）》

论文链接：https://arxiv.org/abs/1607.08022

3、《组归一化（Group Normalization）》

论文链接：https://arxiv.org/abs/1803.08494

2016 年：攻陷最复杂的游戏——AlphaGo

登上 Nature 的 AlphaGo 论文《Mastering the game of Go with deep neural networks and tree search》

论文链接：https://www.nature.com/articles/nature16961（被引用量 6310）

很多人对于现代 AI 的理解始于 DeepMind 的围棋程序 AlphaGo。AlphaGo 研究项目始于 2014 年，目的是为了测试一个使用深度学习的神经网络如何在 Go 上竞争。

AlphaGo 比以前的 Go 程序有了显着的改进，在与其他可用围棋程序（包括 Crazy Stone 和 Zen）的 500 场比赛中，在单台计算机上运行的 AlphaGo 赢得了除一个之外的所有胜利，而运行在多台计算机上的 AlphaGo 赢得了与其他 Go 程序对战的所有 500 场比赛，在与单台计算机上运行的 AlphaGo 比赛中赢下了 77％的对阵。2015 年 10 月的分布式版本使用了 1,202 个 CPU 和 176 个 GPU，当时它以 5: 0 的比分击败了欧洲围棋冠军樊麾（职业 2 段选手），轰动一时。

这是计算机围棋程序第一次在全局棋盘（19 × 19）且无让子的情况下击败了人类职业棋手。2016 年 3 月，通过自我对弈进行练习的加强版 AlphaGo 在比赛中以 4: 1 击败了世界围棋冠军李世石，成为第一个在无让子情况下击败围棋职业九段棋手的计算机程序，载入史册。赛后，AlphaGo 被韩国棋院授予名誉职业九段的称号。

告别2019：属于深度学习的十年，我们必须知道的经典

年度荣誉提名：

1、DeepMind 的另一篇 AlphaGo Nature 论文《Mastering the game of Go without human knowledge》

论文链接：https://www.nature.com/articles/nature24270

作为 AlphaGo 的后继版本，2017 年 10 月，DeepMind 发布最新强化版的 AlphaGo Zero，这是一个无需用到人类专业棋谱的版本，比之前的版本都强大。通过自我对弈，AlphaGo Zero 经过三天的学习就超越了 AlphaGo Lee 版本的水平，21 天后达到 AlphaGo Maseter 的实力，40 天内超越之前所有版本。

2017 年：几乎人人都用的 Transformer

《Attention Is All You Need》

论文链接：https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf（被引用量 5059）

著名的 Transformer 架构出现了。2017 年 6 月，谷歌宣布又在机器翻译上更进了一步，实现了完全基于 attention 的 Transformer 机器翻译网络架构，并且还在 WMT 2014 的多种语言对的翻译任务上超越了之前 Facebook 的成绩，实现了新的最佳水平。

告别2019：属于深度学习的十年，我们必须知道的经典

在编码器-解码器配置中，显性序列显性转导模型（dominant sequence transduction model）基于复杂的 RNN 或 CNN。表现最佳的模型也需通过注意力机制（attention mechanism）连接编码器和解码器。

谷歌提出了一种新型的简单网络架构——Transformer，它完全基于注意力机制，彻底放弃了循环和卷积。两项机器翻译任务的实验表明，这些模型的翻译质量更优，同时更并行，所需训练时间也大大减少。新的模型在 WMT 2014 英语转德语的翻译任务中取得了 BLEU 得分 28.4 的成绩，领先当前现有的最佳结果（包括集成模型）超过 2 个 BLEU 分值。在 WMT 2014 英语转法语翻译任务上，在 8 块 GPU 上训练了 3.5 天之后，新模型获得了新的单模型顶级 BLEU 得分 41.0，只是目前文献中最佳模型训练成本的一小部分。

Transformer 在其他任务上也泛化很好，把它成功应用到了有大量训练数据和有限训练数据的英语组别分析上。

《Neural Architecture Search with Reinforcement Learning》

论文链接：https://openreview.net/forum?id=r1Ue8Hcxg（被引用量 1186）

神经结构搜索（NAS）表示自动设计人工神经网络（ANN）的过程，人工神经网络是机器学习领域中广泛使用的模型。NAS 的各种方法设计出的神经网络，其性能与手工设计的架构相当甚至更优越。可以根据搜索空间，搜索策略和性能评估策略三个方面对 NAS 的方法进行分类。其他方法，如《Regularized Evolution for Image Classifier Architecture Search》（即 AmoebaNet）使用了进化算法。

2018 年：预训练模型大热

当然是谷歌的 NLP 预训练模型 BERT：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》，这篇论文现在已经有 3025 次引用量了。

论文链接：https://arxiv.org/abs/1810.04805

本文介绍了一种新的语言表征模型 BERT——来自 Transformer 的双向编码器表征。与最近的语言表征模型不同，BERT 旨在基于所有层的左、右语境来预训练深度双向表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型，其性能超越许多使用任务特定架构的系统，刷新了 11 项 NLP 任务的当前最优性能记录。

告别2019：属于深度学习的十年，我们必须知道的经典

BERT 与 GPT-2 和 ELMo 的模型结构对比。

年度荣誉提名：

自 BERT 被提出以来，基于 Transformer 的语言模型呈井喷之势。这些论文尚需时间考验，还很难说哪一个最具影响力。

1、《Deep contextualized word representations》

论文链接：https://arxiv.org/abs/1802.05365

2、《Improving Language Understanding by Generative Pre-Training》

论文链接：https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

3、《Language Models are Unsupervised Multitask Learners》——即 OpenAI 在 2 月份推出的，参数量高达 15 亿的预训练模型 GPT-2。

论文链接：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

4、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/4

首页

尾页