加入收藏 | 设为首页 | 会员中心 | 我要投稿 52刷机网 (https://www.52shuaji.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 4G频道 > 数据 > 正文

告别2019:属于深度学习的十年,我们必须知道的经典

发布时间:2020-01-02 10:09:08 所属栏目:数据 来源:网络整理
导读:告别2019:属于深度学习的十年,我们必须知道的经典

以往的 Transformer 网络由于受到上下文长度固定的限制,学习长期以来关系的潜力有限。本文提出的新神经架构 Transformer-XL 可以在不引起时间混乱的前提下,可以超越固定长度去学习依赖性,同时还能解决上下文碎片化问题。

论文链接:https://arxiv.org/abs/1901.02860

5、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》

BERT 带来的影响还未平复,CMU 与谷歌大脑 6 月份提出的 XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了 SOTA。

论文链接:https://arxiv.org/abs/1906.08237

6、《Neural Machine Translation of Rare Words with Subword Units》

论文链接:https://arxiv.org/abs/1508.07909

2019 年:深度学习的原理改进

论文《Deep Double Descent: Where Bigger Models and More Data Hurt》,本文讨论的 Double Descent 现象与经典机器学习和现代深度学习中的流行观点背道而驰。

论文链接:https://arxiv.org/abs/1912.02292

告别2019:属于深度学习的十年,我们必须知道的经典

在本文中研究者证明,各种现代深度学习任务都表现出「双重下降」现象,并且随着模型尺寸的增加,性能首先变差,然后变好。此外,他们表明双重下降不仅作为模型大小的函数出现,而且还可以作为训练时间点数量的函数。研究者通过定义一个新的复杂性度量(称为有效模型复杂性,Effective Model Complexity)来统一上述现象,并针对该度量推测一个广义的双重下降。此外,他们对模型复杂性的概念使其能够确定某些方案,在这些方案中,增加(甚至四倍)训练样本的数量实际上会损害测试性能。

来自 MIT CSAIL 研究者的论文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》,它也获得了 ICLR 2019 的最佳论文奖。

论文链接:https://arxiv.org/abs/1803.03635

研究者们发现,标准的神经网络剪枝技术会自然地发现子网络,这些子网络经过初始化后能够有效进行训练。基于这些结果,研究者提出了「彩票假设」(lottery ticket hypothesis):密集、随机初始化的前馈网络包含子网络(「中奖彩票」),当独立训练时,这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率。

未来?

因为深度学习和基于梯度的神经网络出现技术突破,过去十年是人工智能高速发展的一段时期。这很大程度上是因为芯片算力的显著提高,神经网络正在变得越来越大,性能也越来越强。从计算机视觉到自然语言处理,新的方法已经大面积取代了传统的 AI 技术。

但是神经网络也有其缺点:它们需要大量已标注数据进行续联,无法解释自身的推断机制,难以推广到单个任务之外。不过因为深度学习的推动,AI 领域快速发展,越来越多的研究者正在致力于应对这些挑战。

在未来的几年里,人们对于神经网络的理解还会不断增加。人工智能的前景还是一片光明:深度学习是 AI 领域里最有力的工具,它会使我们进一步接近真正的智能。

让我们期待 2020 年的新成果吧。

(编辑:52刷机网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读