2019年十大精彩AI学术论文盘点
|
推荐理由:基于 BERT 的改进模型很多,XLNet 是其中非常成功的一个。XLNet 的改进重点在于,1,用基于输入顺序置换的新的掩模方式替代 BERT 的掩模+双向预测(这种机制设计使得 BERT 更像是文本降噪模型,而在生成任务中表现不佳),2,使用了 token 内容和 token 位置分离的双流自注意力机制,3,采用了和改进 2 匹配的新的掩模方式。这些设计让 XLNet 兼具了序列生成能力(类似传统语言模型)和上下文信息参考能力。 再加上选用更大的训练数据集、用更适应长序列的 Transformer-XL 作为主干网络、训练方式对掩模的利用率更高、允许部分预测训练等改进,可以说 XLNet 相对于 BERT 的技术改进是从头到尾的,在作者们测试的所有任务中都取得了比 BERT 更好的表现也是情理之中(虽然有一些任务中提升并不大)。 XLNet 这样的模型出现代表着 NLP 预训练模型越发成熟,适应的下游任务越来越多、表现越来越好;也代表着一个统一的模型架构就有可能解决各种不同的 NLP 任务。 论文地址:https://arxiv.org/abs/1906.08237 代码开源:https://github.com/zihangdai/xlnet 除此之外,以下这 10 篇论文也曾在我们的候选列表里,它们各突出之处,我们列举如下: AI surpasses humans at six-player poker ( Science Magazine) https://science.sciencemag.org/content/365/6456/864 在 6 人德州扑克游戏中胜过人类的扑克 AI(这也是 Science 杂志总结的 2019 年 10 大科学突破第 10 名) ALBERT: A Lite BERT for Self-supervised Learning of Language Representations https://arxiv.org/abs/1909.11942v1 简化版 BERT,但不是简单的缩小了事,他们用更少的参数获得了更好的表现 A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction https://www.ri.cmu.edu/publications/a-theory-of-fermat-paths-for-non-line-of-sight-shape-reconstruction/ 「非视线内的物体形状重建」,也就是「如何看到墙角后面的东西」是这篇论文的研究课题。虽然这个任务略显冷门,但这篇论文表明计算机视觉技术有潜力让更多看似不可能的事情变得可能。获得了 CVPR 2019 最佳论文 Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems ( ACL 2019 ) https://arxiv.org/abs/1905.08743 面向任务的多轮对话系统通常会为不同的任务设计预定义的模版,但不同模版之间的数据共享、数据迁移是一大难点。这篇论文就提出了有效的知识追踪、共享、迁移方法 Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos https://arxiv.org/abs/1811.06152 基于单视角视频,根据运动物体的移动解算三维空间结构的做法在传统计算机视觉中就有很多研究,这篇论文里把它和深度学习结合以后带来了更好的效果,作者们增加的在线学习能力也让这个方法对不同的数据集、不同的场景有更好的适应性。 EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks https://arxiv.org/abs/1905.11946 研究 CNN 模型的缩放和可拓展性,用更小的模型得到更高的准确率,而且为不同规模的计算资源提供了一系列优化过的模型。ICML 2019 Spotlight 论文 Emergent Tool Use From Multi-Agent Autocurricula https://arxiv.org/abs/1909.07528v1 通过隐式的课程学习中,在一个具备互动和竞争机制的环境中,不同的智能体之间可以持续地找到新任务,它们也就可以持续地学会新的策略 RoBERTa: A Robustly Optimized BERT Pretraining Approach https://arxiv.org/abs/1907.11692 专门研究 BERT 的预训练过程并提出一种新的改进思路,用新的预训练目标做更充分的训练。也就是说,设计一个大模型容易,但还要想办法确定是否已经训练够了。 SinGAN: Learning a Generative Model from a Single Natural Image https://arxiv.org/abs/1905.01164 这篇论文尝试从单张图像学习 GAN,多种不同尺度的 GAN 组成的金字塔结构分别学习图像中不同大小的小块,整个模型的学习效果得以同时兼顾图像中的全局结构和细节纹理。ICCV 2019 最佳论文 Towards Artificial General Intelligence with Hybrid Tianjic Chip Architecture https://www.nature.com/articles/s41586-019-1424-8 清华大学团队设计的天机芯片用融合架构同时支持来自计算机科学的、基于数值的非线性变换的人工神经网络,以及来自神经科学的、基于信号响应的脉冲神经网络。论文发表在 Nature 杂志。 (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
