八年了！除了NLP和CV，人工智能就不能干点别的？

发布时间：2020-01-01 09:40:07 所属栏目：通讯来源：网络整理

导读：八年了！除了NLP和CV，人工智能就不能干点别的？

（原标题：八年之痒！除了NLP和CV，人工智能就不能干点别的啥了？）

从2012年AlexNet惊艳亮相开始算起，AI已经经历了将近8年的蓬勃发展期。

这一迅猛发展尤其反映在了AI顶会的参会数据上。2013年，ICML的参会人数仅有数百名，但到了2018年，这一数量上升到了5000多。2019年12月，机器学习领域的最大型的会议NeurIPS更是聚集了13000名AI研究人员和工程师。

AI研究人员的迅速涌入也直接导致了论文数量的爆炸增加。如今，arXiv已有六万多篇AI论文。

2013年，一位AI专家可能会熟悉其子领域中的所有出版物。在2019年，这是不可能的。如今，行业中的绝大多数AI工程师都依赖“最佳论文”和其他简要名单来了解最新成果。

从最开始星辰大海般的探索，到如今研究领域的细分再细分，AI研究似乎也进入了“小修小补”阶段。

那么，AI研究中我们能够解决的重大问题是否已经完全被解决了呢?　下一次的AI大突破是否就要等待新的里程碑式的研究呢？

AI基因研究公司Deeptrait的创始人Sergii Shelpuk认为，我们在这一轮AI发展期中依旧大有可为。

除去自然语言处理和计算机视觉两大领域，我们还有太多领域可以开拓。

下面，我们对Sergii Shelpuk的观点进行了编译整理。

首先，让我们来梳理一下如今AI从业者面对一个新问题时的常见心路历程。

以计算机视觉为例，只需看一看图像识别的最新技术，然后选择适合要求的体系结构即可。在比如自然语言处理，如果需要进行情感分析等任务，同样只需浏览有关此问题的出版物，然后选择适用于您的数据，硬件和所需性能的解决方案。

即使现有出版物不存在针对特定问题的解决方案，它也涉及“关于子问题的子问题”。例如，传统的数据增强技术无法给你的数据集带来理想的结果，或者，神经网络在收集到的数据集中表现不佳，亦或是最佳的词语嵌入技术在特定任务情境下表现不佳，等等。

这些年来，人们不断遇到这些关于子问题的子问题，似乎关于AI的所有重大问题都已得到解决，越来越多的针对不断缩小的研究领域的论文的发表更加强化了人们的这种印象。

当我们开始使用DeepTrait开发用于基因组分析的AI系统时，我们查阅了现有文献。我们以为，深度学习的研究者已经详细探讨过所有相关的问题，例如异构数据分析。如今，基因组分析已成为人类研究中最有前途和最重要的领域之一，并且该领域中总共已有6万多篇AI论文发表。研究者们肯定已经完成了相对广泛而深入的工作，不是吗？

但事实证明并不是。在2019年12月12日访问arXiv并搜索“深度学习”，共有22,140篇论文。然而将搜索内容更改为“深度学习基因组”后，发现只有76篇相关的论文，其中许多论文并未解决基因组数据的问题，只是提到基因组是未来潜在的相关应用方向。

在其他论文来源（包括bioRxiv）中搜索有关基因组学的深度学习论文，也就仅有200多篇。其中绝大多数运用的还是过时的神经网络架构和训练技术，另外很大一部分错误地使用了这些工具，例如，将卷积神经网络应用于异构数据（例如SNP），这导致了模型表现不佳。我们发现这样的论文并不在少数。

那些正确使用AI工具的人主要将其应用在分析基因组的较小子序列，例如启动子或蛋白质结合位点。他们的输入数据最长为一到两万个核苷酸。相比之下，拟南芥基因中的核苷酸数量接近1.35亿，而这仅仅是我们在第一次测试中所使用的基因之一。因此，我们没有现成的范例或已有的神经网络架构可供参考，也没有针对这种大小序列的训练技术，完全没有！我们必须从头开始。

大家都在研究什么？

我感到奇怪，因为研究基因组数据具有巨大的潜力。高通量测序可产生大量数据，而AI似乎是理所当然的研究工具。然而，按论文的比例衡量，基因组学只占AI研究关注的1％。

那么剩下的99％在哪里？基因组数据的AI应用显然是一个机遇，如果这样一个宝贵的研究课题都被忽视了，那么也许还有更多研究课题有待探索。

我回到arXiv寻找其他潜在的AI应用方向。例如，现代天文学会生成大量数据：影像数据、射频、带注释的天体（包括天空的最小部分）等。还有可能改变我们对宇宙认知的重大问题，例如“什么是暗物质？”，例如恩里科·费米（Enrico Fermi）所提出的著名问题的“他们都在哪呢？”

利用AI的力量通过分析宇宙中探测到的天文数据来解决这些重要的谜题，应该是一个显而易见的方向，不是吗？

然而现在在arXiv搜索“深度学习暗物质”，却只有20个结果。

接下来是什么？材料科学？现代强化学习模型可以击败围棋和星际争霸2中最好的人类玩家。这些模型的表现如此出色，以至于AlphaGo的胜利被刊登在《自然》杂志上，最近，世界上排名最高的围棋选手李世石选择退役，留下一句话，“AI难以被击败”。（注：李世石的原话是“即使我成为棋手中的第一，我也无法站到顶点了，因为还有一个个体是我无法打败的。”听起来好悲壮o(╥﹏╥)o ）

这个消息令人鼓舞，将相同的方法应用于材料科学怎么样？人类已经对物理和化学了解很多。我们可以构建一个模拟器，在其中可以通过强化学习来学习如何自行创建新材料（例如石墨烯）。这些新材料可以创造出新的飞机和舰船，空间升降机，水下站，甚至帮助人类移民到外太空。这应该是一个有趣的研究方向。

这世界真小

事实证明，几乎所有现代AI研究和工业应用都聚焦于两个子领域中的十几个技术问题：计算机视觉和自然语言处理。

我们可以使用倒金字塔为AI世界建模。每个较低的层级都启发较高的级别模式，对其进行具象化并在某种意义上对其进行定义。

最底层是非常深入的基础科学和技术。它涉及对神经网络，算法优化，统计属性以及这些工具的概率性质的理论理解。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页