AAAI 2020学术会议提前看:常识知识与常识推理
|
图3.1 PIQA 数据样本示例 PIQA 数据集 PIQA 专注于日常生活中的物理常识,偏爱非典型的解决方案。图3.1展示了一个 PIQA 示例,要使用矿泉水瓶将蛋黄和蛋清分离开你应该怎么做?a. 对着蛋黄挤压矿泉水瓶,然后再松开,就能产生吸力吸走蛋黄。b. 将矿泉水瓶放在蛋黄上,不断推动,就能够产生吸力吸走蛋黄。对于人类来说,选出答案 a 是很容易的,而机器却很容易上当。
图3.2 PIQA 数据集示意(左边的问答更侧重于物体的属性,右边的问答从技术角度而言都是对的,但是侧重于更方便可取) PIQA 数据集的产生 PIQA 任务的本质是选择问答,给定问题 q 和两个可能的解决方案 s1,s2,其中只有一个是正确的 (如图3.2所示),模型或人类必须选择最合适的解。数据集由人工注释者按照目的-解决方案对进行定义。目的可被看作一种后置条件,而解决方案则表示完成这一条件的过程。目的越详细,就越容易写出正确和不正确的解决方案。为了提醒注释者进行创造性地思考设置出非典型性的解决方案,会启发注释者从 instructables.com 网站的链接上获取灵感以构建任务数据集。instructables.com 网站是一个众包指导网站,指导如何使用日常材料构建、制作、烘焙,涉及到从烹饪到汽车维修等等,大多数情况下每个步骤会配有图像、视频以及所需要的工具列表。注释者会使用一些语言上的技巧,对正确的解决方进行细微的修改就能得到错误的方案,比如说改变某个关键词,改变数值,替换成对实现目的没有帮助的另一个动作等等。在对数据集进行验证时,会将需要专家知识的样本进行移除,并使用 AFite 算法进行进一步清理。 PIQA 数据集信息统计 PIQA 数据集由16,000多个训练的 QA 对组成,另外分别提供了约2K 和3K 进行开发和测试。目的长度平均为7.8个单词,正确和不正确的解决方案平均长度为21.3个单词,正确和不正确解决方案所使用的单词之间至少有85% 的重叠。通过对名词,动词,形容词,副词出现的词频统计,验证了数据集确实是和物理现象强相关的。比如,出现词频最高的形容词中包括状态(干燥的、干净的、烫的),形状(小的、锋利的、平坦的),形式(快速的、仔细的),这些属性通常决定了解决方案的正确与否。
实验评估 作者在 GPT 模型,BERT 模型,和 RoBERTa 模型(BERT 的一个版本,使用了更多数据进行预训练)上进行了实验。实验结果如 Table 1所示,结果表明现今最好的模型和人类之间仍有近20% 的差距。接下来作者对数据集的哪些方面愚弄了 RoBERTa 模型进行了分析。两个解决方案的编辑距离(即不同单词的个数)越大,模型的准确率越低。作者发现 RoBERTa 模型仍旧难以理解许多常见且通用的物理概念,如图3.4所示,验证集样本 (q,s1,s2) 中 s1和 s2唯一的区别在于单词 w,当 w 是'cold','before','after'时,RoBERTa 模型的准确率接近随机猜测50%。以准确率较高的'water'和'spoon'为例,作者进一步探究了训练集中最常替代它们的词汇,如图3.5所示。替代勺子的最常见词汇是叉子、刀子,但物理世界中勺子通常不能用锋利的或者尖头的器具进行代替,RoBERTa 在'spoon'上的表现 (90%) 表明它可能理解到了勺子的这种简单特性。'water'在训练集中很常见,具有很高的通用性,替代它的最常见词汇是牛奶、油、苏打,物理世界中用这些东西替代水可能会产生很糟糕的后果,RoBERTa 约75% 的准确率表现,说明它对'water'的概念还没有理解到位。而'freeze'仅66% 说明动词的理解对于 RoBERTa 而言仍不是强项。
(左)图3.4通过常识概念看 RoBERTa 对物理世界的理解(右)图3.5 『water』,『spoon』,『freeze』的最常见替换词 笔者小结 本篇论文提出的任务非常新颖,物理常识推理任务,相较于常识知识库中所收纳的那类常识而言,物理常识更注重于物体的物理属性,且 PIQA 数据集偏向于非典型性物理常识,不能直接从已有的文本库中得到答案。对于这类物理常识推理问题,目前最好模型的表现与人类仍有较大差距,说明模型缺乏对物理世界一些最基本物理特性的理解。如果在此类问题上能有所突破,那么人工智能领域将会更进一步。 总结 笔者选取的这3篇论文从不同角度展示了常识知识、常识推理的研究进展。第一篇论文打开视野,将常识与关系推理相结合,应用到图像视频描述生成的领域,三个部分互相配合,达到了很好的效果。第二篇论文提出新的方法来解决常识知识问答问题,将异构常识知识源融合到同一表示空间,使用图推理进行常识知识问答,在标杆数据集 CommonsenQA 上效果极佳。第三篇论文推出了新的物理常识推理任务并提出了 PIQA 数据集,为未来常识问题的研究提供了机遇和挑战。由于常识知识、常识推理常常和自然语言理解、视觉问答等相结合,因此解决和常识相关的问题相比一般的自然语言处理和计算机视觉问题更为棘手,但除了第三篇是介绍数据集为目的,第一篇和第二篇文章不约而同的都采用了图或者图神经网络来解决,说明了这可能是解决该问题的一个方向。目前最先进的语言模型在解决常识知识、常识推理等问题时仍和人类有较大差距(如在 CommonseQA 和 PIQA 上的表现),常识知识和常识推理仍然是人工智能中值得探索的领域! AAAI 2020接收论文列表:https://aaai.org/Conferences/AAAI-20/wp-content/uploads/2020/01/AAAI-20-Accepted-Paper-List.pdf 本次 AAAI2020其它相关论文: · Commonsense Knowledge Base Completion with Structural and Semantic Context(利用结构和语义上下文的常识知识库实现) · 论文链接:https://arxiv.org/pdf/1910.02915.pdf · Understanding the semantic content of sparse word embeddings using a commonsense knowledge base(使用常识知识库理解稀疏词嵌入的语义内容) · 论文链接:https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_29.pdf · Evaluating Commonsense in Pre-trained Language Models(在预训练语言模型中评估常识) (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



