AAAI 2020学术会议提前看:常识知识与常识推理
|
理论上讲,C-R Reasoning 方法可以以端到端的方式进行训练,然而常识推理模块中语义图的构建面临优化挑战,因此作者设计了迭代算法,在常识推理模块的语义图生成和关系推理模块的描述生成之间交替优化。算法如下所示:
实验评估 作者使用了 MSVD 视频数据集和 MSCOCO 图像数据集进行了实验,MSVD 数据集从 Youtube 视频收集而来,训练验证和测试集划分为1200,100,670。MSCOCO 数据集包含超过100K 图像,每个图像有5个描述,作者采用的训练验证和测试图片数量划分为113287,5000,5000。此外,作者还对中文视频描述数据集 Youku-VC 进行了定性实验,训练验证测试数据划分为1000,215,215,每个短视频带有10个中文描述在 MSVD 和 Youku-VC 上的可视化结果已在前文的图1.1中展示。 Table1展示了 MSVD 视频数据集上的实验结果,前四种方法是简单的 sequence-to-sequence 模型,没有利用到对象间的关系,相比而言作者的方法取得了更好的性能,证明了联合常识和关系推理的优越性。与使用了在图像数据集上预训练的检测器然后视频中检测对象的方法相比,作者的方法仍旧更好,说明使用先验知识来识别对象是更为可靠的。Table2展示了在 MSCOCO 图像数据集上的结果,与未利用语义信息的方法相比(第一行)更高,与使用了预训练检测器的方法相比,作者提出的方法也是能够与之相提并论的。作者同样展示了他们的方法使用预训练的 Faster R-CNN 检测器用于从图像中提取初始区域的结果。此外,针对各部分的消融实验证实了各模块的有效性,如 Table3所示。
笔者小结 这篇论文并不是聚焦于常识知识和常识推理本身,而是联合常识和关系推理使得图像和视频描述中那些「难以捉摸」,「并非直接可见」的物体或关系现形,使得描述更加精准。并且本文的方法并不需要使用预训练的对象或关系检测器。通过这种常识性关系,联合学习的策略,能够更好地实现全局语义的一致性。笔者认为这篇论文对于将常识知识、常识推理用于视频图像描述、视觉知识问答等领域一定的启发。 参考文献:[1]Johnson J, Gupta A, Fei-Fei L. Image generation from scene graphs[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1219-1228.[2]Anderson P, He X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6077-6086. Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering (利用异构外部知识基于图的推理进行常识知识问答) 论文链接:https://arxiv.org/pdf/1909.05311.pdf 论文引入 常识问答往往需要那些并没有在问题中显著表达的背景知识。这一挑战的关键在于如何从外部知识中获取证据并根据证据做出预测。 如图2.1所示,问题「人们在弹吉他的时候通常做些什么?」选项 A. 哭 B. 听声音 C. 唱歌 D. 关节炎 E. 制作音乐,根据从 ConceptNet 上的证据可以帮助我们挑出 A 和 C 这两个选项,根据来自维基百科的证据,我们可以挑出 C 和 E 两个选项,结合二者,我们能够得到正确答案 C。 来自结构化的知识源(如 ConceptNet)包含概念之间的宝贵结构关系,对于推理很有帮助,但是它们的覆盖率低。而纯文本知识源(如维基百科)是对结构化知识的补充,可以提供丰富且覆盖面广的证据。最近的研究还没有同时利用这两类知识源进行推理的,因此在这项工作中,作者提议自动从这两个异构知识源中提取证据,并根据提取的证据回答问题。
图2.1 CommonsenseQA 数据集中的一个示例,该示例需要多个外部知识才能做出正确的预测。 论文方法 本文的方法包括知识提取和基于图的推理两个部分,如图2.2所示。
图2.2本文方法概览 (1)知识提取部分:根据给定的问题和选项,从结构化知识库 ConceptNet 中自动提取图路径,从维基百科纯文本中自动提取句子。为了更好地利用证据的关系结构,作者为两种知识源分别构建图。ConceptNet 是大型常识知识库,常识知识由三元组表示(实体节点,关系,实体节点),对于给定的问题和选项,首先识别出其中的实体,然后在 ConceptNet 中搜索从问题实体到选项的路径,将涉及到的三元组合并到一个图中,让三元组作为节点,边为三元组之间的关系;对于维基百科的句子,作者使用了 Elastic Search 工具为句子建立了索引,在删除问题和选项中的停用词后进行搜索,将匹配到的维基百科句子根据匹配分数进行排名,取前 K 个匹配句子作为证据,并通过语义角色标记(Semantic Role Labeling)为维基百科证据中的每个谓语提取主语(主体)和宾语(客体),将主语谓语和宾语作为图的节点,将谓语和其它两者之间的关系作为图的边。
(编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |







