AAAI 2020学术会议提前看：常识知识与常识推理

发布时间：2020-02-08 10:13:08 所属栏目：数据来源：网络整理

导读：AAAI 2020学术会议提前看：常识知识与常识推理

（原标题：AAAI 2020学术会议提前看：常识知识与常识推理）

人工智能顶级会议 AAAI 2020将于2月7日-2月12日在美国纽约举办，AAAI 2020最终收到8800篇提交论文，评审了7737篇，接收了1591篇，接收率20.6%。

常识问题是人工智能领域最难的问题之一。在 NLP 领域，BERT 模型虽然已经表现出色，但是在常识知识问答数据集上的性能仍旧远低于人类。在计算机视觉领域，结合视觉场景的常识知识问答问题仍然具有较大难度。促进人工智能发展，使得机器具有「常识思维」，对于常识知识、常识推理的研究是值得关注的未来发展方向。本次 AAAI 2020学术会议论文提前看，笔者挑选了常识知识、常识推理相关的3篇论文为大家作以解读。

Joint Commonsense and Relation Reasoning for Image and Video Captioning（联合常识和关系推理用于图像和视频描述） 论文链接：https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf 论文速览 这篇论文是北京理工大学和阿里合作的一篇关于利用对象之间的关系进行图像和视频描述 (image caption/video caption) 的论文。大多数现有方法严重依赖于预训练的对象及其关系的检测器，因此在面临诸如遮挡，微小物体和长尾类别等检测挑战时可能效果不佳。在本文中，作者提出了一种联合常识和关系推理的方法 (C-R Reasoning)，该方法利用先验知识进行图像和视频描述，而无需依赖任何目标检测器。先验知识提供对象之间的语义关系和约束，作为指导以建立概括对象关系的语义图，其中一些对象之间的关系是不能直接从图像或视频中获得。特别是，本文的方法是通过常识推理和关系推理的迭代学习算法交替实现的，常识推理将视觉区域嵌入语义空间以构建语义图，关系推理用于编码语义图以生成句子。作者在几个基准数据集上的实验验证了该方法的有效性。为了让大家更直观的感受，图1.1率先为大家展示了本文的方法在 MSVD 英文视频数据集和 Youku-vc 中文视频数据集上的定性结果。

AAAI 2020学术会议提前看：常识知识与常识推理

图1.1本文方法在 MSVD 视频数据集合 Youku-vc 中文视频数据集上的效果示例黄色和蓝色的框分别表示对象和关系的候选，『o-r-o』表示的是语义图中的『对象-关系-对象』，『o-r-a』表示的是『对象-关系-属性』。Ours 指的是作者的方法生成的描述，GT 是真实的描述语句。三张图片表示的是从视频中随机采样的帧。作者的方法能够检测出一些难以「检测」的物体来生成精准的描述，比如 (b) 中用来化妆的小物体眉笔，比如 (d) 中被严重遮挡的人，分别通过先验知识<woman,put_on,makeup>和<woman,play_with,cat>推断了出来。并且该方法也能生成中文描述如 (c) 和 (f)，圆括号中的英文是对中文的翻译。 论文方法 C-R Reasoning 方法包括三个模块，如图1.2所示。视觉映射和知识映射模块（Visual Mapping & knowledge mapping）在生成语义实体候选后，通过视觉映射学习语义实体候选的视觉特征向量，通过知识映射来学习候选的知识向量。常识推理模块 (Common sense)根据给定的候选，在先验知识图的指导下构建语义图。关系推理模块 (Relation Reasoning)中根据给定的语义图，通过图卷积网络 (GCN) 和基于序列的语言模型来生成文本描述。

AAAI 2020学术会议提前看：常识知识与常识推理

图1.2以生成视频描述为例展示 C-R Reasoning 方法1. 视觉映射和知识映射模块 (1) 视觉映射用于生成语义实体候选（例如对象，属性，关系）的视觉特征。对象和属性的候选通过局部区域的视觉特征表示。而关系候选是通过两个局部区域联合的视觉特征表示。使用预训练的 CNN 从输入图片或视频中密集采样局部区域，将采样的区域进行聚类，将聚类中心的候选作为代表性候选，将候选的视觉特征向量记为 V。 (2) 知识映射通过将候选的视觉特征向量 V 映射到先验知识的知识嵌入向量语义概念空间中，学习候选的知识向量 K。K=[k1,...,k_(Nv)]，其中 ki=Epi，E 表示知识嵌入向量，pi 表示知识嵌入向量的权重。知识嵌入向量使用 Visual Genome 上的知识图计算。作者构建了三种非线性映射网络来为对象、关系和属性这三类概念标签软分配（soft-assign）视觉特征向量。概念标签的真实值通过对真实描述使用词类标注工具得到。

AAAI 2020学术会议提前看：常识知识与常识推理

图1.3 C-R reasoning 迭代执行示意图2. 常识推理模块将视觉特征向量 V 和知识向量 K 作为输入，使用非线性映射函数 si=φ(vi,ki) 将候选表示为语义特征 S。语义特征满足通过常识推理标准推断出的对象，关系和属性之间的相关性和约束，以生成图像或视频的语义图。语义映射φ() 通过 C-R Reasoning 框架的反向传播进行更新。具体来说，知识图是三元组集，每个三元组 (Sh,Sr,St) 表示头实体 Sh 和尾实体 St 之间的关系 Sr。三元组的相关性准则由下式表示：

AAAI 2020学术会议提前看：常识知识与常识推理

其中 W 是将语义特征转换成复向量的权重矩阵，带上划线的 Ws^t 是 Ws^t 的复共轭，<>表示三元组中向量的多线性点乘，Re() 是取实部，Im() 是取虚部。从候选中选择对上述准则有较大响应的三元组来生成语义图。 3. 关系推理模块关系推理模块采用 GCN+LSTM 的模式，使用 [1] 中提出的图卷积网络沿着图的边来传播信息，并根据上下文对语义图中的特征进行编码，以生成对关系敏感的 (relation-aware) 三元组特征。采用了 [2] 的模型，该模型用自上而下的注意力 LSTM 来加权视觉特征，用语言 LSTM 来生成描述。根据加权的视觉特征和注意力 LSTM 中的隐藏状态计算出三元组特征的注意力权重，级联后输入到语言 LSTM 中可获得单词描述的条件分布。 4. 模型训练总的损失 L=L_c+βL_s，其中β是超参数，L_c 是用于生成句子的交叉熵损失，L_s 用于指导学习三元组的语义特征。

AAAI 2020学术会议提前看：常识知识与常识推理

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/4

尾页