苹果最新语音技术论文揭秘！攻坚多语种组合、多人对话识别

发布时间：2020-02-04 22:21:36 所属栏目：智能家居来源：网络整理

导读：苹果Siri语音助手技术揭秘！

智东西（公众号：zhidxcom）
编 | 韦世玮

智东西2月4日消息，据外媒VentureBeat报道，在过去的一周时间里，苹果公司在语音识别领域发表了一系列研究论文，主要研究改善语音触发检测、说话人验证以及对多个说话人进行语言识别的技术。

实际上，苹果一直非常重视语音识别领域的技术研究。目前，其跨平台虚拟助手Siri已覆盖全球5亿以上的用户。

在近期的论文中，苹果也详细介绍了自身的AI语音技术，以进一步帮助语音助手识别热门单词，以及多语种的说话人。

苹果最新语音技术论文揭秘！攻坚多语种组合、多人对话识别

一、说话人验证和语音触发检测

在《用于说话人验证和语音触发检测的多任务学习（MULTI-TASK LEARNING FOR SPEAKER VERIFICATION AND VOICE TRIGGER DETECTION）》论文中，苹果研究人员提出了一种经过训练后可同时执行自动语音识别、说话人识别任务的AI模型。

研究人员在论文中表示，个人语音助手识别的命令通常以触发短语为前缀，例如“Hey，Siri”，其中要检测到该触发短语需要两个步骤。

首先是语音触发检测，AI模型必须确定输入音频中的语音内容，是否与触发短语的语音内容相匹配；其次是说话人验证，AI模型必须确定说话人的语音，是否与一个或多个注册用户的语音相匹配。

这两项任务通常是独立思考的，但研究人员认为，AI模型对说话人的了解可能有助于它推断出声音信号中的语音内容，反之亦然，从而有助于估计这两种属性。

苹果最新语音技术论文揭秘！攻坚多语种组合、多人对话识别
▲模型左分支为语音触发检测器；右分支为说话人验证模型；实线水平箭头表示有固定重量的层；虚线箭头表示有可能有可能没有固定重量的层

基于此，研究人员设计了三套能够学习语音和说话人信息的AI模型。

他们对一组包含16000小时以上且带注释样本的音频数据集进行了训练，其中有5000小时的音频带有语音标签，其余的仅有扬声器标签。

完成训练后，有超过100名受试者在一系列声学设置中，使用智能扬声器设备进行测试，以进一步丰富语料库。其中，声学设置包括安静的房间、房间中有电视或厨房用具的外部噪音和录音机播放的音乐等。

与此同时，研究人员还添加了连续2000个小时的电视、广播和播客音频录制，均不包含触发短语，以测量AI模型的“误报率”。

结果显示，AI模型学习语音和说话人信息的能力，同时在具有相同数量的参数下（控制训练过程某些属性的变量），每个任务的准确性至少与基准模型相同。

实际上，这三种AI模型中有一种在多重设置中的表现优于说话人验证基准，和“与文本无关”的任务基准相比有7.6%的改善。

“这些结果有一个有趣的特点是，这个模型是使用不相关的数据集训练的，也就是说，每个音频样本要么有语音标签，要么有说话人标签，从来没有两者都有。”研究人员在论文中表示。

由此看出，这一测试结果验证了一种灵活的AI语音设计。在该设计中，研究人员可以通过连接不同任务的训练数据，来训练多个相关任务的模型，而不是为每个训练示例获取多个标签。

“从实际的角度看，这种在两个任务之间共享计算的设计，可以节省设备上的内存、计算时间、等待时间以及消耗的电量或电池数量。”研究人员说到。

苹果最新语音技术论文揭秘！攻坚多语种组合、多人对话识别

苹果的另一项补充研究解决了减少错误触发的任务，即语音助手有意忽略像Siri这样的语音助手的语音。

研究人员表示，他们使用了一种在图结构上运行的AI模型，也就是图神经网络（GNN）。该模型的每个节点都与标签相关联，目标是在没有基础事实的情况下预测节点的标签。

“语音触发的智能助手在开始收听用户请求之前，通常依赖于对触发短语的检测……错误触发通常源于背景噪音，或听起来与触发短语相似的语音。”研究人员在论文中表示，减少误触发是构建以隐私为中心的非侵入式智能助手的重要方面。

在未来工作中，苹果研究人员计划将基于图神经网络的处理扩展到其他任务，例如用户意图分类。

在《提高多语言使用者的语言识别能力（IMPROVING LANGUAGE IDENTIFICATION FOR MULTILINGUAL SPEAKERS）》论文中，苹果研究人员探索了一种针对多语言使用者量身定制的说话人语言识别系统。

研究人员表示，语言识别系统对大多数语言都具有较高的准确性，但在多重语言组合的情况下，系统的表现却不尽人意。

事实上的确如此。《华盛顿邮报》在近期进行的一项研究中显示，谷歌和亚马逊的智能音箱听懂美国本土用户的口音，比非美式口音的概率高30％。

此外，像Switchboard这样的语料库也被证明，它对来自美国特定地区的使用者存在可测量的倾斜，该语料库还是IBM和微软等公司用来评估语音模型错误率的数据集。

为了解决这一问题，苹果研究人员将有关使用模式的知识整合到一个听写系统中，该系统能够为60多个地区的说话人作出决策。

苹果最新语音技术论文揭秘！攻坚多语种组合、多人对话识别
▲声学模型现场元精度

声学子模型基于语音信号传达的信息进行预测，并且上下文感知的预测组件会考虑各种交互上下文信号。模型通过这两方面的预测，以选择最佳的单语种自动语音识别系统。

其中，上下文信号包括发出命令的条件信息、已安装的命令语言环境、当前选择的命令语言环境，以及用户发出命令前是否切换命令语言环境的信息。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!