苹果最新语音技术论文揭秘！攻坚多语种组合、多人对话识别

发布时间：2020-02-04 22:21:36 所属栏目：智能家居来源：网络整理

导读：苹果Siri语音助手技术揭秘！

重要的是，它们可以在语音信号太短而无法通过声学模型产生可靠预测的情况下提供帮助。例如，如果用户同时安装了英语和德语，像“naIn”这样较短的歧义语句，在德语中可能是表否定的“nein”，在英语中则是表数字“nine”。

为了评估该系统，研究人员还开发了一个名为“平均用户准确度”（Average User Accuracy，AUA）的自定义指标，能够更好地反映模型中的“人口水平”使用模式。

在多语种说话人内部语料库中进行训练的128000口述话语，且带有相应的交互上下文信息的所有语言组合中，它的平均准确率为87%，若与基线相比，其最坏的情况下准确率也提高了60%以上。

此外，在研究团队调整参数以平衡在设备上运行模型的计算量准确度和延迟后，其平均延迟从2秒减少到了1.2秒，并对AUA的影响不超过0.05%。

结语：语音识别技术有待进一步完善和成熟

如今，语音识别已逐渐成为人们手机、电脑、智能音箱、可穿戴设备等多平台和设备中的一个重要应用“窗口”，它对语音和语言识别的准确性也越来越重要，影响着用户的产品使用体验。

但从目前的技术发展看，语音识别技术的应用仍存在着许多局限性，如错误触发、多语种识别准确率低等。苹果作为语音识别领域的重要玩家，其对语音识别进行的种种研究也在一定程度上推进了这项技术的改进和完善。

未来，随着技术的不断成熟和创新，智能语音助手也许将成为人们日常生活、工作中媲美人类管家和助理的重要应用。

文章来源：VentureBeat

论文链接：
1、《用于说话人验证和语音触发检测的多任务学习（MULTI-TASK LEARNING FOR SPEAKER VERIFICATION AND VOICE TRIGGER DETECTION）》https://arxiv.org/pdf/2001.10816.pdf
2、《提高多语言使用者的语言识别能力（IMPROVING LANGUAGE IDENTIFICATION FOR MULTILINGUAL SPEAKERS）》https://arxiv.org/pdf/2001.11019.pdf

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页