对话微软小冰三大首席科学家：用抖音神曲训练AI，机器作曲潜力巨大

发布时间：2019-11-21 17:15:35 所属栏目：智能家居来源：网络整理

导读：微软小冰2019科研成果全亮相！

智东西（公众号：zhidxcom）
文 | Lina

智东西11月21日消息，今天，微软小冰首席科学家宋睿华、首席NLP科学家武威、首席语音科学家栾剑在微软总部的小型媒体交流会上，介绍了微软小冰今年在自然语言处理、语音学研究、多模态生成等领域研究进展。

▲从左到右：微软小冰首席NLP科学家武威、首席语音科学家栾剑、首席科学家宋睿华

在会后的采访中，栾剑告诉智东西，在AI编曲方面，小冰将寻找更多数据，生成更多的模式和风格。比如小冰可以从“抖音神曲”中挖掘现在流行的音乐风格，生成更好的音乐。

一、AI学会北极熊怎么“蹑手蹑脚”

据微软小冰首席科学家宋睿华介绍，今年，微软小冰团队在各大国际会议上发表了48篇论文/文章、获得了包括全双工AI技术在内的72项专利。

当前小冰已经在搭载在4.5亿台第三方智能设备，平均对话轮数（CPS）达到23轮。

宋睿华分享了小冰在比喻、联想方面的进展，以及如何让小冰像人一样能将故事理解成画面。

对话微软小冰三大首席科学家：用抖音神曲训练AI，机器作曲潜力巨大

▲小冰通过联想连接词等方式生成的比喻句

此外，小冰像人一样能将故事理解成画面的能力涉及当前很火的“跨模态理解”技术。

比如在语言方面，当人类阅读一段北极熊捕猎海豹的文字时，脑海中将会主动浮现相应的场景。

对话微软小冰三大首席科学家：用抖音神曲训练AI，机器作曲潜力巨大

而且，虽然文字段落里完全没有提到北极熊是白色的、周围冰天雪地的世界是白色的，但是人类可以通过常识补充这种缺失的信息。

宋睿华告诉智东西，当前，AI在常识领域依旧存在缺失，因为人类不会把习以为常的东西写进文字里，比如人类不会专门说“我今天用两条腿走路”。对于AI常识补充方面，孕育了不少可挖掘的东西。

同时，人类可能没有见过北极熊“蹑手蹑脚”的样子，但可以把自己家里面猫蹑手蹑脚的样子进行代入。通过向人类学习，小冰也可以调动出以前的经验，模拟出当前的场景，像人一样能将故事理解成画面。

对话微软小冰三大首席科学家：用抖音神曲训练AI，机器作曲潜力巨大

▲小冰对“画饼充饥”故事的图像理解

宋睿华告诉智东西，在未来一两年里，微软小冰将继续往多模态方向发展，未来小冰如果有一个具体的形象，变成有摄像头（有眼睛）、有麦克风（有耳朵），这种多模态AI技术将会是未来的发展重点。

微软小冰首席NLP科学家武威今天分享的主题是《朝向自我完备的对话机器人（Towards a Self-Complete Chatbot）》。

武威说，“自我完备（Self-Complete）”是团队内部自己“造”的词，但是它能够最好地概括小冰过去几年的成果。

对于对话机器人来说，“自我完备”主要指的是具备以下几大能力：

对话微软小冰三大首席科学家：用抖音神曲训练AI，机器作曲潜力巨大

1、具备学习能力（初级能力包括从人类对话进行中学习；高级能力包括从其他对话机器人中学习）

2、具备对话的自我管理能力（初级能力包括能够知道自己在单轮对话中需要表达的内容、高级能力包括有能力把握整个对话流程）

3、具备知识联通能力（能够连接世界上多项多模态知识）

以从人类对话中进行学习来举例，通过小冰团队打造的生成模型（Generation Models）小冰与人类的对话可以从单独进展到多轮、从简单回复进展到具备信息增量的内容等等。

对话微软小冰三大首席科学家：用抖音神曲训练AI，机器作曲潜力巨大

上图是三种不同模型针对同一对话给出的不同回复，当人类给出“我的皮肤好干”对话时，SSA模型给出的回复是“啊啊啊啊”，S2SA-MMI模型给出的回复是“我也是啊”，微软的TA-Seq2Seq模型给出的回复是“那就补水保湿吧”——“补水保湿“就是一个明显的信息增量内容。

武威说，这项研究虽然研究时间不长，但是发展得非常快。

此外，当前，全双工多轮对话等技术在AI语音交互领域非常火，在过去几个月之内，百度、阿里、小米等都陆续发布了相关的新品。

武威告诉智东西，微软小冰很早就推出了相关功能，而且小冰的多轮对话能力不仅仅是让小冰把上下文理解得更准确、给出更准确的回复，更重要的是小冰会把控整个对话流程、进行有来有往的对话引导。因为人类的交流过程不是一个简单的问答模式，而是有目的、有情商的交流。

微软小冰首席语音科学家栾剑分享了微软小冰在AI唱歌方面的进展。

栾剑说，微软小冰做唱歌技术的原因有三点：1、AI唱歌比AI说话的技术门槛更高；2、唱歌的情感表达更丰富、更激烈；3、唱歌是一个非常重要的娱乐方式。

对话微软小冰三大首席科学家：用抖音神曲训练AI，机器作曲潜力巨大

而唱歌的三大要素则包括吐字发音、节拍、旋律。这三大要素将通过两种方式输入机器，第一种是通过已有音频输入、第二种则是通过曲谱输入。

栾剑说，对于AI唱歌来说，由于清唱数据严重缺乏，必须利用大量混合伴奏音轨的数据进行训练。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!