对话微软小冰三大首席科学家:用抖音神曲训练AI,机器作曲潜力巨大
智东西(公众号:zhidxcom) 智东西11月21日消息,今天,微软小冰首席科学家宋睿华、首席NLP科学家武威、首席语音科学家栾剑在微软总部的小型媒体交流会上,介绍了微软小冰今年在自然语言处理、语音学研究、多模态生成等领域研究进展。
▲从左到右:微软小冰首席NLP科学家武威、首席语音科学家栾剑、首席科学家宋睿华 在会后的采访中,栾剑告诉智东西,在AI编曲方面,小冰将寻找更多数据,生成更多的模式和风格。比如小冰可以从“抖音神曲”中挖掘现在流行的音乐风格,生成更好的音乐。 一、AI学会北极熊怎么“蹑手蹑脚”据微软小冰首席科学家宋睿华介绍,今年,微软小冰团队在各大国际会议上发表了48篇论文/文章、获得了包括全双工AI技术在内的72项专利。 当前小冰已经在搭载在4.5亿台第三方智能设备,平均对话轮数(CPS)达到23轮。 宋睿华分享了小冰在比喻、联想方面的进展,以及如何让小冰像人一样能将故事理解成画面。
▲小冰通过联想连接词等方式生成的比喻句 此外,小冰像人一样能将故事理解成画面的能力涉及当前很火的“跨模态理解”技术。 比如在语言方面,当人类阅读一段北极熊捕猎海豹的文字时,脑海中将会主动浮现相应的场景。
而且,虽然文字段落里完全没有提到北极熊是白色的、周围冰天雪地的世界是白色的,但是人类可以通过常识补充这种缺失的信息。 宋睿华告诉智东西,当前,AI在常识领域依旧存在缺失,因为人类不会把习以为常的东西写进文字里,比如人类不会专门说“我今天用两条腿走路”。对于AI常识补充方面,孕育了不少可挖掘的东西。 同时,人类可能没有见过北极熊“蹑手蹑脚”的样子,但可以把自己家里面猫蹑手蹑脚的样子进行代入。通过向人类学习,小冰也可以调动出以前的经验,模拟出当前的场景,像人一样能将故事理解成画面。
▲小冰对“画饼充饥”故事的图像理解 宋睿华告诉智东西,在未来一两年里,微软小冰将继续往多模态方向发展,未来小冰如果有一个具体的形象,变成有摄像头(有眼睛)、有麦克风(有耳朵),这种多模态AI技术将会是未来的发展重点。 二、从简单回复到信息增量微软小冰首席NLP科学家武威今天分享的主题是《朝向自我完备的对话机器人(Towards a Self-Complete Chatbot)》。 武威说,“自我完备(Self-Complete)”是团队内部自己“造”的词,但是它能够最好地概括小冰过去几年的成果。 对于对话机器人来说,“自我完备”主要指的是具备以下几大能力:
1、具备学习能力(初级能力包括从人类对话进行中学习;高级能力包括从其他对话机器人中学习) 2、具备对话的自我管理能力(初级能力包括能够知道自己在单轮对话中需要表达的内容、高级能力包括有能力把握整个对话流程) 3、具备知识联通能力(能够连接世界上多项多模态知识) 以从人类对话中进行学习来举例,通过小冰团队打造的生成模型(Generation Models)小冰与人类的对话可以从单独进展到多轮、从简单回复进展到具备信息增量的内容等等。
上图是三种不同模型针对同一对话给出的不同回复,当人类给出“我的皮肤好干”对话时,SSA模型给出的回复是“啊啊啊啊”,S2SA-MMI模型给出的回复是“我也是啊”,微软的TA-Seq2Seq模型给出的回复是“那就补水保湿吧”——“补水保湿“就是一个明显的信息增量内容。 武威说,这项研究虽然研究时间不长,但是发展得非常快。 此外,当前,全双工多轮对话等技术在AI语音交互领域非常火,在过去几个月之内,百度、阿里、小米等都陆续发布了相关的新品。 武威告诉智东西,微软小冰很早就推出了相关功能,而且小冰的多轮对话能力不仅仅是让小冰把上下文理解得更准确、给出更准确的回复,更重要的是小冰会把控整个对话流程、进行有来有往的对话引导。因为人类的交流过程不是一个简单的问答模式,而是有目的、有情商的交流。 三、AI唱歌的难点:清唱数据缺乏微软小冰首席语音科学家栾剑分享了微软小冰在AI唱歌方面的进展。 栾剑说,微软小冰做唱歌技术的原因有三点:1、AI唱歌比AI说话的技术门槛更高;2、唱歌的情感表达更丰富、更激烈;3、唱歌是一个非常重要的娱乐方式。
而唱歌的三大要素则包括吐字发音、节拍、旋律。这三大要素将通过两种方式输入机器,第一种是通过已有音频输入、第二种则是通过曲谱输入。 栾剑说,对于AI唱歌来说,由于清唱数据严重缺乏,必须利用大量混合伴奏音轨的数据进行训练。 (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |







