|
微软小冰从四年前的对话型 AI 到当前将创造力投射至诗歌、音乐、儿童有声读物、金融信息、电视电台主播、媒体新闻评论乃至辅助写作等多元领域,这表明,我们最初埋下的那颗心智的种子,现在似已破土露出了一点嫩芽。
下一站 3x3 实现更主动更具个性的人机对话
微软小冰的下一站在哪里?心智的嫩芽能继续成长壮大吗?答案是,我们正在建立「3x3」的人工智能发展图谱,以此来进一步加速小冰的升级速度。
第一个 3,是整合自然语言处理、语音和计算机视觉三大学科的研究成果,以多模态交互,训练小冰更快进步。
此前,上述学科都是在各自的轨道上独立发展。近年来,深度学习技术与算法的改进先后使语音识别和图像识别实现了显著的突破,人们翘首企盼自然语言处理技术也能达成类似的突破。过去一年里,我们结合了计算机视觉技术来训练小冰的诗歌创作能力,并以此评估多模态交互能否促进人工智能技术的演进,结果令人兴奋。
-
借助图像识别生成诗歌文本涉及到多项挑战,包括发现图像中潜藏的诗意线索(例如绿色可象征生机、阳光可代表希望)以及生成的诗歌既与图像相关,又能满足语言层面的诗意要求。
对于这些挑战,我们的解法是,通过策略梯度,将诗歌生成工作划分成两个相关的多对抗训练子任务,并提出了学习深度耦合的视觉诗意嵌入,训练过程中,机器可以连带学习图像中物品、情感和场景的诗意呈现。
我们还建立了两种指导诗歌生成的判别网络,包括多模态判别器和诗歌风格判别器。研究团队应用自己的模型生成了 8000 张图像,进行了大规模的实验,其中 1500 张图像是随机选取的。我们还邀请了 500 位人类受试者进行图灵测试,其中 30 名评估者是诗歌方面的专业人士,测试结果证明,我们的作诗方法比其他基准方法更高效也更具艺术性。
-
我们还极大地扩展了小冰的音乐能力。现实中,很多人喜欢唱歌,但只有极少数人才有能力创作歌曲,不仅如此,要想演绎出一首动人心弦的歌曲,往往需要一组音乐人通力合作——从作词作曲到编曲,从演唱、伴唱到演奏、录制,流程繁复又漫长。
微软(亚洲)互联网工程院在苏州的一支团队提出了一项关于流行音乐生成的新创意。团队提出了一个端到端的旋律及编曲生成框架,将之命名为「小冰乐队」。这个框架首先通过一个基于和弦的节奏及旋律交叉生成模型(CRMCG)来生成一段主旋律,再借助多乐器协同编曲模型(MICA)、根据多模态学习来生成不同乐器的多轨伴奏音乐。最后,团队还对现实世界的数据集进行了大量实验,结果证明了小冰乐队的有效性——相关研究成果已被团队写入论文《小冰乐队:流行音乐的旋律与编曲生成框架》(Xiaoice band: A melody and arrangement generation framework for pop music)。该论文还获得了 KDD 2018(国际数据挖掘与知识发现大会,Conference on Knowledge Discovery and Data Mining)「最佳学生论文奖」(Best Student Paper Award)。
第二个 3,是微软小冰所特有的三大「学习器」,生成模型、共感模型和三观模型。
-
「生成模型」从第五代小冰开始启用。在此之前,历代小冰使用的都是检索模型。虽拥有 10 亿级大数据语料库,但其中的每一句话都是互联网上的已有数据,小冰只是通过分析理解用户的问题,寻找语料库中最合适的话作为她的回答,也就是对对话语料库进行实时检索和选择。使用生成模型之后,小冰能够自创回应。她与人类交流的每一句话,都可能是这世界上从未出现过的。一年来的事实证明,生成模型使小冰快速学习了现有对话语料的交流模式,并能更好地应对相对陌生的话题。
-
(编辑:网站开发网_安阳站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|