“马云爸爸”成立快一年的达摩院,究竟在做什么?
|
而最近五年比较火的是神经网络机器翻译。直接说在效果上,它是看整个一个句子,不是看一个字,效果会比较好。所以在语句通顺度上会更好,英文它结合了一定上下文的意思来翻译。而唯一的问题是,神经网络机器翻译是一个黑盒子,如果这句话翻译错了,并不能实行人工干预,只能通过继续喂养一定的数据。 在神经网络机器翻译领域,Google算是元老了——不管是新闻、对话、幽默、电视剧,都是一个模型翻。微软,也差不多类似;而Facebook也用这种方法来翻译社交网络。Amazon不太一样,使用通用机器翻译模型。 谈到机器翻译在阿里巴巴的应用,则是不同场景下,建立不同模型。在传统统计机器翻译和神经网络机器翻译下,阿里巴巴开发了一套RBMT规则式机器翻译,采用三种方式翻译,原因在于淘宝需要对抗非标准汉语语法结构。
在一张非常传统的淘宝商品页面,常见的标题可能是“碎花裙子女士明星最爱当季流行杨幂同款”,而用户评论则是正常通顺的语言。 在这样的翻译需求里,数字、日期、地址,专有名词是比较固定的词语,会使用规则翻译。而描述性的、用户评论,则会采取神经翻译的系统。而对于国外用户搜索来说,他们不会去搜索这么冗长的标题,则还需要机器对于标题的内容进行理解总结,对商家冗长的标题进行优化,进行改写。另外阿里巴巴目前已经在结合淘宝图片内容对翻译结果进行合成,标题中的“镜”至少可以翻译成“mirror”、“lens”或“glasses”,但通常情况下,一张产品图就能解释一切。 阿里巴巴不止一次提到,全球化是阿里集团未来20年三大核心战略之一。而让天下没有难做的生意,就演变成要让大家在语言沟通上零障碍。 阿里巴巴提供的数据显示。以阿里巴巴国际站为例,七成买家以英语沟通,剩下30%为西班牙语、俄语、土耳其语等小语种,大约96%的卖家对小语种无能为力。 目前,阿里巴巴已经在做21种语言,48个语言方向,每一天要调动阿里巴巴机器翻译服务7.5亿次,每年翻译120万亿个词,不光印欧语系,还包括要翻译很多小语种语言。葛妮瑜表示,每一个方向都是很精细的做,从来不用搭桥的方式做。 阿里巴巴目前有众多使用到机器翻译的场景,每个场景的需求都需要被细致打磨——天猫出海,速卖通,支付宝,优酷视频字幕,以后电视剧机器都会自动翻译。目前菜鸟物流通关、阿里云国际社区、飞猪旅行翻译助手、钉钉社交口语翻译已经上线。 语音识别,IoT时代的基础技术 相较于前三个技术领域,最后介绍的语音技术可能离我们更近一些。 目前,Google已经推出了基于语音识别的智能音箱,偏智能语言识别和对话,微软小冰也上线了几年,也是通用语音识别,Amazon Echo也采用了语音识别技术,国内百度也有通用语音识别+输入法语音。 (编辑:网站开发网_安阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


