微软面临着三项关键速录公司的挑战: 收集口语语料

日期:2016-09-19 / 人气: / 来源:网络整理

  —— 你这是什么意思啊?

  —— 没什么,意思意思。

  一名新入职场的翻译员,担心越来越厉害的机器翻译抢了自己饭碗,于是在知乎上发问,“这个行业还有没有前途?”老司机们纷纷上前安慰,其中一位说,年轻人你兔样兔森破,让机器翻译一下上面这个对话,看能不能搞定,再来担心吧。

  不知道“年轻人”有没有去试。雷锋网去试了试,创造行业公认最厉害的 GOOGle 翻译和微软翻译(Microsoft Translator),确实都搞不定这个极具中国特点的语音对话。但两者的表现,又是不一样的。

  同一段语音,这是 Google 的成果:

  这是微软的成果:

  具体来说。应用语音翻译,Google 会完整保存所有字;微软则会把第一句中的语气词“啊”字省略掉,把第二句中的“意思”省略掉一个(可判定为误伤)。为什么?

  TrueText:去掉“哼哼哈嘿”

  微软告诉雷锋网,之所以省略掉“啊”以及误伤一个“意思”,是因为他们在语音翻译中运用了一项独门绝技——TrueText(智能文本校订)。在一份官方文档中,微软这么解释 TureText 的作用:

  这个过程包含去除造成不流畅的字词(例如“啊”“嗯”以及重复措辞)、将文本分解成句子、添加标点符号和大小写辨认。

  这就是微软的语音翻译技巧,为“口头语”所做的优化之一。Olivier Fontana 是微软研究院 Microsoft Translator 产品战略总监,在八月中旬的一次沟通中,他告诉雷锋网,我们平时说话,说出来的和写下来的表达方法是不一样的(口头语和书面语),TrueText 可以把语音辨认出的文字,变成机器更容易懂得的、有意义的内容,这一技巧微软在全球领域内是独一无二的。

  因为工作关系,本文作者日常要处理不少采访速记,尽管文本经过速录员的“人工优化”——去掉了不少语气词,但通篇文档中找到几个持续的完整句子,几乎是不可能的。除了筹备好的演讲稿,很少有人平时说话的时候可以用连贯的语句,表达自己的意思。人在说话时,本来就是磕磕绊绊的,是“话中有话”的,速录公司,是“不言而喻”的,机器懂得人的本意,再转换成另一种语言,更是难上加难。TrueText 技巧相当于用机器做了口语文本内容的收拾。

  语音翻译:为对话而优化

  很多人认为,语音翻译就是先把语音辨认为文本,再把文本翻译为另一种语言的过程。其实不是这样。

  Olivier Fontana 告诉雷锋网(搜索“雷锋网”公众号关注),微软尝试过这种简略拼接的方法,但翻译质量无法令人满意。最终微软的方案是,在语音辨认阶段就为口语的辨认做了特别的输入优化,辨认之后的文本经过 TrueText 技巧的处理,再进入文本翻译阶段,文本翻译的输出成果也要为口语做优化,最终通过成熟的 TTS 技巧让机器“读出来”翻译成果。

  Olivier Fontana 说,在“实时对话场景”的翻译模型研发过程中,微软面临着三项要害的寻衅:

  收集口语语料。需要大批时间和金钱,来收集口语化的语料数据。

  训练这些语料。这一项的运算成本非常高,需要大批的运算能力和硬件加速系统。

  开发口语模型。每一种语言的口语表达方法和发音方法都不一样,同一种语言不同年级的人声音、俚语、语速和表达方法也不一样,现场速记,很难用同一种模型去实现。

  微软介绍,针对口语的翻译优化,尤其是针对聊天对话内容的优化,以及 TrueText 技巧,微软在业界都是唯一的。

  Olivier Fontana 表现,传统机器翻译都是基于比较正式的文本翻译,微软则参加了大批基于口语对话的语料库。他流露,微软甚至还花钱请了很多人到 Skype Translator 上聊天,谈他们的假期,日常生活,作为口语数据进行搜集。

  “对话即平台”

  Skype Translator 的实时语音翻译技巧,一经问世,就引发了行业关注。这是一项让两个不同语言的人,可以实时通过自己的母语进行语音进行沟通的“黑科技”(见视频)。微软最早在 2012 年天津的一次学术运动上展现了这项技巧。2014年12月,北京速记,这项技巧在 Skype Translator 利用上实现商用,之后陆续运用到桌面版 Skype Translator 和Microsoft Translator 手机App中。今年上半年,这项技巧迎来新的里程碑,微软将 API 开放给所有人,方便开发者将其集成到自己的利用中。

  微软翻译针对语音“对话”进行的种种优化,很容易让人联想到,这家公司在年初 Build 大会上颁布的战略“对话即平台”。他们还流露,在今年年底前,将为Office 365企业用户供给 Skype Meeting BroadCAst 服务。通过该服务,可以主动为网络会议添加字幕,并将会议实时地翻译成不同语言展现出来。

作者:北京速记公司


现在致电 010-63797486 OR 查看更多联系方式 →

Go To Top 回顶部