图中左边屏幕显会议速记示的是语音识别

日期:2016-09-12 / 人气: / 来源:网络整理

在上一篇文章中人工智能PK金牌速记之实战录,我们讲述了阿里年会人机大战背后的故事。技巧Geek们可能就好奇了?现场的实时转录系统是怎么回事? 其中核心的语音辨认系统到底是什么,工作原理是什么? 阿里云iDST的语音辨认系统正确率为什么可以做到这么高,有什么独得之秘?本文将会将这些问题的答案一一揭晓。

人机大战之现场

阿里云年会现场,图中左边屏幕显示的是语音辨认,右边屏幕显示的是人工速记

上图是视频的截图,展现的就是阿里云年会人机大战的现场情况, 阿里云的掌门人孙权在台上演讲,主动语音系统和速记员分辨给出演讲的文本内容,同时投屏,现场PK正确率。其中,左边的屏幕展现语音辨认的成果,作为字幕显示在实时图像上;另一边则是全球速记亚军姜毅先生将演讲内容速记下来,以白屏黑字的方法显示给观众。

现在问题来了,阿里云iDST的系统是如何做到实时转录并将语音辨认的成果作为字幕展现给观众的呢?

实时转录系统架构

这里给出了演示系统的软硬件架构如下图所示。

音频方案 在音频方面,现场嘉宾的讲话内容通过无线麦克风传递到USB声卡。为了实现同时语音辨认和现场放音的效果,USB声卡的输出中一路送到调音台然后到现场的扬声器播放给观众,另一路则通过PC软件进行音频采集,将采集到的音频数据发送到阿里云语音服务器上运行语音辨认,并将语音辨认的文本成果实时返回,为实时产生字幕做筹备。

视频方案 在视频方面,现场也会产生两路视频输入: 一方面摄影师通过摄像机拍摄嘉宾演讲的画面传回到中控台;另一方面,流式返回的语音辨认成果文本通过渲染产生滚动的字幕效果,并展现在一个纯绿屏图像上。最后,在中控台处,通过抠屏软件将滚动的字幕叠加在嘉宾演讲画面上,产生实时字幕的效果。

在全部系统中,最为核心的算法部分就是一个是语音辨认服务部分,它的作用就是将嘉宾的演讲内容实时转换为文本内容。那么现在问题又来了,北京速记公司,语音辨认是怎么工作的呢?

语音辨认技巧概览

语音辨认就是把语音转换为文字的技巧。经过几十年的发展,它已经成为目前人工智能领域发展的较为成熟的一个利用方向。那么看似神秘的语音辨认技巧背后的基础原理到底是怎么回事呢?鉴于篇幅原因,这里只简略的解释一下语音辨认的基础原理。

目前,主流的语音辨认系统多采用统计机器学习方法完成。一个范例的语音辨认系统由以下几个模块所组成:

语音采集模块。在此模块中,麦克风录入的语音通过采集之后得到一个数字化的语音信号表现,比如一个16k采样率16bit的数字化语音表现,就是将每秒的语音表现为1,6000个16-bit的整数; 特点提取模块。该模块的重要任务是把采集的数字语音信号转换为特点向量,供声学模型处理; 声学模型。声学模型用来表征人的语音跟语音辨认产生的文本在声音上的类似程度。传统上通常应用隐含马尔科夫模型-混杂高斯模型(HMM-GMM),近些年多应用隐含模型科夫模型-深度神经网模型(HMM-DNN)或者其他改良模型表现。 发音词典。发音词典包含语音辨认系统所能处理的所有的词汇及其发音,发音词典实际供给了声学模型建模单元与语言模型建模单元间的映射关系。 语言模型。语言模型对系统所针对的语言进行建模,用来评估辨认出的文本的“流畅程度”。目前利用最广的一种是基于统计的N元文法(Ngram)及其变体。 解码器。解码器是语音辨认系统的核心之一,其任务是对输入的特点矢量,根据声学模型和语言模型,寻找能够以最大概率输出该特点矢量的词串,通常应用基于束搜索(beam search)的维特比算法完成这个搜索过程。  

上面所述就是一般的语音辨认系统的背后基础原理,在很多科普性的介绍中都有所涉及。实际上iDST的语音辨认系统也落在上述介绍的基础框架中,但是iDST的语音辨认系统为什么有这么高的正确率,有什么独得之秘呢?

IDST语音辨认系统

台上一分钟,台下十年功。在阿里云年会上iDST语音辨认系统所展现的超高正确率是建立在iDST语音团队同学丰富的业界经验和过去一年辛苦工作所产生的深厚积累上的。这里就简略介绍一下iDST语音辨认系统所有的独到特点。

业内领先的声学模型建模技巧BLSTM

作者:北京速记公司


现在致电 010-63797486 OR 查看更多联系方式 →

Go To Top 回顶部