因为即使北京速记有降噪

日期:2016-08-30 / 人气: / 来源:网络整理

    慧聪安防网讯 在很多重要的场合或者对话过程中,需要用到速记,它的特点就是记载速度快、效率高,可以用比汉字快三倍以上的书写速度来记载别人的对话。但速记毕竟是个技巧活,不是人人都可以轻松控制的一项技巧,另外专业速记人员不好请(现场速记略贵)也是一个不争的事实,所以在很多场景下,将现场录音转交速记人员转录成文字成了不二之选。

那么将录音转录为文字,能不需要人工吗?将语音转化为文字,对目前的技巧而言并非难事,很多语音助手都有较高的语音辨认度,就连微信也能直接将语音翻译为文字,就更别说那些能支撑语音输入的输入法们,所以要将将录音转为文字,是可以让机器完成的。

90后创业团队听道在做就是这个,用开创人董建成自己的话说就是“我们自己的‘初心’就是让更多需要技巧来解决问题的人能用得上高新技巧,而不是让技巧成为摆设,有艰苦的人还是得不到解决,所以我们定位是在技巧层到利用层的企业“。录音转文字,听道可能成为速记终结者吗?

录音转文字,听道可能成为速记终结者吗?

雷锋网:语音辨认技巧是自己做的吗?

董建成(公众号:tingdao):目前采用的语音辨认技巧虽然不是自己做得,但也不是哪一家的,而是同时选用了多家语音辨认的技巧。之所以不自己做,是这块如果没有个一二十年的积累,确定是做不出来的,尤其是对于小团队来说,第一没这个能力做,第二即便现在去做,也做不过别人。

选择多家技巧的糅合也不是没有章法的,经过研究对照,我们创造每个引擎(语音辨认技巧)都有自己擅优点理的一个领域,有的擅优点理KTV环境下的录音,有的对大马路上的录音处理效果好,不同环境下,不同领域内的词汇着重,都会影响最终的转录效果。

降噪部分我们自己做,有单独的算法,不但降噪还能主动把每句话是时间点准确地主动地切分好,进步辨认效率,不过音源确定是清楚度越高越好,因为即使有降噪,也会降低辨认正确度,音源清楚发音清楚最好

我们还能通过对录音环境的甄别,领域的划分,对照成果后选择最好的文字浮现给用户,但是对于口音暂时没有主动区分。引擎与最终成果的选择,是系统主动完成的。

雷锋网:让电脑自己去做对照选择,这是怎么做到的?它如何去断定这个录音是在KTV里面录的还是在大马路上录的?它又怎么能知道这个录音说的是科技领域内的东西还是娱乐圈里面的?

董建成:首先在噪音处理这块,是我们自己做的,所以通过噪音的频谱以及响度可以大概区分出来是处于哪个环境,然后再去初选引擎。

每个引擎会对主动的对自己辨认的成果给出一个评分,也就是置信度,分数越高表现成果越正确,所以置信度的高低决定了最终会选用哪个成果。

最终的成果还会跟用户修正后的文字进行对照,一并收纳进大数据库。若下次再在遇到同样的成果时,就能直接在我们这边直接给出更符合用户需求的文字。

雷锋网:你们跟这些引擎之间有协议吗?

董建成:引擎方供给SDK,其中包含了应用协议,而我们则是直接应用他们的API做了一个利用,即便是用于商业化也没有问题,微信就是这样做的。

雷锋网:你们的转化率如何?

董建成:重要是出于两点考虑,第一个就是之前所说的通过不断地收集修正前后的文字对照,来完善最终文字。另一点的话,就还是通过选择多种引擎来供给最为合适的成果。

录音转文字,之所以转化率低,不是因为引擎不行,而是录音这一块出的问题会比较多。很多引擎说自己的转化率能达到95%或者99%,其实也没错,不过前提是录音清楚的情况下。

用微信说话的时候,一般都是拿着手机讲,距离比较近,所以转录效果非常好。而正常录音的话,一般距离较远,环境也会更加复杂,这样一来就容易造成录音不清楚,噪音比较大。

未来,我们可能推出主动定向的录音麦克风,采用四点麦克风阵列,谁在说话时就调剂阵列,北京速记公司,只收集说话人的声音,算法我们已经验证过了,可行,效果也可以。

录音转文字,听道可能成为速记终结者吗?

雷锋网:与录音宝如何竞争?

董建成:录音宝做到比较好的处所是能实时录音,能够显示录音时的地址,按时间轴存储文件,一件转录文字,也可以一键导出音频与文字。但录音笔实际上是着重于日常生活,对于处理工作中一小时,两小时的长时间录音的话,它就不是那么方便。比如说,在一段很长的录音文件中,中间可能有一段录音是不需要的,但是却没措施删掉,只能导出来之后,手动修正。

作者:北京速记公司


现在致电 010-63797486 OR 查看更多联系方式 →

Go To Top 回顶部