科大讯飞发布了人北京速记机交互新产品——AIUI

日期:2016-08-24 / 人气: / 来源:网络整理

无界消息记者 魏子敏

继消息采写机器人引起的记者失业恐慌后,大会速记员也面临着被壮大的竞争对手——语音转写技巧替代的危险。

12月21日在科大讯飞2015年度发布会现场,讯飞超脑转写技巧充当的大会“速记员”以99.29%的全场正确率完胜现场5位优良持证速记速记正确率(最高正确率80.84%)。

机器人开端抢速记员的饭碗:语音和语言将成为认知智能革命的入口

▲12月21日,科大讯飞在北京国家会议中心召开了以“AI复始,万物更新”为主题的科技大会。(无界消息记者 魏子敏摄)

这位高效勤劳的“速记机器人”成为此次发布会最大亮点。尽管没有以实体浮现,会议速记,现场观众仍可以从两侧的大屏幕上实时看到“速记机器人”语音转写的全过程,包含主动预测标点、断句等。语音转换技巧要突破三大难点:混响降噪、口语交谈、文本摘要。显然这位“速记机器人”也还不是完善的,例如现场发言中英文转写间的切换很难实现,以及闹出了把Ninebot公司的“九号平衡车”写成“酒后平衡车”的笑话。

机器人开端抢速记员的饭碗:语音和语言将成为认知智能革命的入口

▲科大讯飞利用语音转写技巧在两边的大屏幕上全程“速记”下了所有演讲和主持内容,北京速记公司,并通过媒体实时播报出去。(无界消息记者 魏子敏摄)

科大讯飞一直将语音辨认技巧作为人工智能的研究重心。科大讯飞董事长刘庆峰在本次大会现场表现,人工智能未来会像水和电一样无所不在。在人工智能的三个层次——盘算智能、感知智能和认知智能之中,前两者机器的能力已经超出人类。而实现第三层转换的要害就在于由语音和语言为入口的认知智能的革命。

向认知智能阶段发展的必由之路:语音和语言

正如语言的广泛应用让七万年前的人类之间实现了直接交换,才进而有了智慧的碰撞和人类自身的认知智能,人工智能发展的必由之路也是由语音和语言为入口的认知智能的革命。

1956年的达特茅斯会议是人工智能研究的历史起点,到2015年人工智能的发展已经有了近60年的历史。

伴随着盘算机技巧和民用科技突飞猛进的发展,人工智能研究本身经历了两次波峰与波谷,而从2006年起始至今愈发升温的人工智能热,是第三次人工智能浪潮。在这第三次浪潮中,中国、美国和欧洲,都将人类大脑研究上升为国家战略科研高度。

机器人开端抢速记员的饭碗:语音和语言将成为认知智能革命的入口

▲人工智能发展的三个层面:运算智能、感知智能和认知智能(无界消息记者 魏子敏摄)

如果把人工智能分成三个层面,第一个层面是运算智能,即让机器具备“能存会算”的能力。1997年盘算机在与人类象棋大师的象棋对决中获得成功,标记着盘算机超强的运算能力已经超过了人类。第二个层面是感知智能,即让机器“能听会说能看会认”。人类的视觉看到是可见光,但是机器现在可以到红外可以到紫外;人类的听觉领域为20赫兹到2万赫兹,但机器可以听超声波可以听次声波。第三个层面是认知智能,这是目前人工智能科研的焦点,这也是人差别于动物的最本质能力。

语音为主触摸图像手势为辅的万物智能时代到来

刘庆峰在发布会现场定义了认知智能的三大核心支撑能力:人机交互、知识管理与推理学习。随后科大讯飞发布了讯飞超脑2.0科研项目,盼望不仅赋予机器“能听会说”的能力,还能赋予机器“能懂得会思考”的能力,使机器可以在不久的将来在高考中折桂。

在讯飞超脑的产业化利用产品层面,科大讯飞发布了人机交互新产品——AIUI。AIUI集成了包含双全工技巧、麦克风阵列技巧、声纹辨认技巧、方言辨认、语义懂得技巧和和内容服务等等。在发布现场将演讲同步转写成文字的“速记机器人”技巧,正是基于这一AIUI界面支撑。

科大讯飞还在大会上发布了几款语音转换To C产品——录音宝、录音笔与讯飞听见网。据刘庆峰介绍,实际上,音文转写是当下都市生活的一种经常性需求,在正式发布之前,录音宝产品已经有了超过100万的用户。而随着流媒体的不断演进与普及,信任在未来的图文直播时代,科大讯飞的音文转录产品的价值将会更加凸显。

人工智能=深度神经网络+大数据+涟漪效应

作者:北京速记公司


现在致电 010-63797486 OR 查看更多联系方式 →

Go To Top 回顶部