人工智能时代前沿技术社区

首页 > 人工智能 > 热点

讯飞输入法能听懂苏州话了!同期启动AI方言发音人招募

“内那哈格浪漂酿”“我真格穷呼吸倷”听到这两句苏州话,你是不是一脸懵,觉得在说:“你什么时候去浪?”“我真的好穷啊!”其实这两句话

作者: | 2018-06-13 09:14:30 | 来源:搜狐网

“内那哈格浪漂酿”

“我真格穷呼吸倷”

听到这两句苏州话,你是不是一脸懵,觉得在说:

“你什么时候去浪?”

“我真的好穷啊!”

其实这两句话的意思是:“你怎么这么漂亮,我真的好喜欢你”。今后讯飞输入法就可以帮你做出准确翻译。6月12日下午,讯飞输入法正式宣布将于本月底新增苏州话识别,方言语种进一步扩充至23种;为更好利用AI保护濒临消亡的方言,讯飞输入法同期启动AI方言发音人招募公益计划,留住完整乡音。

对于语音输入而言,口音和方言一直都是识别难题。讯飞输入法业界独家推出语音输入,并利用科大讯飞AI技术及语言深度研究的积累,不断拓展方言识别语种、优化方言识别效果。讯飞输入法采用Multi-lingual多语言建模,通过多方言数据共享方式训练;辅以Global Phone全球音素集,从声学层面的相似性统一各方言的音素定义,对方言“语图谱”模型做进一步精进,从而有针对性地提升方言语种的识别能力。2017年推出的“方言保护计划”积累了海量方言数据,是讯飞输入法得天独厚的深度学习素材,使方言识别率日趋精准。目前,讯飞输入法已支持22种方言,其中粤语、四川话、东北话等识别率均已超过90%,获得用户的青睐。本月底,讯飞输入法将新增苏州话识别,方言识别语种将扩充至23种。

方言,是语言的结晶、文化的瑰宝。但随着经济、文化活动的全球化现状以及区域经济的迅速发展,导致主流语言或通用语言更加强势,同时也使得弱势语言的交际功能不断衰弱,甚至濒临消亡。目前世界上的语言大约有6000—10000多种,据语言学家预测,大部分语言将于本世纪末消失。因此,濒危语言保护(以下简称为“语保”)已经成为了一项极重要而迫切的工作。

科大讯飞多语种高级研究员祖漪清在现场讲述了方言势微的现状。现在我们身处人工智能崛起的时代,利用人工智能技术进行濒危语言、方言系统地研究一个语言的语音结构、语言结构,实现对一个语言的完整“复制”迫在眉睫。因此,本次媒体见面上正式启动了“AI方言发音人招募”公益行动。

通过打造无门槛的全民行动,“AI方言发音人招募”公益行动一方面将与地方政府、地方广播电视台等开展深度合作,寻找发音人;另一方面在线上发布“方言保护”APP及“我AI说方言”微信小程序,为乡音代言,同时讯飞输入法应用设置中加入了方言收集互动入口,助力方言留存和文化传承。

科大讯飞提出的“人类语言大互通计划”,用AI为人类在语言能力上赋能,点亮全人类的语言互动和命运共同。方言保护作为至关重要的一环,讯飞输入法肩负起方言保护的重任,通过“方言发音人”采集的标准方言语料,持续优化增添方言识别能力,并开放给用户使用,有着极其重要的文化和社会价值。

除了在方言识别及方言保护方面的全新动作,科大讯飞消费者BG业务总经理、输入法产品总监翟吉博还在此次发布会现场,对讯飞输入法带来的各项创新进行了完整诠释。

语音识别率从97%提升至98% 更懂你的表达

讯飞输入法诞生之初,便确定以语音为核心,业界首家加入智能语音输入。近一年来,讯飞输入法在输入效率和智能化方面取得了长足的进步,不仅做到一分钟识别400字,还支持多语种实时语音翻译、超长语音输入、耳语输入、离线语音输入等功能。值得一提的是,科大讯飞在感知智能、认知智能以及两种智能深度结合等领域均取得达到国际领先的研究成果,而这些AI黑科技正应用到讯飞输入法上,率先在行业内做到通用语音识别率98%。

语音输入更精准的方法离不开数据和算法。讯飞输入法从人脑神经科学入手对人类记忆进行仿生,实现大量无监督的数据去辅助有人工标注的数据。受图像领域CNN应用的启发,科大讯飞独家研发了深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)语音识别框架,使用大量的卷积层直接将语谱图作为输入,相比传统语音特征作为输入,有效降低信息损失,非常出色地表达语音的长时相关性。同时,借鉴了图像识别中效果最好的网络配置,每个卷积层使用3×3的小卷积核训练更深的CNN模型,输出单元直接与最终的识别结果(比如音节或汉字),从而使识别准确率显著提升。

此外,讯飞输入法以自然语言交互方式——语音修改来解决当前技术束手无策的 2% 不准确。也就是说,使用语音输入的过程中通过自然语言说出指令来修改、添增、删除文字等操作。由于中文拥有复杂的多样性,同音不同义的词非常丰富,这对机器而言存在理解难度。所以,讯飞输入法新增语音修改结果多同音词候选,在机器不能准确理解语义时,通过人工选择更加高效。不仅如此,基于Cache Base Fast Adapation技术,讯飞输入法独创的“智适应”支持一次修改自动记忆修正结果,再次输入相同内容精准识别。

基于科大讯飞精简和优化的Hybrid-DFCNN全新语音识别框架,6月底讯飞输入法将上线Hyper-CNN语音新引擎,随之通用语音识别准确率将相对提升15%,此外有效优化中英混合语音输入、粤语等重点方言、标点判断准确率,提升语音输入的体验。

时至今日,智能语音极大地延展了人类的输入速度,带来的不仅是更便捷的输入体验,更惊喜的是令人惊喜的交互方式。面向未来,输入法将不再局限于五笔、九宫格、二十六键、手写固定键盘形态。讯飞输入法首家推出“莫得键盘”、“语音键盘”、“VG语音交互面板”等革新人机交互,“重新定义键盘”让输入更有趣。

莫得键盘——“没有”键盘,基于讯飞输入法出色的智能语音技术,支持语音输入、语音口令控制,颠覆传统键盘交互,实现无键盘输入。讯飞输入法从用户未来输入角度考虑,为语音重度用户量身定制了语音键盘,呈现便捷的语音输入形态,只凭一张嘴就能轻松打字、修改甚至自动加标点符号,不需学习其他技能。基于智能语音应用,讯飞输入法打造出全新的VG(VoiceGame)语音交互面板,利用AI在交互层面进行了有益的尝试。输入过程等同“玩游戏”,语速快慢、声音大小等直接体现了创意交互。

人工智能正从感知智能向认知智能跨越,科大讯飞人工智能应用愿景正在从“能听会说”到“能理解会思考”。在科大讯飞看来,手机端输入方式发生了巨大的变化,语音输入已经达到了实用的门槛,语音交互的比重越来越大,加上对涟漪效应的理解,讯飞输入法已经成为高粘性的工具类产品。媒体见面会现场,讯飞输入法市场品牌负责人李强军介绍,讯飞输入法用户规模突破6亿,语音输入月覆盖率达50%,语音渗透率保持逐年上升态势。

新增面对面翻译和OCR拍照 开启智能输入时代

为践行“人与人无障碍交流”的目标,同时也让更多用户体验AI技术的便利,讯飞输入法尝试将语音识别、语音合成以及机器翻译等新技术融合在一起,新增面对面翻译,支持中文与英日韩俄多语种即时翻译。不仅如此还充分考虑使用场景,将面对面的交互方式引入语音翻译应用中。例如,在对话双方各讲母语时,另一方就会同步看到翻译结果;特别是语音播报功能的加入,让面对面翻译有了自己的“嘴巴”,身边俨然有了一位翻译官,增强了翻译的实用性。

一般从文件、图片中提取文字,需要手工录入大量文字,不仅效率低下且可能出现错字。基于用户刚需,讯飞输入法新增了OCR拍照输入,相当于给输入法安装了一双“眼睛”。这个新功能的用心之处是不管书本、路牌、名片还是其他纸质图中的文字,都能轻松识别并提取出来,方便用户进行编辑、归类、管理,省去大量录入的时间。更令人惊喜的是,内置OCR不仅能识别各类印刷体,对于手写识别准确率也高达90%以上,就算字体潦草也轻松识别。 作为高效输入的一种补充,OCR拍照输入可以捕捉输入过程中多场景下的文字,满足用户多样的需求,助力讯飞输入法成为未来最智能化的输入法。

未来,讯飞输入法将继续结合AI,不断提升语音识别、语义理解、机器翻译、图像识别、语音合成技术能力,赋予输入法更多想象空间。