本文来自

《计算机应用文摘》

2017年01期

24期

23期

22期

21期

20期

19期

18期

17期

16期

15期

14期

13期

12期

11期

10期

09期

08期

07期

06期

05期

04期

03期

02期

01期

写了 299 篇文章,被 3 人关注,获得了 5 个喜欢

中文语音识别领域的激战

文/ 徐坤 图/ 小江
前言 早在两年前,业界普遍认为语音识别领域将会催生出巨头公司。在英语领域,作为搜索巨头的Google逐渐占据了行业的主导权。而在中文领域,语音识别行业正面临新一轮的洗牌,科大讯飞、阿里云、搜狗、百度等纷纷将目光瞄准了语音识别技术。重兵布局的百度是否会成为中国语音识别领域标准的制定者,占据行业主导权呢?

 

技术为王,百度微软双雄鼎立

2016年10月中旬,微软人工智能与研究部门的一个研究者和工程师团队报告出他们的语音识别系统实现了和专业速录员相同甚至更低的误字率(word error rate,简称WER),达到了5.9%,而一个月前这一数字还是6.3%。微软首席语音工程师黄学东表示,“我们已经达到了人类水平,这是一项历史性的成就。”

 

有意思的是,百度首席科学家吴恩达(Andrew Ng)立即在Twitter上表示祝贺,并毫不掩饰地摆出了百度的战绩,“在2015年我们就超越了人类水平的汉语识别;很高兴看到微软在不到一年之后让英语也达到了这一步。”时隔一年,百度和微软两大人工智能科技巨头先后分别在汉语、英语语音识别研究方面取得了超越人类的成果,让业界轰动不已。

 

语音识别并不算是一个新兴行业,从20世纪70年代,世界著名的语音识别和自然语言处理的专家贾里尼克教授开始基于统计法和数据建立模型后,语音识别有了巨大飞跃。2006年,辛顿提出了深度置信网络,掀起了深度学习的热潮。近年来,随着数据量的丰富和计算能力的提升,语音识别行业迅速崛起。据 TechCrunch 统计,仅美国至少就有26家公司在开发语音识别技术。

 

2015年之前,Nuance是当之无愧的全球语音领域老大,Google、微软、苹果、三星和百度都曾对其提出收购意愿,但都被一口回绝。随后,Google、微软和苹果都选择摆脱Nuance的依赖,自己建立团队开发语音业务。在此之后,Nuance的市场份额节节下跌,2014年还高达60%的市场份额,一年过去只剩下31.1%。相比之下,Google语音识别的市场份额增长明显,逐渐占据了英语领域的主导权。

 

尽管Google、微软和苹果这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难望其项背,但因为一些政策和市场方面的原因,这些巨头的语音识别主要偏向于英语,这给中国互联网企业在汉语领域崛起提供了机会,百度就是其中的佼佼者。作为中国最大的搜索引擎公司,百度收集了大量汉语(尤其是普通话)的音频数据,这给其Deep Speech 2技术成果提供了基本的数据优势。

 

事实上,在当前的发展脉络下,语音识别的准确率和通用性,本质就在于三个方面:数据量的多少,这很大程度来自于搜索量、使用量的规模;算法的优劣,顶级人才在这方面有极其重要的作用;计算能力的水平,尤其是在大规模产业化和成本因素下,FPGA等专业硬件的发展水平也非常重要。在这三个方面的比拼中,互联网巨头拥有很大的优势,因为它们拥有最多的数据,最顶级的人才以及最强大的计算能力水平。所以当Google开放语音识别API后,在英语语音识别的市场中,Google比Nuance有更大的优势。而在中文市场中,百度也扮演着和Google在英语市场相似的角色,甚至更为出色。

 

2015年12月,在Deep Speech 2首次发布时,吴恩达称其识别精度已经超越了Google Speech API、wit.ai和微软的Bing Speech以及苹果的Dictation至少10个百分点。2016年2月,百度表示Deep Speech 2的短语识别的误字率已经降到了3.7%。

 

群雄逐鹿,中文领域的生死战

毫无疑问,微软和百度的语音识别技术都很惊人,但一项技术终究要变成产品和服务才能实现价值,所以在英语语音识别市场占据主导地位的是Google而非微软。在中文语音识别市场,在这方面做得最好的公司莫过于科大讯飞。

 

Google是最早在全球范围内大规模使用深度神经网络的公司,而科大讯飞是中国第一个在商用系统里使用深度神经网络的公司。2010年,科大讯飞率先将语音输入功能引入到了手机当中,截至2016年6月,讯飞输入法已经拥有了累计3.6亿用户,活跃用户更是超过1亿,其中,语音用户渗透率高达59%。在国内语音行业,科大讯飞已是不折不扣的龙头企业。而不久之前,讯飞输入法还因在锤子手机发布会上的惊艳表现备受关注。

 

在10月18日晚上的锤子手机发布会上,罗永浩现场展示了科大讯飞97%正确率的语音输入,其转换速度之快,准确率之高以及现场展示的特殊环境,都让人赞叹不已。一夜之间,科大讯飞几乎成了所有科技媒体人所讨论的话题和关注的焦点。受此次锤子手机发布会的影响,科大讯飞的股价在第二天最高涨幅达4%,截至收盘时涨幅0.96%。其实,除了锤子手机的Smartisan OS之外,华为、小米、魅族等厂商的语音服务或者输入法都在使用或曾经使用过科大讯飞的技术。据悉,在未来的三年中,科技巨头英特尔也将与科大讯飞合作,一起研究机器学习和深度学习项目。

 

除了科大讯飞,国内在语音识别领域有所建树的大公司还有不少。在2016年4月中旬举行的“云栖大会南京峰会”上,阿里云总裁胡晓明率先进行演讲,阿里云的“小AI”机器人全程对胡晓明的语音进行了实时翻译文字,这也是阿里第一次对外公布阿里云人工智能的能力。其实,这并非“小Ai”首次展示自己的速记能力。在阿里云2016年年会上,小Ai曾打败了世界中文速记大赛亚军。阿里云人工智能技术专家陈一宁透露,“在阿里云大数据平台数加上,智能语音交互产品就是采用的“小Ai”的技术。目前,阿里云还在探讨同各类直播平台的合作,以后所有的直播都能具备实时加字幕功能。”

 

除了阿里云,搜狗也是国内语音识别领域不容忽略的一方诸侯。在去年11月中旬举行的第三届世界互联网大会上,搜狗 CEO王小川首秀搜狗“黑科技”——机器同传,展示了实时机器翻译技术,将演讲嘉宾的中文讲话实时语音识别并同步翻译为英文上屏显示,引起轰动。这是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示,效果可靠、准确率已接近人类同传翻译结果。而在近期人工评测中,搜狗机器翻译在演讲、旅游、闲聊和日常口语等领域,采用五分制人工评分能达到4.4分,走向实用化。目前,搜狗语音识别准确率已超过97%,识别速度达到了400字每分钟。同时搜狗输入法的语音输入日频次比一年前增长一倍多,单日语音请求突破1.9亿次。

 

除了科大讯飞、阿里云和搜狗等互联网大佬,国内还有不少专注自然语言处理技术的创业公司,如云知声和思必驰等。云知声CEO黄伟表示,云知声的识别准确率已经能达到97%,属于业内一流水平。相比之下,思必驰做的是语音对话交互技术的整体解决方案,而不是单纯的语音识别解决方案。因此在场景应用中,思必驰的系统和科大讯飞的系统多有比较,可相互媲美。

 

毫无疑问,面对拥有领先优势的科大讯飞,以及阿里云和搜狗等实力雄厚的互联网大佬,还有云知声和思必驰这类不容小觑的创业公司,百度虽然拥有傲人的技术和财力,但想在中文语音识别领域独霸江湖仍有不小的难度。

 

未来难测,深挖场景是必经路

根据国际市场研究公司Research and Markets发布的《全球及中国语音产业报告,2015—2020》报告显示,未来5年语音市场将显著增长,到2020年,全球语音市场规模预计将达到191.7亿美元。语音识别之所以潜力巨大,很大程度上源于它是最便捷的人机交互方式,也是人工智能的重要入口。近年来,国内外互联网巨头们都在发力人工智能,虽然各自的侧重点不同,但都极为倚靠语音识别技术。毕竟,语音输入本身只是一个途径,它最终仍然要和实际操作相结合。

 

语音识别技术要在现实生活中落地,必须与场景结合,这需要吸纳来自各种场景的数据去训练语音技术,让其更加智能化。这也是为什么“微软小冰”每周都要上线新功能,努力刺激用户贡献更多聊天数据,而科大讯飞则不断扩大同长虹等智能电视厂商的合作名单,吸纳来自入口级硬件的数据。数据显示,与讯飞人工智能连接的应用,日均访问量为30亿次。

与科大讯飞相比,百度在海量用户数据和人工智能技术上的优势,能让他们迅速发展出优秀的语音智能。除此之外,百度还有足够的能力发展诸多产品线,形成生态,以提供更优质而全面的服务。从这个角度来说,百度的发展道路比科大讯飞更宽。在百度生态内部,目前语音技术的落地渗透在《百度地图》、《手机百度》和《百度输入法》等产品中。而在外部,截至2016年年中,使用百度语音的APP数量超过8万,大型合作厂商包括联想、中兴、魅族和联想等。百度语音如今能获取的数据规模非常庞大,据吴恩达透露,在线识别请求量2016年每天达到1.4亿次,在线语音合成请求量则达到2亿次。

 

除依靠产品收集用户数据之外,各大厂商还在积极与数据资源商合作,以更快捷地获得庞大的数据支撑。随着这些数据的输入,每分每秒,人工智能的模型会迅速迭代和升级。就像Google的AlphaGo在每一场棋局的每一步对决中都在学习。对于智能语音巨头们而言,大数据积累上慢一步,智能化上也相应慢一截。如果O2O市场圈地比的是烧钱,那么智能语音圈地恐怕是比钱更宝贵的东西——时间。

 

作为底层技术,语音识别未来的发挥空间极大,将广泛出现在手机、智能家居、医疗、教育和司法等各种场景。当然,这还有很长的一段路要走,想要在这条路上脱颖而出的公司,一方面要面对同行的生死竞争,另一方面还需努力解决语音识别技术仍然存在的一些瓶颈。

 

写在最后

目前,国内语音识别领域仍然是群雄混战的局面,短期来说,科大讯飞仍有着明显领先优势。然而,随着人工智能的进步,语音识别技术逐渐往大规模产业化发展时,公司的技术生态会非常重要,百度这类互联网巨头将迎来快速发展期。在核心技术和能力的比拼下,语音识别也将进入巨头崛起,传统语音公司稍显没落的时代。

 

登录注册 后评论。
n
Copyright © 2016 vantk.com 远望资讯 版权声明. 经营许可证:渝B2-20030004-10

渝公网安备 50019002500898号