近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术走进了工业、家电、通信、汽车电子、消费电子产品等各个领域。语音识别作为人工智能发展最早、且率先商业化的技术,近几年来随着深度学习技术的突破,识别准确率大幅提升,带动了一波产业热潮。对语音识别未来发展,各位大咖也有一些精彩论点。
科大讯飞研究院副院长——王士进
王士进表示,语音识别是人机交互里很重要的模块,从PC时代到现在的移动互联时代,人机交互由鼠标键盘走向智能手机、Pad等的多点触摸。到了智能硬件时代,交互则更加多元,不仅有触摸,还有基于语音、视觉的交互。原本是以机器为中心的人机交互,逐渐走向以人为中心的自然交互。
他认为,在将来万物互联的浪潮下,以语音为主,键盘、触摸、视觉、手势为辅的交互时代很快会到来。
提到传统的语音交互,王士进列举了几个缺点:第一,交互距离要近;第二,发音必须标准;第三,环境必须安静;第四,人机不能持续对话。
科大讯飞在2015年提出AIUI,旨在解决上述问题同时期望在人工智能时代提供一种智能的人机交互界面。AIUI提供远场唤醒和识别降噪方案,兼容全国近17种方言,可以进行全双工交互和基于业务场景的多轮对话,同时结合讯飞超脑的认知智能使得机器进行更智能的交互。
AIUI实现了软硬一体化、云端一体化、技术服务一体化,通过三个一体化提供人机智能交互整体解决方案,使得用户可以快速切换到新的业务场景。
在提到基于AIUI交互技术的一些商业化尝试时,王士进列举了几种:
在交流方面,科大讯飞在05年推出了听见智能会议这款产品。一般来说,会议场景的同传准确率为80%左右,而智能会议转写准确率则能达到90%以上,之后,其在医疗和司法系统进行了应用。另外,科大讯飞还推出了便携翻译机,易于随身携带,方便远程实时交流。
在电视方面,最早的电视是用数字加上下左右按键控制仅有的十几个台,而现在的智能电视后台对接海量资源,通过讯飞智能电视助手可以进行方便的语音交互,节省时间。
在汽车方面,由于人在驾驶时候手不能离开方向盘,故把语音引入代替手进行交互会方便许多。实际上相比其他应用场景,语音识别由于汽车场景的噪音更强,面临更大挑战,而科大讯飞也在基于车载的语音识别做了许多优化,更在宝马、奔驰、通用举行的全球车载语音识别比赛取得第一名,有效的支撑了车载场景的交互。
在机器人方面,机器人与人的语音交互满足自然交互、个性化服务以及基于业务场景的整合服务,可以方便的任意打断,在理解用户的需求下进行精准的内容推荐和服务。
语音识别和自然语言理解都是基于统计和概率体系,所以商业化过程建议选择人受到一定限制(如车载)或者很难做百分之百正确(如会议同传)的场景,然后随着技术的进一步成熟,可以进入到更多的场景。
最后,王士进总结道,“语音识别和人机交互技术在进行技术优化的同时更要结合应用场景,最终可使得技术完善,产业更好的发展。”
百度语音技术部声学技术负责人——李先刚
提到这些年对手机百度语音搜索的不断优化过程,李先刚认为要做好这样一个产品,先要收集相关数据,然后将语音识别应用推广到相关产品线上供用户使用,用户使用后反馈回来数据形成完整链条,最终达到非常完美的状态。
他把输入法在语音识别中的作用表述为:输入法这一场景对语音识别性能提升有非常大的帮助。
而今年,百度在语音技术方面的进展包括基于GramCTC的端对端语音识别系统以及端对端说话人识别技术。
基于CTC的端对端语音识别系统是目前主流的工业系统,在2015年底,百度实现了CTC端对端语音识别系统的上线。而今年,百度进一步提出了GramCTC算法。
主流的说话人识别技术使用经典的DNN-IVECTOR技术,其框架基于统计模型,并将DNN引入此框架去学习。
可以看到的是,语音识别已走向大数据和端对端的道路,百度也将把说话人识别技术向此发展,进一步提升相关性能。
李先刚表示,人脸识别与说话人识别有技术共性,二者之间的差异仅仅只是人脸识别对象可以是固定尺寸的图片,而语音的时长会有很多变化。因此,百度说话人识别技术借鉴了目前人脸识别最好的方法——度量学习,搭建了端对端度量学习的说话人识别系统。百度内部的实验显示,基于端对端的说话人技术显著提升了说话人识别的性能。
从商业化的角度分析语音识别,可将其应用分为两个维度,第一个是近场和远场,第二个是人配合机器说话和人对人说话的不同说话风格。经过这样划分会发现很多语音场景其实是处在不同的语音象限里面,目前业界所做的近场人对机器说话的识别准确率可达90%以上,但另外几个场景所做不尽人意。
在李先刚看来,随着语音技术的推进,辅之商业化情景必将推动产品和技术的发展。
搜狗语音交互技术中心研发总监——陈伟
从2012年到现在,随着数据和算法的提升,搜狗的语音识别的识别错误率是逐年下降的。陈伟分享了一组数据:到目前为止,搜狗输入法每天的语音识别请求量高达2亿次,每天产生语料达到18万小时。
陈伟表示,搜狗在2016年发布知音引擎,对外输出完整的语音交互解决方案,也一直在探索语音识别和交互的不同场景和经验。语音识别可以更好提升输入、记录、交流的效率,其可分为听写和转写,听写更多要求实时性,转写则面向客服数据,不要求实时。另外,语音识别技术面向不同客户,除了直接提供给消费者,还有一些公司、企业如法院、医院等,语音识别的应用场合则更多是在演讲、直播、语音分析中。
语音识别不是一个单独的技术,其需要同其他技术进行融合,比如机器同传、语音交互,未来的产品将会是技术与技术的组合,产品与产品的组合。
对如何做出一款好的语音交互产品,陈伟认为首先是要重视场景和知识。只有技术(ASR、NLU等)与具体应用场景比如车载、智能家具、可穿设备结合在一起,才能得到稳定的产品。另外,仅仅有技术是不够的,还需要技术创新。在得到良好的使用体验之后用户基数会扩大,带来更多数据,这些累积的数据也是推动技术提升的关键。只有有了产品的迭代、有了真实的数据才能更好的分析出用户需求,更好的推动产品发展。
他表示,技术与产品缺一不可。
“语音交互以技术为驱动,加之好的运算力带来大量数据,以此进行迭代,不断通过技术和产品的耦合得到更好的产品。”
2017-04-25