语音识别技术的发展与展望
01
发展历史
语音识别(Automatic Speech Recognition,为ASR)是一项融合了数学与统计学、声学与语言学、计算机与人工智能等基础学科的前沿技术,是人机自然交互技术中的关键环节。语音识别最早可以追溯到1952年,发展到现在2022年,经历了不断的演进和发展,下图简单说明了发展的 几个阶段。
02
近十年发展
随着2009年深度学习技术尤其是DNN的兴起,语音识别精准率得到了显著提升,语音识别进入产业落地蓬勃发展的阶段,在过去的10多年中,大量的语音识别设备被生产和制造出来,进入到 大家日常生活中,下图简单说明了过去十年的一些发展历程。
03
展望
展望语音识别的发展,个人认为肯定是会越来越广泛的,以后主要的发展趋势展望如下:
- 对语音识别的关键指标例如字准确率关注会转移,而对于语意理解、情绪理解、知识理解、技能及动作的准确度要求会提升。
- 对语音识别的理解将从语音识别能做什么能达到什么目标从而转化到,哪些人在哪些场景下会使用到语音识别,也就是主要从研究技术性能转化为研究用户对于技术性能的需求。
- 语音识别模型将越来越细分,从使用领域,到使用场景,最终到使用用户。
- 使用方式将更多的往离在线方式发展,主功能离线,从而减少延迟,提升用户体验,而对于更智能的决策方面的功能,更多的在云端,或者在智能中控端。
- 语音发展将进入一个润物细无声的发展阶段,蓦然回首,生活周围基本都是带语音的设备和应用。