语音识别其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。
1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间弯折Dynamic Time Warp技术。
语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。
尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。
作为一种软件产品,Microsoft已围绕语音识别技术进行了长达数年之久的研发工作。如需了解更多关于语言识别产品当前进展情况的信息,请访问Microsoft .NET语音技术Web站点。
与此同时,Microsoft将继续在语音识别研究领域进行投资。位于雷蒙德和中国的研发团队正致力于解决困扰语音识别领域的某些技术缺陷。其中,一个称作Dr. Who的研究项目旨在解决噪音问题,力求确保您的计算机能够在办公场所以外的嘈杂环境(例如汽车或人流较多的餐馆内)中识别语音信息。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
语音-文本转换(voice-to-text)软件和自动电话服务等应用背后的关键技术是语音识别。在这些应用中语音识别准确率是至关重要的,而为了做到这一点,语音-文本转换软件通常要求用户在安装过程中对软件进行“训练”,软件本身也要随着时间的推移慢慢适应用户的语音模式。需要与多个说话者互动的自动语音服务则不允许存在使用者对软件进行训练的环节,因为它们必须能够在时间为任何用户服务。为了解决识别准确率较低的问题,这些系统要么只能处理很小的词汇量,要么严格限制用户可以使用的字句或模式。
自动语音识别的最终目标是提供即买即用、可以自动快速适应任何说话者的语音识别服务,这个系统不需要用户训练就可以针对所有用户和各种条件,良好地发挥功用。
“这个目标在移动互联网时代显得尤为重要,”俞栋博士表示,“因为语音是智能手机和其他移动设备必不可缺的接口模式。虽然个人移动设备是采集和学习用户语音的理想设备,但用户只有在初始体验,也就是在针对该用户的模型建立之前的体验非常良好时,才会继续使用语音功能。”
非特定人语音识别技术对于没有机会或办法适应用户的语音识别系统也非常重要,例如在呼叫中心,来电者身份是未知的,而且通话时间只有几秒钟;又例如用户可能会因为担心隐私问题而不愿意在提供“语音-语音(speech-to-speech)”翻译的网络服务中留存语音样本。
更多精彩内容,请登入维库电子通(wiki.dzsc.com)
维库电子通,电子知识,一查百通!
已收录词条48237个