ASP站长网语音识别技术是从20世纪50年代开始发展的。现在让我们看看这些年来这项技术是如何发展的,以及我们使用的语音识别和语音转文本功能的方式是如何随着技术的发展而发展的。
20世纪50-80年代:第一台能听声音的电脑诞生
自动语音识别(ASR)的强大力量意味着它的发展总是与大公司联系在一起。
贝尔实验室在1952年率先研制出语音号码识别系统——AUDERY。在严格控制的条件下,AUDERY系统识别语音号码的准确率为97-99%。然而,根据科学家、前贝尔实验室电气工程师James Flanagan的说法,AUDERY坐在“一个六英尺高的继电器架上,消耗了大量的电力,并表现出与复杂的真空管电路相关的无数维护问题。”即使对于特定的用途而言,AUDREY太昂贵且不方便。
1962年,IBM推出了能够识别数字和简单数学术语的Shoebox。与此同时,日本的实验室正在开发元音和音素识别器以及第一个语音分词器。对于计算机来说,理解一小部分数字(比如0-9)是一回事,但京都大学的突破是“分割”一段语音,这样这项技术就可以用于语音的范围。
在20世纪70年代,美国国防部(DARPA)资助了语音理解研究(SUR)项目。该研究的成果包括卡耐基梅隆大学的HARPY语音识别系统。HARPY从1011个单词的词汇表中识别出句子,使这套系统的语音能力相当于三岁儿童的平均水平。
HARPY是最早使用HMM的语音识别模型之一。这种概率方法推动了20世纪80年代ASR的发展。事实上,在20世纪80年代,随着IBM的实验转录系统Tangora,语音到文本工具的第一个可行使用案例出现了。经过适当的训练,Tangora可以识别并输入2万个英语单词。然而,对于商业用途来说,该系统仍然过于笨重。
20世纪90年代到2010年代:消费级ASR
“我们认为让机器模仿人是错误的,”IBM的语音识别创新者Fred Jelinek回忆道。“毕竟,如果一台机器必须移动,它是通过轮子而不是步行来移动的。我们不是竭尽全力地研究人们是如何听和理解语言的,而是希望找到让机器来做这件事的自然方式。”
1990年,Dragon Dictate作为第一款商用语音识别软件推出。当时它的成本约为9000美元。在1997年推出Dragon Naturally Speaking之前,用户仍然需要在每个单词之间停顿。
1992年,AT&T推出了贝尔实验室的语音识别呼叫处理(VRCP)服务。VRCP现在每年处理大约12亿次语音交易。
但在20世纪90年代,大多数关于语音识别的工作都是在幕后进行的。个人电脑和无处不在的网络为创新创造了新的视角。这正是Mike Cohen发现的机会,他在2004年加入谷歌,启动了该公司的语音技术发展。谷歌Voice Search(2007)向大众提供了语音识别技术。但它也回收了数百万网络用户的语音数据,作为机器学习的培训材料。
苹果(Siri)和微软(Cortana)紧随其后。在2010年代早期,深度学习、循环神经网络(RNNs)和长短期记忆(LSTM)的出现,导致ASR技术能力的超空间飞跃。这种前进势头在很大程度上也受到低成本计算和大规模算法进步的出现和可用性的推动。
ASR的现状
在数十年的发展基础上,为了响应用户日益增长的期望,语音识别技术在过去五年中取得了进一步的飞跃。优化不同的音频保真度和苛刻的硬件要求的解决方案,使语音识别通过语音搜索和物联网,日常使用更为方便。
例如,智能音箱使用热词检测,通过嵌入式软件传递即时结果。同时,句子的其余部分被发送到云进行处理。谷歌的VoiceFilter-Lite在交易的设备端优化个人的语音。这使得消费者可以用自己的声音“训练”他们的设备。培训降低了源失真比(SDR),提高了声控辅助应用程序的可用性。
大型站长资讯类网站! https://www.0792zz.cn