第78章锥处囊中第2页_迈阿密2024(曾照云上飞)

风云小说>迈阿密2024 > 第78章锥处囊中（第2页）

“从朗读环境到口语环境，再到任意对话环境；

“从单语种到多语种，再到多…

“哇喔！断网时，表现优秀；联网时，堪称完美！”

谷歌语音识别部门的老大，席工程师威尔，带着一群技术人员围过来。

众人对两人所说的测试结果难以置信。

“我们的语音输入法，还处于对每个建模单元的统计概率模型进行描述阶段，哪里冒出来的小公司，meta？已经推出如此成熟的产品了！”

威尔手心全是汗，花了公司几千万，没开出最先进的产品，终会有人担责。

“是和我们一样，采用高斯混合模型（gmm，用海量数据训练出来的吗？”

威尔抿着嘴唇，盯着手下操作，“应该不是gmm，那本质上是一种浅层网络建模，对特征的状态空间分布不能充分描述…特征维度一般也就几十维，对特征之间的相关性也不能进行充分描述…”

在周杰前世，直到2o11年，微软公司基于深度神经网络，才在语音识别系统研究方面取得阶段性的成果。

由家娃变异进化后优化出来的维斯顿，已远微软那时的技术。

此世此时，巨头们在语音识别方面，还处于实验阶段。

而维斯顿语音输入法，在语音的前端处理涵盖的几个模块，已极度优秀。

说话人声检测模块，可以有效地检测说话人声开始和结束的时刻，并区分说话人声与背景声。

回声消除模块，让音箱播放音乐时，消除来自扬声器的音乐干扰，不暂停音乐而进行有效的语音识别。

唤醒词识别模块，是人类与机器交流的触方式，就像日常生活中需要与其他人说话时，你会先喊一下那个人的名字。

麦克风阵列处理模块，对声源进行定位，增强说话人方向的信号，同时抑制其他方向的噪声信号。

语音增强模块，进一步增强说话人的语音，有效抑制环境噪声，降低远场语音的衰减。

威尔紧张到嘴里碎碎念

“平时自命不凡，但我们在技术方面已完全落伍！

“这是手机软件，手持设备使用，属于近场环境，语音识别已属完美。

“厉害的是，维斯顿好像真有智慧一般，具有智能。联网安装到车载、智能家居等设备时，这款手机软件，竟然能自动优化匹配设备！

“一般语音识别系统，在车载、智能家居等远场环境中，声音传达到麦克风时会衰减得非常厉害，导致一些在近场环境中不值一提的问题被显着放大。

“需要前端处理技术能够克服噪声、混响、回声等问题，实现远场拾音…我们的技术做不到。

“但维斯顿轻易做到了！在远场环境下，几次训练数据，就能对模型进行持续优化，提升远场拾音的效果！

“这是神级产品！我们必须要联系上开者！”

最先现维斯顿厉害的工程师汤姆耸耸肩“没有任何联系方式！

“…我和杰瑞认为，维斯顿是通过深度神经网络，采用高维特征训练来模拟，大幅提升了语音识别系统的识别率…

“实际解码过程中，仍采用传统的隐马尔可夫模型（hmm、传统的统计语言模型和传统的动态加权有限状态转换机fst解码器…

“但在声学模型的输出分布计算时，完全用神经网络的输出后验概率，乘以一个先验概率来代替传统hmm中的gmm的输出似然概率。

“这样的语音识别系统的误识别率，与gmm语音识别系统的误识别率相比，下降了至少25%！

“我们部门正在研究的语音输入法完了！”

语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。

谷歌秘密成立的语音识别部门，在各个环节对维斯顿进行了测试。