【声学新闻】AI百度大脑3.0发布,“多模态深度语义理解”无惧噪音

7月4日,Baidu Create 2018 AI开发者大会现场,百度大脑3.0隆重发布。百度大脑3.0的核心是“多模态深度语义理解”,这是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。

语音语义一体化和自然语言理解技术能让机器准确识别并理解人说的话,实现更自然的人机对话。百度高级副总裁、AI技术平台体系总负责人王海峰现场对着百度地图说出了一长串绕口令般的导航需求,百度地图语音智能助手完美识别并给出最佳路线。王海峰介绍,百度高噪声环境Hand-free语音识别准确率已提升了10个百分点,语音语义一体化技术使得远场语音识别准确率提升了10个百分点;在语音合成方面,WaveNet+拼接的情感语音合成技术,使得流畅度和自然度也大幅提升。

新闻出处:这里

【声学小常识】背景噪声直接影响语音识别的正确率

深度学习应用到语音识别领域之后,词错率有了显著降低。但是语音识别并未达到人类水平,仍然存在多个亟待解决的问题。其中语音识别最明显的一个缺陷在于对口音和背景噪声的处理。最直接的原因就是:绝大多数训练数据都由具有高信噪比的美式英语组成。也就是说,大部分训练数据都是英语母语者(大部分是美国人)在几乎无噪声的环境中录制的。

就一般而言,一辆行驶的汽车内的噪声几乎不可能有-5dB 那么低。人类在噪声环境中能够轻易理解彼此所说的话,但根据研究数据显示,人类和语音识别模型的词错率差距在低信噪比和高信噪比音频之间存在巨大的差距。换而言之,语音识别器的性能会因为噪声的存在而急剧下降。

新闻出处:这里