【声学新闻】AI百度大脑3.0发布,“多模态深度语义理解”无惧噪音

7月4日,Baidu Create 2018 AI开发者大会现场,百度大脑3.0隆重发布。百度大脑3.0的核心是“多模态深度语义理解”,这是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。

语音语义一体化和自然语言理解技术能让机器准确识别并理解人说的话,实现更自然的人机对话。百度高级副总裁、AI技术平台体系总负责人王海峰现场对着百度地图说出了一长串绕口令般的导航需求,百度地图语音智能助手完美识别并给出最佳路线。王海峰介绍,百度高噪声环境Hand-free语音识别准确率已提升了10个百分点,语音语义一体化技术使得远场语音识别准确率提升了10个百分点;在语音合成方面,WaveNet+拼接的情感语音合成技术,使得流畅度和自然度也大幅提升。

新闻出处:这里

【声学新闻】阿里巴巴AI语音科技致力解决“噪声聋”

2018年1月,从国家安全监管总局网站公布的2015、2016年全国职业病报告来看,职业性噪声聋已成“尘肺病”之后的第二大职业病。现状是,很多中小型工厂车间的噪声都在90分贝以上,它们没经验和能力考虑降噪,最现实的,还是给工人戴防护耳罩,但又不便于交流。近日,阿里巴巴机器智能技术实验室的消息称,其正研发在高工业噪声环境下的语音识别及传输技术,以后,众多车间工人将告别“通讯靠吼”的境况,简单的交流言语会转换成文字,让彼此心领神会。

阿里巴巴AI语音工程师许先生介绍,他们研究的语音交互技术,已实现在85分贝工业噪声下,将一米处正常音量语音转换为文字。语音转换都在云端完成,只要有网络并配上类似智能音箱的语音终端,便可构建局域性的语音文字转换和传输系统。“转换为文字的信息,可指定传输至手机等带显示屏设备。只要一部手机,一个语音终端,便可组建高噪声语音交互系统。” 许工程师说表示他和同事的语音测试仍在继续,“85分贝还是太安静,按照预期,要在95分贝噪音下识别语音。”

新闻出处:这里