处理中...

首页 > 资料大全 > 技术资料 >

偏听则明:解析earSmart仿听觉神经降噪技术

偏听则明:解析earSmart仿听觉神经降噪技术
来源:电子工程网 时间:2013-06-04

常言道:兼听则明,偏信则暗。对于决策依据的选择来说此言不假,但对于语音技术来说则刚好相反。我们所处的环境中常常伴有大量背景噪音,如果一个电子系统把所有的音频信号统统接受,那么我们期望得到的音频信号就会被噪音淹没,系统的性能表现就会大打折扣。


实际上,人耳是一种有选择的接收系统。当我们在嘈杂的餐厅交谈时,我们也能尽力从背景噪音中捡拾对面那个人发出的语音信号。另一些动物具有更强的听觉天赋。猫头鹰可以在丛林中精确侦测出啮齿类动物发出的细微声响。


如果人类或猫头鹰只有一只耳朵,那么我们拾取有用音频信息的能力就会大打折扣。没有了声音定位的能力,我们就会把噪音和信号全部纳入,然后让大脑去分析哪些是噪音,哪些是信号。其结果就是,不但我们的分辨能力大幅降低,而且这样做还大大增加了我们大脑的负担。


大多数电子系统的 降噪 原理属于后者,也就是从包含噪音的音频中通过 DSP 算法提取语音信号。这样提取出的语音信号即使可用也会产生不同程度的失真。


Audience 公司的降噪技术属于前者。这是一家总部位于美国加州山景城的公司,成立于 2000 年。该总司号称是全球一家将听觉神经学产品化的公司。在公司成立后的前 8 年, Audience 致力于完善产品技术,所以它真正进入市场的时间并不算长。


Audience 公司的 earSmart 技术是一种仿生学。在声音到达麦克风的那一刻,它就能根据算法判定哪些声音是噪音而加以摒除,从而保证了进入系统的音频信号的纯净度。 Audience 公司的工程师向我们演示了 earSmart 的降噪效果。用一台扬声器模拟餐厅 背景 噪音,然后用装备 earSmart 技术的 Nexus 平板电脑进行录音和回放。在关闭该公司 ASR Assist 专利技术的情形下,所录的语言几乎被背景噪音淹没而无法分辨。开启 ASR Assist 技术后重新录音,我们听到播放出的语言清晰悦耳,而且几乎没有任何失真。


earSmart 技术针对三种情形下的应用:实时通讯(在嘈杂环境下可实现清晰的手机通话)、 语音识别 (在嘈杂环境下实现对录入语音的文本转换)和媒体捕捉(在嘈杂环境下实现与视频同样清晰的语音录制)。


Audience 公司产品有两款: eS325 高级语音处理器和 eS515 智能声音处理器。 eS325 采用真正的三路麦克风、移动去回声和超级宽带噪音抑制语音技术,专利的 ASR Assist 技术实现优化的自动语音识别,用于多媒体则可实现移动音频变焦和增强型高清立体式录音。两种处理器的框图如下所示。欲了解详情请点击 //audience.com/products/our-processors/


eS325 高级语音处理器


eS515 智能声音处理器


目前, Audience 公司的 earSmart 技术主要用于高端应用。据介绍,市场价格高于 2000 元的多款智能手机采用了 Audience 公司的的产品,如三星 Galaxy S4 和华为 Ascend D2 Mate 。另外, Audience 与产业生态系统的各方展开积极合作,尤其是与科大讯飞的配合醒目。在现场演示中,科大讯飞的语音识别软件与 Audience 公司的 earSmart 技术相结合,移动产品在嘈杂环境下的语音识别速度与精度的确令人赞叹。