来源:蜘蛛抓取(WebSpider)
时间:2016-10-31 23:38
标签:
会议话筒 麦克风阵列
科大讯飞麦克风阵列技术揭秘
<meta name="description" content="科大讯飞,科大讯飞麦克风阵列技术揭秘">
科大讯飞麦克风阵列技术揭秘
& 未来人工智能会像水和电一样无所不在,在“万物互联时代”,语音将成为人机交互的新常态。风吹麦浪,静夜虫鸣。人类能听到的声音大约有40多万种,频率在20至20000赫兹之间。智能终端能听到多少呢?
在科大讯飞2015年度发布会的现场,3000余人见证了这样的一场人机互动。演示人员在5米开外,用声音操控DingDong,完成了一系列高难度的订票任务,引来台下阵阵惊叹!
现场那么嘈杂,DingDong却如此“听话”,要让DingDong听懂这么多声音,而且具备远场识别的功能,它必须听的到,而且要听的更加清晰,人类可以带上助听器,机器需要什么呢?
【麦克风阵列】就充当了助听器这样的角色。这个名词是不是很陌生,放心!下面小编和你唠唠这个【麦克风阵列】。
麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。
麦克风阵列能干什么?
任何一项技术的发生发展都伴随着问题的提出及解决,麦克风阵列也是如此。那么它主要应用在哪些场景下呢?又有着怎样的功能!
◆【噪声环境怎么破?】―― 语音增强(Speech Enhancement)
语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。所以DingDong在嘈杂环境下,也能准确识别语音指令。
通过麦克风阵列波束形成进行语音增强示意图
从20世纪60年代开始,Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,称为单通道语音增强。因为它使用的麦克风个数最少,并且充分考虑到了语音谱和噪声谱的特性,使得这些方法在某些场景下也具有较好的噪声抑制效果,并因其方法简单、易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。
但是,在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。
目前科大讯飞已经实现了基于线性阵列、平面阵列以及空间立体阵列的波束形成和降噪技术,效果均达到业界一流水平。
2013年科大讯飞车载降噪产品和国际竞争对手效果对比
◆【说话人老是变幻位置怎么破?】――声源定位(Source Localization)
现实中,声源的位置是不断变化的,这对于麦克风收音来说,是个障碍。麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。所以麦克风阵列技术不限制说话人的运动,不需要移动位置以改变其接收方向,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,因而成为智能语音处理系统中捕捉说话人语音的重要手段。
混响产生原因示意图
◆【室内回声太大怎么破?】――去混响(Dereverberation)
一般我们听音乐时,希望有混响的效果,这是听觉上的一种享受。合适的混响会使得声音圆润动听、富有感染力。混响(Reverberation)现象指的是声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。
但是,混响现象对于识别就没有什么好处了。由于混响则会使得不同步的语音相互叠加,带来了音素的交叠掩蔽效应(Phoneme Overlap Effect),从而严重影响语音识别效果。
影响语音识别的部分一般是晚期混响部分,所以去混响的主要工作重点是放在如何去除晚期混响上面,多年来,去混响技术抑制是业界研究的热点和难点。利用麦克风阵列去混响的主要方法有以下几种:
1、基于盲语音增强的方法(Blind signal enhancement approach),即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。
2、基于波束形成的方法(Beamforming based approach),通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。
3、基于逆滤波的方法(An inverse filtering approach),通过麦克风阵列估计房间的房间冲击响应(Room Impulse Response, RIR),设计重构滤波器来补偿来消除混响。
现在科大讯飞实现的基于麦克风阵列的去混响技术能很好的对房间的混响情况进行自适应的估计,从而很好的进行纯净信号的还原,显著的提升了语音听感和识别效果,在测试对比中,多种混响时间下识别效果接近手机近讲水平。
混响语音信号频谱
经过去混响后的语音信号频谱
◆【说话人太多怎么破?】――声源信号提取(分离)
家里人说话太多,DingDong听谁的呢。这个时候就需要DingDong聪明的辨别出哪个声音才是指令。而麦克风阵列可以实现声源信号提取,声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。
通过麦克风阵列波束形成做语音提取和分离
利用麦克风阵列做信号的提取和分离主要有以下几种方式:
1、基于波束形成的方法,即通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离:
2、基于传统的盲源信号分离(Blind Source Separation)的方法进行,主要包括主成分分析(Principal Component Analysis,PCA)和基于独立成分分析(Independent Component Analysis,ICA)的方法。
进击的麦克风阵列
麦克风阵列技术虽然已经可以达到相当的技术水平,但是总体上还是存在一些问题的,比如当麦克风和信号源距离太远时(比如10m、20m距离),录制信号的信噪比会很低,算法处理难度很大;对于便携设备来说,受设备尺寸以及功耗的限制,麦克风的个数不能太多,阵列尺寸也不能太大。而分布式麦克风阵列技术则是解决当前问题的一个可能途径。所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,相互之间通过有线或者无线的方式进行数据的交换和共享,并在此基础上进行广义上的声源定位、波束形成等技术实现信号处理。
相对于目前集中式的麦克风阵列,分布式阵列的优势也是非常明显的。首先分布式麦克风阵列(尤其无线传输)的尺寸的限制就不存在了;另外,阵列的节点可以覆盖很大的面积――总会有一个阵列的节点距离声源很近,录音信噪比大幅度提升,算法处理难度也会降低,总体的信号处理的效果也会有非常显著的提升,因此分布式阵列有可能是未来智能家居和会议系统中的主流方案。目前科大讯飞已经开始了相关技术研究的布局工作。
在万物互联的今天,麦克风阵列技术已经深刻的走进了我们的日常生活。在智能车载、智能家居、机器人、可穿戴设备等应用热潮正兴起的时代,语音交互由于其便捷性,成了人机交互入口的第一选择,麦克风阵列自然也成为其中非常重要的前端技术。
日上海CES展上亮相的DingDong音箱
DingDong音箱中的麦克风阵列方案
试想一下,未来,你身边的智能机器人通过声源定位技术找到主人的方位,通过降噪技术滤除环境噪声和混响,你可以自由在任意场景中控制机器人,回声消除技术也可用于消除设备自身播放的声音,从而真正的实现正真意义上的交互!
编 辑:王洪艳
百度张亚勤:人工智能将颠覆金融和医疗行业
CCTIME推荐
CCTIME飞象网
CopyRight &
京ICP备号&& 京公网安备号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像不知道麦克风阵列是何方神圣?这篇文章告诉你! - 推酷
不知道麦克风阵列是何方神圣?这篇文章告诉你!
上个世纪七八十年代,麦克风阵列技术已经开始应用到语音技术的研究中,2000年左右,业界开始慢慢深入,进行基于麦克风阵列相关算法的专题研究。到了物联网时代,市场的刺激和产品的需求,极大的推动了相关的技术进展,尤其是2014年亚马逊echo的正式发布,这一领先性的语音技术迅速进入到民用级产品的应用范畴中。
一般来说,人耳能听到的声音频率在20~20000赫兹之间,而很有意思的是,听觉其实是一种预警机制,除了听到声音,更重要的是具备分辨声源方向的能力,屏蔽主赫兹以外的声音更是为了对人体起到一定的保护作用,为有效交流提供保证(否则整个世界就真的太吵了)。那么,相似地,麦克风阵列,其实就相当于机器之耳,不仅只是为了采集音频,识别信号,传输信息,还为了更好的声源定位和噪音降解,杂音屏蔽等。
思必驰于2015年年底推出了环形6+1远场麦克风阵列,也是目前国内唯一一款6+1环麦,亚马逊echo核心功能的“中国版”技术。目前被广泛运用在机器人和音箱等智能家居产品中。那么这款环麦具体有什么样的功能和优势?
图1 思必驰环形6+1远场麦克风阵列
麦克风阵列能解决的问题
【语音增强】解决噪声环境下的识别
噪声环境是影响语音识别的一个重要因素,普通家居环境下的噪音有混响、回声、背景噪音、人声干扰等多种类型。不同步的语音相互叠加产生音素的交叠掩蔽效应,严重影响语音识别的效果。解决该问题需要从抑制噪声和语音增强两方面入手。思必驰环形6+1远场麦克风阵列利用拾音波束成形,采用独特算法,有效抑制波束之外的噪声,同时融合语音信号的空时信息,从含噪声的语音信号中提取出纯净语音,有效地增强说话人语音。
【声源定位】辅助多功能联动
对麦克风拾音来讲,声源的位置的不确定性为语音交互带来了阻碍。思必驰环形6+1远场麦克风阵列实现360&环形拾音,多麦克定向,准确计算目标说话人的角度和距离,实现对目标说话人的跟踪以及后续的语音定向拾取,精准度控制在&10&以内,成为智能语音交互中捕捉说话人语音的重要方式。声源定位功能不限制说话人运动,不需要移位操作,这增强了产品设计的灵活性和功能的多样性,可有效地实现对产品的多功能辅助作用。
【远场交互】打破远距离沟通障碍
语音会随着传播距离衰减,传播距离越远,背景噪声和干扰所占比例就越大,同时混响也越严重,这对语音的远场识别及交互提出了较高要求。思必驰环形6+1远场麦克风阵列在前端充分利用其空域滤波特性,抑制拾音波束外的回声、混响等噪声,进行语音增强处理,辅之以语音识别引擎的二次处理,实现优质的远场识别交互。思必驰已实现了国内领先的5米远场交互,5米识别率达92%,3米识别率达94%,1米识别率达96%以上,远场识别媲美近讲。
【打断纠错】针对错误识别的解决办法
语音系统的认知能力是智能语音不容回避的问题,用户需求决定了要识别错误、纠正打断,认知型语音技术成为语音交互的必然趋势。思必驰环形6+1远场麦克风阵列融入了自适应、理解纠错、智能反馈等认知技术,重新提取大数据因素,并进行二次计算,实现智能纠正打断,能够适应更多的应用环境,具有进化调整功能,从而在人机交互的过程中,使机器更“听话”。
【多轮对话】应对用户的复杂需求指令
复杂任务的处理要求人机能够进行多轮对话,要求机器能够基于上下文的任务关系,进行任务切换和指代消减。就此,思必驰推出了“对话管理” 技术,并成功应用于环形6+1远场麦克风阵列。基于对话逻辑,允许人机进行多轮语音互动,让机器理解用户的深层意图并提供反馈。而机器可以通过深度学习,可以根据上下文语境准确追踪用户意图,并随着数据的积累而越发灵活精准。深谙语音交互之道的多轮对话,使人机交互更自然流畅。
【后端服务】实际场景下的功能需求
语音技术的应用场景、功能设计千差万别,保证用户体验的首要标准是满足用户的功能需求。当前智能硬件更多的是在生活场景中的应用,需要提供周边、资讯、音乐、订餐、订票、导航等生活服务,自然语言仅是人机交互的入口,而后端的内容和服务才是真正的交互对象。目前思必驰“环形6+1远场麦克风阵列”解决方案整合了高德地图、酷我音乐、虾米音乐、喜马拉雅电台、考拉电台、大众点评等生活服务方面的诸多关键资源,致力将智能语音服务整合成一体化产品,打造体验闭环,形成完整的生态链。
图2 思必驰环麦阵列特性
思必驰麦克风阵列的应用领域
当前思必驰“环形6+1远场麦克风阵列”解决方案主要应用于以下几个领域:
思必驰针对智能机器人业务提供“环形6+1远场麦克风阵列”软硬一体化解决方案,使机器人反应灵敏,能说会道,闻声识路。在一般家居环境下,能够随时随地捕捉用户声音倩影,自由对话。你无聊,我陪你闲聊;你搜索,我提供资源;你呼唤我,我闻声而来;我做错了,由你纠正打断。思必驰智能语音实现更人性化的人机交互。
2. WiFi音箱
“环形6+1远场麦克风阵列”使音箱不仅只属于音乐,也属于生活。想听歌,随时语音操控;想安静,任你打断关闭;生活周边,吃喝玩乐,你问我答,贴心的乐活专家;行程安排,路线订票,你下令,我执行,专业的资讯助手…..小小音箱不再仅仅是音乐播放器,思必驰交互语音让它成为了生活工作的小能手。
3. 智能中控系统
传统家居中控采用按键或触控的方式,但思必驰“环形6+1远场麦克风阵列”使智能中控系统更便捷精准。比如支持智能语音系统的路由器,可通过智能语音操控帮助用户管理家中的各个联网设备。联网设备的分散性及位置的不确定性强调了拾音角度和拾音范围的随意性,思必驰“环形6+1远场麦克风阵列”可有效解决这一问题,使中控更加精准有效。
4. 智能电视(“4麦线性麦克风阵列”解决方案)
就电视类的家居产品而言,“4麦线性麦克风阵列”解决方案更为适宜。此类家居具有位置相对固定的特点,环形360&麦克风解决方案稍显不合理,而线性180&麦克风解决方案完全可满足用户需求,性价比更高。“4麦线性麦克风阵列”解决方案亦可实现5米远场识别,识别率达92%以上,同时为用户提供云端丰富的第三方内容。在电视行业向智能家居转型的过程中,智能语音大亮鲜招,思必驰“4麦线性麦克风阵列”解决方案实现更快的语音控制,更自由的语音搜索,更高效的语音交互及更丰富的内容服务,扔掉遥控器,抛弃终端APP,一语控制,随心所欲,家居操控更便捷。
图3 思必驰麦克风阵列使用场景
Echo与环形6+1麦克风阵列
谈到环形麦克风技术的市场应用,亚马逊Echo音箱无疑成为国际市场典范,以消费级电子产品来衡量,Echo表现出色,能迅速360&全方位识别语音并做出反应,准确进行声源定位,结合丰富的后端资源,支持多样功能。
图4 亚马逊echo
该产品技术理念与思必驰“环形6+1远场麦克风阵列”解决方案可谓是不谋而合,极为相近但却又不尽相同。Echo是成熟的市场产品,主要采用英文进行语音交互;思必驰“环形6+1远场麦克风阵列”是智能语音解决方案,专注国内中文市场。前者对后者的市场应用有较大的借鉴意义,思必驰环麦技术专注智能硬件领域,不仅仅局限于音箱,还包括机器人、家居中控等等,环麦技术的应用领域将进一步拓宽。
打造中国版的Echo
如今,人工智能技术日新月异,智能产品应用领域飞速拓展,优质智能家居产品终将突破Echo类的音箱型产品,电视、机器人、个人网关等高频使用的产品形态均具备较大市场潜力。思必驰“环形6+1远场麦克风阵列”解决方案将先进的语音交互技术与丰富的后端资源相结合,突破音箱类产品形态,为更多优秀的智能硬件产品提供语音操作及交互服务。在可以预见的未来,智能语音将作为有效媒介传递价值,思必驰将借助“环形6+1远场麦克风阵列”解决方案,致力于打造中国版Echo。
图5 语音交互具有丰富的应用可能
----------------------------------------------------------
城宇自媒体:百度百家、今日头条、腾讯新闻、搜狐新闻等20多家
【微信公号:ksms2046】最接地气的手机体验自媒体
分享互联网、智能硬件、电商等业内动态,顺手点评房产、影视和娱乐
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致麦克风阵列和麦克风/输入端,高手解答一下_笔记本吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:1,663,880贴子:
麦克风阵列和麦克风/输入端,高手解答一下收藏
不知道你们的电脑什么样,我语音即便设置好是麦克风,但是麦克风的音柱依然是0,而麦克风阵列却可以用,也就是说,无论你插不插麦克风的线都是用的麦克风阵列进行语音。麦是好的,声卡也是好的,怎么让麦克风正常使用呢???
猛兽级游戏本性价爆表!战神K660D配桌面CPU/GTX960M 4G独显/8G内存 3999起
这个我设置好一会了 也没完事!!!!来个高手啊,别说看不懂………………
来个大手啊…………
没人能解决吗?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
我和你一样悲剧
这样聊天时对方总是能听到寝室的其他声音……
我想问,这个问题解决了吗?我也遇到了这个问题。耳麦插到别人电脑能听到,能录音。就是查到自己电脑上只能当耳机使用,麦就不好用。
把麦克风输入端禁用了就可以了
我和你一样啊 苦逼啊 求高手
品牌笔记本维修点 笔记本维修 清理保养 一体机维修 组装机维修 硬件升级 系统安装故障诊断 十年行业技术!
我的麦克风阵列貌似是好的 可是我能听到 对方听不到 彻底废的
我特等着大神解决呢
这貌似是戴尔的机子?
麦克风阵列右键默认
都一年了 还没人解决么?我第一个不是蓝牙耳机而是基座麦克风!而且更可怕的是最近用不了语音聊天和视频了
电脑没把我的声音送出去反而送回来了 还带来回声活像贞子在宿舍 第一次听到时把我吓尿了!!!
一样的,不知道什么时候开始就这样了,楼主现在弄好没
登录百度帐号推荐应用
为兴趣而生,贴吧更懂你。或