有种脑电波异常有什么症状机器,科学家们隐藏起来控制着机器,通过信号传入耳朵产生听觉,能知道人想什么的。转发

长期想念一个人,对方会不会有感应?长期想念一个人,对方会不会有感应?三哥带你尝天下百家号逍遥 Norene,脑科博士,一只切切切切脑子的科研喵最近有朋友失恋了,这又是一桩异地恋造成的惨剧。在他心心念念盘算着如何把异地恋修成正果,尽快过上在每天携手看花开花谢云起云落的小日子的时候,对方和他分手了。朋友们看不下去他每天郁郁寡欢,只好给他出一下策:“别太难过,王家卫告诉我们 ‘念念不忘,必有回响’,你每天想他,他肯定会感受得到的,心诚则灵(拍肩)”。这个下策真的有科学依据吗?实例一:情窦初开的小虹暗恋身边某位颜值超标的同学,每天都在心里想他却又不好意思表白,神奇的是,想得越多就越能够不经意地在各种场合遇见,让小红每天都活在小鹿乱撞的心情中。实例二:小兰和小黄是一对热恋中的情侣,两人惊喜地发现他们之间除了有爱情的化学反应之外,还有某种心电感应,比如小兰刚想到小黄,拿起电话,就看到小黄的短信不期而至。实例三:小白每次在外面干了坏事总能被他妈妈抓住把柄,而每次生病伤痛想妈妈的时候,也总能接到妈妈关爱的电话,用白妈妈的话说就是:妈妈每天挂念你,还能不知道你那点小心思和臭毛病!看了这么多活生生的例子,难道想念一个人,对方真能感受得到?这就得首先搬出心理学的三大板斧之一的选择性知觉理论。选择性知觉选择性知觉(Selective perception)是心理学上一个常见的现象,就是我们在生活中,总是会根据我们的社会经验和生活经历,潜意识地选择某一种东西去相信、去理解的一个过程。在某些定义里,又把这个过程分为三个内容:1. 选择性注意(Selective attention):当我们接受某些信息的时候,通常只注意自己感兴趣的那部分,而忽略掉其他部分。比如你今天出去逛街,天气好冷衣服穿少了,走在路上不由自主地就会更多的关注买衣服的店家,而对卖冷饮的小店视而不见。2. 选择性扭曲(Selective distortion):当我们有一定的先入为主的概念的时候,通常会把接受的信息往原先已知的概念上面去引申。比如你听说石油行业不景气(已知概念),所以在买股票的时候,哪怕看见石油相关的股票涨势喜人(接受到的新信息),你还是不会去选择购买石油股。3 .选择性保留(Selective retention):我们通常只愿意去记住我们感兴趣的内容,或者是说哪怕我们接受了各种各样的信息,但大脑却会自然而然地只去记忆一些与我们的观点相符的部分。比如你去相亲,在去之前就得知此人没太多文化,你相亲回来后,在被问这人这么样的时候,你能回忆起来的大部分是他一边吃菜一边剔牙,说话大声粗暴还对服务员指手画脚……却忘了他也曾很体贴地点了很多你爱吃的并且发自内心地赞美你长得好看说话温柔。所以在分析 &是不是我们想念一个人,就可以让对方感受到,并对此作出回应& 这个问题上,套用选择性知觉的理论就很容易解释了。为什么小虹总能遇到他暗恋的对象?其实对象只是正常时间出现在正常地点,没有小虹的暗恋,他也会出现在这些地点,只是小虹因为喜欢对方,每次都更容易注意到暗恋对象的存在,而忽视了身边的其他人,所以在小虹看来就像是:好神奇,我和他好有缘,在哪里都能遇到!为什么小兰总能在想小黄的时候就能收到小黄的短信?有两种可能:1. 热恋中的情侣本来互相发短信的次数就比其他人高很多,所以从概率上讲,收到小黄短信的可能性比别人大也很正常;2. 在没想念小黄时看到短信的情况,被小兰自然而然的忽略 / 遗忘了,所以小兰记得的就只剩下:好神奇,小黄每次都能感受到我的思念。为什么妈妈总能感受到我们需要她?这还用解释,因为她是你妈啊!没体会过当妈心情的同学,赶紧去下载一个旅行蛙游戏玩一下吧。或许看到这里,有些同学不太开心:你们真是太无聊了,这么甜蜜亲切的瞬间,被乱七八糟一通解读,一点爱意都没有了。摊手,没办法啊,博士们就是些怪里怪气的角色啊,当你接受了这一点,也许就能更好的选择性知觉这类人群了吧(误)。不过说到怪里怪气,脑科学家比心理学家对于这个词的诠释更贴切,因为在心理学家还在研究怎么解释心灵感应这个现象的时候,脑科学家们已经开始研究让人类获得心灵感应的技能了。划重点:后面写的东西比较硬,对脑科学没有兴趣的朋友,看到这里可以打住。脑机接口技术在无情的脑科学家们看来,心灵感应说白了就是大脑与大脑之间直接传递思想和情绪,在领域内有一个专门的词汇叫做脑脑对接(Brain-Brain Interface, BBI)。目前要实现这个技术还挺难,所以聪明的科学家们一拍大腿,就想到了一种中转的办法:如果我把我想的东西先存进一个机器里,然后你再从这个机器里读取我的想法,这不就间接地了解了我的思想和情绪了吗?而这种让大脑和机器相互连接和交流的技术,叫做脑机接口(Brain-Computer Interface, BCI 或是 Brain-Machine interface, BMI)。脑机接口其实是一个非常大的领域,一时半会也无法完全说清,所以再这里只能大致给大家介绍一下。目前脑机接口的实现主要有两个方向:非侵入式脑机接口(Non-invasive BCI)和侵入式脑机接口(Invasive BCI)。侵入式和非侵入式当然也是如字面意思那样的,就是要不要做手术把颅骨打开,需不需要通过插入式电极来获得大脑的信号。目前商业运用最多的是非侵入式脑机接口,毕竟要让一个没病没痛的正常人买仪器,总不能上来就把人家的脑洞开开吧。非侵入式主要包括脑电(EEG)、脑磁(MEG)、功能性核磁成像(fMRI)和近红外脑成像(fNIRS)等等; 而侵入式主要包括多电极阵列(MEA)、皮层脑电图(EcoG)、深度电刺激(DBS)等等。在非侵入式中,用得最广泛的还是脑电设备,就是用金属电极贴在你额头的皮肤上,透过皮肤和颅骨来测量大范内神经细胞电活动的信号(叠加电位),商业领域也把这个信号叫做脑波(Brainwave)。很多公司就使用这种脑波分析的方法,设计了很多游戏和玩具,比如最著名的意念游戏开发商 Emotiv。一个叫 Neurowear 的日本公司还发明了两个萌妹专用的设备:脑波猫耳(Necomimi)和脑波狗尾(Shippo)。我专门去 Neurowear 的网站上去看了这两个东东,他们都是使用头戴式的发箍把收集信号的电极固定在脑门上,然后通过记录脑波的频率变化,来调整耳朵或者尾巴的的摆动,以此来表达情绪。比如介绍中说,当脑波感应器收集到携带者的处于高度放松的脑波时,猫耳就会慢慢垂下,专注时耳朵就会立起来,感兴趣或者兴奋的时候猫耳朵就会竖起来左右摆动。尾巴也一样,就模仿小狗那样,看到感兴趣的东西时,尾巴就会抑制不住地摇晃起来,大概制作这个产品的公司老总深深地感受过女孩心思难猜的痛苦吧(同情)。这个公司除了卖萌系列,还有脑波照相机之类的其他产品,美其名曰根据心情记录生活中的时时刻刻。不过这种外部佩戴式的设备其实收集信号的能力很差,处于不稳定的环境里的时候(比如坐在车上、走路等等)就不可能测到稳定的信号,有用户甚至反应粉擦得厚一点也没信号了(心疼),所以可想而知使用起来完全无法得心应手,大概就只能达到卖萌的目的了。在医疗和科研领域,侵入式脑机接口的研究更广泛一些,毕竟要达到传输数据的目的,最先一步,还是得准确地取得脑部的信号。侵入式脑机接口其实已经应用了十几年了,最早是用来治疗各种神经疾病,比如植入人工耳蜗来回复听觉、植入深度脑电刺激器来治疗帕金森病等等。还有后来很著名的让残障人士用意念使用机械臂,或者用意念控制键盘打字等等。不过用作在脑子和脑子之间进行思维传导的研究还比较少,比较著名的有两个:第一个是美国杜克大学(Duke University)Nicolelis 实验室 2013 年用老鼠模型做的一个实验,检测能不能把两只老鼠的感觉连接在一起。当一只老鼠受到刺激的时候,另一只老鼠也会接收到感应,然后会按下操纵杆(大家这时有没有想到最新一季的黑镜第六集?没看过的赶紧去看)。研究者的想法也很简单直接,就是在两个老鼠的感觉皮层(Sensory cortex)区域装上植入式电极,其中一个电极负责发出信号,另一个电极负责输入信号。研究人员去刺激负责发出信号的老鼠(Encoder,编码者)的胡须同时记录它感觉皮层中的电信号,进而把这部分信号的波形解码变成可以被计算机识别的信号,然后再通过计算机程序编码给负责接收信号的小鼠(Decoder,解码者),让它的感觉皮层上感受到刺激,最后成功感受到刺激的 Decoder 会去按下操纵杆(这部分是预先受到训练的),告诉研究人员们“我感受到刺激了”。更有意义的是,这两只小鼠脑部信号的传输可以是远程进行的。实验中,发信号的 Encoder 在巴西,而接受信号的 Decoder 在美国。第二个实验也是类似的远程传输,却是在人身上进行的。西班牙巴塞罗那大学的 Ruffini 实验室在 2014 年完成了这项实验,研究者把身处于印度的某个人想好的问候语,用前面介绍过的脑电 EEG,把脑波收集起来,再通过分析编码后,用电子邮件发送到西班牙和法国,解码后用经颅磁刺激(TMS)把信息“植入”到接收者的大脑中。在我看来,这两个实验虽然确实是在两个不同的脑子之间进行了某种信息的交流,但如果要说是意念传输,还有些言过其实。不过不可否认的是脑机接口技术一定会成为下一阶段脑科学研究的热门。比如说那位钢铁侠的原型,让我们警惕人工智能的 Elon Musk 在不久前就买下了 Neuralink 公司,准备进行脑机接口的研究。他声称既然阻止不了人工智能的研究,就干脆把人类改造成智能人,在人脑内植入芯片来增强大脑的功能,以此来对抗人工智能(大写的服)。这个想法和美国最神秘的机构 DARPA(美国国防先进计划研究署)不约而同,DARPA 也在近年开展了一系列看似很不靠谱的计划,比如加速学习计划(Accelerated learning program)、把士兵改造成半机械人的神经工程交互设计(The Neural Engineering System Design)等等。不过这些计划的最终实现,最大的限速步骤还是基础神经科学的发展。目前,相比起我们想要对大脑做的改变来说,我们对大脑本身的认识还是太有限了。写到脑机接口部分有点收不住,谢谢耐心看到这里还没有关掉页面的小伙伴们。其实所谓的“念念不忘,必有回响”,说的也是一种信念和坚持。大师们大概是想告诉大家:相信自己的信念,然后坚定地去完成每一件相关的小事,这种对梦想的坚持,应该总有一天会让我们到达自己想去的某个地方的吧。希望科学家们能够赶快念念不忘地继续这方面的研究,让正在想念或者被想念的你们,尽快感同身受体会对方的爱意。参考文献:A Brain-to-Brain Interface for Real-Time Sharing of Sensorimotor Information. Scientific Reports 3, Article number: ) doi:10.1038/srep01319Conscious Brain-to-Brain Communication in Humans Using Non-Invasive Technologies. Plos One. Volume 9 Issue 8. (2014) doi:10.1371/journal.pone.0105225本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。三哥带你尝天下百家号最近更新:简介:三哥带你尝遍天下美味作者最新文章相关文章小米、高通押宝的下一个AI风口: 改造机器听觉_i云资讯
小米、高通押宝的下一个AI风口: 改造机器听觉
许多人认为这次的 AI 复兴主要来自两个领域的突破:机器视觉和自然语言处理,特别是在机器视觉比如人/物的体识别、自动驾驶等,都已经取得很好的表现后,科学家们正在攻克另一个领域—机器听觉。
在众多智能语音助手、智能音箱问世的带动下,提到机器听觉很容易直接让人联想到“关键词唤醒”、“自动语音识别”(ASR),例如先喊一声 Hey Siri、Alexa、小爱同学,呼唤这些智能语音助理,接着对其下指令。其实,机器听觉是一门范畴广泛的领域,从声学系统、脑怎么处理声音、到如何将人类的听觉知识封装在算法中,以及如何把算法组合成一个可模拟听觉的机器。
人类的耳朵除了让我们听得更清楚,还能识别声音的方向,知道发声的物体是什么,或者判断处在一个什么样的环境当中。想要让机器能够具备如同人类耳朵的完整功能,现有技术还是很难实现,像是吵杂环境的多人音源分离、远场语音交互等,大家讲远场识音可以达到 3 米、5 米,但要做到 3 米、5 米有一个前提,就是噪音不能太大。正因技术发展还有巨大的提升空间,不少科学家正通过深度学习来改善,并推动行业的发展。
美国著名发明家和科学家 Richard F. Lyon 在 2010 年发表一篇关于机器听觉的重磅“Machine Hearing: An Emerging Field”,指出机器听觉将成为一个新兴领域。文章指出,“我们的计算机目前基本是聋的,它们对于自己存储和处理的声音几乎没有概念”,“近年来,基于文本的图像或视频分析稳健发展,但声音分析则显得滞后.... 与机器视觉的多样化和活跃度相比,机器听觉领域仍处于起步阶段”。
因此,他利用类似机器视觉建模的方法,来打造一个 4 个主要模块的听觉系统结构:1.外围分析器(peripheral analyzer)、2.听觉图像生成器(auditory image generators)、3.特征提取模块(feature extraction module),这个部分在机器视觉领域,就是把图像作为输入,萃取出多尺度的功能、4.可训练的分类器或决策模块(a trainable classifier or decision module),这个阶段会针对应用程序选用适合的机器学习技术,并利用上阶段提取的特征来做决策。
Richard F. Lyon 指出,要打造一个“智能环境”系统是项大工程,可以通过具听觉的机器来实现,把它们安装在汽车、家庭、办公室的计算机,利用这些“听觉前端”实时添加应用程序、执行任务,而且配合“特征提取”、“机器学习”来实现。现在来看,他成功预言了 8 年后今日的样貌,自动驾驶、智能音箱等都选择以“听觉前端”作为交互的入口。
另外,值得一提
Richard F. Lyon 在 80 年代晚期任职于苹果的先进科技部门,当时苹果曾推出 PDA 产品 Apple
Newton,其中的手写识别系统 Inkwell 也是由他开发。他也曾在 Google 工作,从事听觉和声音处理的研究工作。
此外,华人科学家汪德亮,同样是机器听觉的大牛,身为俄亥俄州立大学感知与神经动力学实验室主任的他,不仅是机器视觉、听觉交叉学科的专家,更是把深度神经网络引入机器听觉领域的先驱,例如通过机器学习把嘈杂的说话声样本切割为时频单位(time-frequency
units),并从这些单位提取出数十种特征来区分语音和其他声音,接着把特征送到深度神经网络中,借此训练出可以分离出语音单元的模型。最后,把这个程序应用在滤波器上,过滤掉所有非语音的单元,只留下分离后的人声。他的最终目的是希望借此改善助听器的品质。
为了把学术研究成果转化为商业化技术,他以联合创始人的身份创办了专攻机器视觉的人工智能初创公司大象声科。就在几周前,大象声科完成了数千万人民币的 Pre-A 轮投资,领投者出现两个重要名字:小米和高通创投,不难猜想这两家公司的战略意义之外,更代表机器听觉的技术将随着硬件巨头的重视可望进入大规模的落地。
机器听觉仍远落后于人类
视觉跟听觉可说是人类最重要的两个感知能力,机器视觉在许多特殊场景下已经超过人类水平。但是为什么机器听觉的发展速度却不如机器视觉快,仍远落后人类?
大象声科 CEO 苗健彰接受 DT 君采访时解释,视觉是一种遮挡的信号,不论是区分图像、物体、人脸,机器可以容易画出物体的边缘,但是,声音是一种叠加的信号,比如一个场景里面有各种的人声、噪声等叠加在一起,信号能量混在一起之后,想要将其分开就很困难。另一个原因是起初深度学习多被应用在语音识别,而更前端的信号处理部分大约是到 2013 年左右才开始引入 AI。前端处理是指在特征提取之前,对原始语音进行处理,如噪声抑制、回声消除、混响抑制等。
不过,近来行业开始涌现了非常大的需求,越来越多智能硬件、机器人需要语音交互。
传统设计思维过时
在今年 4 月锤子坚果 3 手机发布会上,提到内置了“AI 通话智能降噪”,简单说就是通话听清,背后的技术即是来自大象声科。
降噪,不是项新概念,市场上也有许多降噪耳塞,效果如何总是得体验过才知道,既然并非人人都是锤子用户,为了让一般人可以感受,大象声科其实做了一个录音 APP—VOCPLUS,苗健彰表示,现在录音笔多半不具备降噪功能,遇到吵杂环境往往没辙。不过,APP 只是让大众体验的入口,并没有打算将其商业化,公司定位是面对手机业者的 B2B 生意,真正商业化如锤子手机的降噪就是与 APP 同样的技术。而 DT 君实际试用该款 APP,感觉对于消除环境噪音确实有不错的效果,有兴趣的读者可以自行下载试试。
为什么可以做到很好的效果,是提取噪音进而消除吗?答案其实正好相反。
苗健彰指出,传统信号处理的思路是基于噪音特征,比如噪音的 Pattern 是如何、在频率上有什么特性等,接着设计滤波器,把噪音留在滤网上,剩下的声音就留下来,但这么做存在一个问题,就是世界上的噪声种类变化太多,聚合一起有各种排列组合,而且很多的动态噪音没有办法事先预测何时会出现。
所以大象声科换了一个角度来思考问题:既然人类语音的 Pattern 特征其实很明显,那就把在重点放在人的声音上,让机器只关注人的声音,反而更符合人类听觉的基本原理,当我们与朋友在餐厅吃饭,环境很吵,但人类仍然可以轻松对话,就是因为我们把注意力放在对方身上,这也是为什么人类可以简单解决鸡尾酒会的问题。
盲源分离是机器听觉缺失的一块
他进一步解释,“机器其实缺失的听觉功能是盲源分离(BSS,Blind Source Separation),也就是判断发声音源”。
为了解决鸡尾酒会问题,盲源分离成了近年来信号处理领域的一个研究热点,BBS 是指一种不需要任何预先得到资讯,从感测器所量测到的混合信号(mixtures)中,把信号源(sources)抽取、分离出来的方式,目前在语音信号分离、麦克风阵列信号处理、生医讯号如脑电波(EEG)处理等领域都有不少研究。
盲源分离的基本架构如下图,假设有两个声音源 S1、S2,经过了一个未知的混合过程,麦克风收到了两个声源的混合信号 X1、X2,而 a11、a12、a21、a22 代表声源到麦克风的衰减程度,这些系数皆为未知,这也就是称为“盲”的原因,盲源分离的目标就是在信号和混合过程均未知的情况下,分离出各种音源。
图|盲源分离技术基本概念
Google 双人声分离展现高水准,用视觉辅助听觉
在看不见的情况下,如何把各种各样的音源区分开来,是机器听觉里面的一个挑战,解决这个挑战就有多种思路,“AI 其实提供了一个好的办法”:通过训练让模型能够自主在嘈杂环境底下把声音特征提取出来。
目前来看,大象声科技术强项在分离人声和噪音,解决了手机产品某种程度的鸡尾酒会问题,不过在其他场景仍有待克服,例如智能音箱、电话会议场景等,还需要解决人声跟人声的分类,“多个说话人声分离,甚至还要记录下来,可说是在语音分离上最高级的挑战”。
在多人声分离领域,Google 前阵子展示把两个人对话分离的成果,结合视频的图像来辅助,就是说,在某些复杂且嘈杂的场景下,加入视觉信号分析来做语音分离,是一个趋势。
在今年的 Google IO 大会上展示了一段影片,运动节目里两位来宾情绪激动,说话针锋相对,你一言我一句,声音重叠几乎很难听清楚任何一方在说什么,这种情况常出现在新闻节目、脱口秀、会议上,而 Google 做到将两个人声分离,让用户可以在视频中指定让某人“静音”,只听见另一方的声音。“这在语音分离部分是一个很棒的进展,”,他说。
Google 将此技术称为 Audio-Visual Speech Separation(声音影像的说话分离),最大的特点就在“联合视听模型”,不只是分析人声跟背景噪音,还会分析视频中人物的嘴型与表情。研究团队用了
YouTube 上只有单一讲者的无干扰演讲影片,并将这 10 万个、总时数长达 2,000
小时的影片混入其他演讲影片与背景杂音,以训练多重串流卷积神经网路(Multi-Stream Convolutional Neural
Network),进而把各个人物所说的话分离成独立音轨。
图|谷歌的 Audio-Visual Speech Separation 技术
图|用视频中的嘴型、表情来协助完成语音分离
其他的趋势还有像是机器可以从声音去判断用户的情绪是好是坏,或是机器透过听觉,它可以自己知道身处在一个什么样的环境当中,甚至是当它如果听不清楚的时候,它可能会主动告诉你:“对不起,我听不太清,可以把音乐关小一点吗”,这些都是机器现在不具备的能力,但在未来有机会拥有。有了这些技术功能,智能音箱可能就不会再闹笑话。
分头让人、机器听得更清楚,考量推出机器听觉芯片
目前大象声科主要技术是分离人声与非人声,但也逐步投入多人声分离的研究。而机器听觉的 AI 训练其实跟机器视觉概念类似,同样要提供大量的声音数据,男女、小孩、高低音等都是必要的,同样也需要给予标注(label)数据,例如发声源、发声时间的起始。
另外,人声具有一些特点,例如,发声范围分为 20~2 万赫兹之间、大约 24 个频段。第二、人声是连续地。机器学习的优势就在于,通过大规模数据的堆积,机器能够自己寻找到这些特征,进而判断,例如判断环境是户外或室内、在车内还车外,在车内有开窗或没开窗等,这对于车载交互就很有帮助。
大象声科想要解决的两大问题:一是让“人”听得更清楚,针对手机通讯、云通讯等领域所推出的智能通话降噪解决方案,能够帮助用户过滤掉通话环境中的背景噪音,让对方听得更清晰;另一个是让“机器”听得更清楚,为机器打造一双智能耳朵,赋予其更灵敏的机器听觉。大象声科推出的智能交互解决方案,包含智能降噪、语音唤醒、声纹识别等核心算法,能够为智能音箱、机器人、智能车载等行业带来更自然的语音交互体验。据了解,除锤子的坚果3之外,今年年底前,这两大解决方案也会逐渐在其他手机、智能家居和机器人等产品上进行商业落地。
公司主要采用软件授权的商业模式,将算法软件授权给 OEM 厂家,嵌入在手机的数位讯号处理器(DSP )芯片、麦克风芯片上,或直接把它封装成一个 SDK,提供给语音类软件运营商。不过随着市场需求提升,“有计划将算法和硬件结合起来,与芯片厂家合作定制一个专门、适合我们算法的芯片,一方面可以进一步提高方案的性能,还可以帮助客户降低系统总成本,缩短产品上市时间”,苗健彰说。
图|大象声科 CEO 苗健彰(图片来源:DT 君)
不过由于大象声科的团队背景是以软件见长,而做硬件需要长期积累和大量投入,但他认为,“所谓语音芯片就是听觉芯片,什么样的公司做听觉芯片最合适的?其实是对于机器听觉算法有很强认知的公司,因为知道这个算法需要一个什么样的算力载体”,因此,大象声科也希望找到能够一同合作的伙伴。
当智能手机问世后,世界进入了触屏交互时代,很有潜力的新一代交互方式则落到了语音身上,特别是在双手被占据的场景中,用说的比用摸的更方便,像是开车、工厂、医疗场景,语音交互可能会慢慢存在于未来各种各样的设备中,“我们的技术在于将微弱的人声从嘈杂的背景当中提取出来,无形植入未来任何一台需要“听”的智能设备当中,这种存在其实是观察不到的”,就像是老子《道德经》中所言:大象无形,大音希声。
热门关键词
i云资讯 版权所有(C)2022小米、高通押宝的下一个AI风口:改造机器听觉-家核优居手机站 - 国内首家专业智能家居产品评测平台
智家核心,最懂你心
小米、高通押宝的下一个AI风口:改造机器听觉
07-30 17:55
来源: DeepTech深科技
许多人认为这次的 AI 复兴主要来自两个领域的突破:机器视觉和自然语言处理,特别是在机器视觉比如人/物的体识别、自动驾驶等,都已经取得很好的表现后,科学家们正在攻克另一个领域&机器听觉。
在众多智能语音助手、智能音箱问世的带动下,提到机器听觉很容易直接让人联想到&关键词唤醒&、&自动语音识别&(ASR),例如先喊一声 Hey Siri、Alexa、小爱同学,呼唤这些智能语音助理,接着对其下指令。其实,机器听觉是一门范畴广泛的领域,从声学系统、脑怎么处理声音、到如何将人类的听觉知识封装在算法中,以及如何把算法组合成一个可模拟听觉的机器。
人类的耳朵除了让我们听得更清楚,还能识别声音的方向,知道发声的物体是什么,或者判断处在一个什么样的环境当中。想要让机器能够具备如同人类耳朵的完整功能,现有技术还是很难实现,像是吵杂环境的多人音源分离、远场语音交互等,大家讲远场识音可以达到 3 米、5 米,但要做到 3 米、5 米有一个前提,就是噪音不能太大。正因技术发展还有巨大的提升空间,不少科学家正通过深度学习来改善,并推动行业的发展。
美国著名发明家和科学家 Richard F. Lyon 在 2010 年发表一篇关于机器听觉的重磅&Machine Hearing: An Emerging Field&,指出机器听觉将成为一个新兴领域。文章指出,&我们的计算机目前基本是聋的,它们对于自己存储和处理的声音几乎没有概念&,&近年来,基于文本的图像或视频分析稳健发展,但声音分析则显得滞后.... 与机器视觉的多样化和活跃度相比,机器听觉领域仍处于起步阶段&。
因此,他利用类似机器视觉建模的方法,来打造一个 4 个主要模块的听觉系统结构:1. 外围分析器(peripheral analyzer)、2. 听觉图像生成器(auditory image generators)、3.特征提取模块(feature extraction module),这个部分在机器视觉领域,就是把图像作为输入,萃取出多尺度的功能、4. 可训练的分类器或决策模块(a trainable classifier or decision module),这个阶段会针对应用程序选用适合的机器学习技术,并利用上阶段提取的特征来做决策。
Richard F. Lyon 指出,要打造一个&智能环境&系统是项大工程,可以通过具听觉的机器来实现,把它们安装在汽车、家庭、办公室的计算机,利用这些&听觉前端&实时添加应用程序、执行任务,而且配合&特征提取&、&机器学习&来实现。现在来看,他成功预言了 8 年后今日的样貌,自动驾驶、智能音箱等都选择以&听觉前端&作为交互的入口。
另外,值得一提 Richard F. Lyon 在 80 年代晚期任职于苹果的先进科技部门,当时苹果曾推出 PDA 产品 Apple Newton,其中的手写识别系统 Inkwell 也是由他开发。他也曾在 Google 工作,从事听觉和声音处理的研究工作。
此外,华人科学家汪德亮,同样是机器听觉的大牛,身为俄亥俄州立大学感知与神经动力学实验室主任的他,不仅是机器视觉、听觉交叉学科的专家,更是把深度神经网络引入机器听觉领域的先驱,例如通过机器学习把嘈杂的说话声样本切割为时频单位(time-frequency units),并从这些单位提取出数十种特征来区分语音和其他声音,接着把特征送到深度神经网络中,借此训练出可以分离出语音单元的模型。最后,把这个程序应用在滤波器上,过滤掉所有非语音的单元,只留下分离后的人声。他的最终目的是希望借此改善助听器的品质。
为了把学术研究成果转化为商业化技术,他以联合创始人的身份创办了专攻机器视觉的人工智能初创公司大象声科。就在几周前,大象声科完成了数千万人民币的 Pre-A 轮投资,领投者出现两个重要名字:小米和高通创投,不难猜想这两家公司的战略意义之外,更代表机器听觉的技术将随着硬件巨头的重视可望进入大规模的落地。
机器听觉仍远落后于人类
视觉跟听觉可说是人类最重要的两个感知能力,机器视觉在许多特殊场景下已经超过人类水平。但是为什么机器听觉的发展速度却不如机器视觉快,仍远落后人类?
大象声科 CEO 苗健彰接受 DT 君采访时解释,视觉是一种遮挡的信号,不论是区分图像、物体、人脸,机器可以容易画出物体的边缘,但是,声音是一种叠加的信号,比如一个场景里面有各种的人声、噪声等叠加在一起,信号能量混在一起之后,想要将其分开就很困难。另一个原因是起初深度学习多被应用在语音识别,而更前端的信号处理部分大约是到 2013 年左右才开始引入 AI。前端处理是指在特征提取之前,对原始语音进行处理,如噪声抑制、回声消除、混响抑制等。
不过,近来行业开始涌现了非常大的需求,越来越多智能硬件、机器人需要语音交互。
传统设计思维过时
在今年 4 月锤子坚果 3 手机发布会上,提到内置了&AI 通话智能降噪&,简单说就是通话听清,背后的技术即是来自大象声科。
降噪,不是项新概念,市场上也有许多降噪耳塞,效果如何总是得体验过才知道,既然并非人人都是锤子用户,为了让一般人可以感受,大象声科其实做了一个录音 APP&VOCPLUS,苗健彰表示,现在录音笔多半不具备降噪功能,遇到吵杂环境往往没辙。不过,APP 只是让大众体验的入口,并没有打算将其商业化,公司定位是面对手机业者的 B2B 生意,真正商业化如锤子手机的降噪就是与 APP 同样的技术。而 DT 君实际试用该款 APP,感觉对于消除环境噪音确实有不错的效果,有兴趣的读者可以自行下载试试。
为什么可以做到很好的效果,是提取噪音进而消除吗?答案其实正好相反。
苗健彰指出,传统信号处理的思路是基于噪音特征,比如噪音的 Pattern 是如何、在频率上有什么特性等,接着设计滤波器,把噪音留在滤网上,剩下的声音就留下来,但这么做存在一个问题,就是世界上的噪声种类变化太多,聚合一起有各种排列组合,而且很多的动态噪音没有办法事先预测何时会出现。
所以大象声科换了一个角度来思考问题:既然人类语音的 Pattern 特征其实很明显,那就把在重点放在人的声音上,让机器只关注人的声音,反而更符合人类听觉的基本原理,当我们与朋友在餐厅吃饭,环境很吵,但人类仍然可以轻松对话,就是因为我们把注意力放在对方身上,这也是为什么人类可以简单解决鸡尾酒会的问题。
盲源分离是机器听觉缺失的一块
他进一步解释,&机器其实缺失的听觉功能是盲源分离(BSS,Blind Source Separation),也就是判断发声音源&。
为了解决鸡尾酒会问题,盲源分离成了近年来信号处理领域的一个研究热点,BBS 是指一种不需要任何预先得到资讯,从感测器所量测到的混合信号(mixtures)中,把信号源(sources)抽取、分离出来的方式,目前在语音信号分离、麦克风阵列信号处理、生医讯号如脑电波(EEG)处理等领域都有不少研究。
盲源分离的基本架构如下图,假设有两个声音源 S1、S2,经过了一个未知的混合过程,麦克风收到了两个声源的混合信号 X1、X2,而 a11、a12、a21、a22 代表声源到麦克风的衰减程度,这些系数皆为未知,这也就是称为&盲&的原因,盲源分离的目标就是在信号和混合过程均未知的情况下,分离出各种音源。
图|盲源分离技术基本概念
Google 双人声分离展现高水准,用视觉辅助听觉
在看不见的情况下,如何把各种各样的音源区分开来,是机器听觉里面的一个挑战,解决这个挑战就有多种思路,&AI 其实提供了一个好的办法&:通过训练让模型能够自主在嘈杂环境底下把声音特征提取出来。
目前来看,大象声科技术强项在分离人声和噪音,解决了手机产品某种程度的鸡尾酒会问题,不过在其他场景仍有待克服,例如智能音箱、电话会议场景等,还需要解决人声跟人声的分类,&多个说话人声分离,甚至还要记录下来,可说是在语音分离上最高级的挑战&。
在多人声分离领域,Google 前阵子展示把两个人对话分离的成果,结合视频的图像来辅助,就是说,在某些复杂且嘈杂的场景下,加入视觉信号分析来做语音分离,是一个趋势。
在今年的 Google IO 大会上展示了一段影片,运动节目里两位来宾情绪激动,说话针锋相对,你一言我一句,声音重叠几乎很难听清楚任何一方在说什么,这种情况常出现在新闻节目、脱口秀、会议上,而 Google 做到将两个人声分离,让用户可以在视频中指定让某人&静音&,只听见另一方的声音。&这在语音分离部分是一个很棒的进展,&,他说。
Google 将此技术称为 Audio-Visual Speech Separation(声音影像的说话分离),最大的特点就在&联合视听模型&,不只是分析人声跟背景噪音,还会分析视频中人物的嘴型与表情。研究团队用了 YouTube 上只有单一讲者的无干扰演讲影片,并将这 10 万个、总时数长达 2,000 小时的影片混入其他演讲影片与背景杂音,以训练多重串流卷积神经网路(Multi-Stream Convolutional Neural Network),进而把各个人物所说的话分离成独立音轨。
图|谷歌的 Audio-Visual Speech Separation 技术
图|用视频中的嘴型、表情来协助完成语音分离
其他的趋势还有像是机器可以从声音去判断用户的情绪是好是坏,或是机器透过听觉,它可以自己知道身处在一个什么样的环境当中,甚至是当它如果听不清楚的时候,它可能会主动告诉你:&对不起,我听不太清,可以把音乐关小一点吗&,这些都是机器现在不具备的能力,但在未来有机会拥有。有了这些技术功能,智能音箱可能就不会再闹笑话。
分头让人、机器听得更清楚,考量推出机器听觉芯片
目前大象声科主要技术是分离人声与非人声,但也逐步投入多人声分离的研究。而机器听觉的 AI 训练其实跟机器视觉概念类似,同样要提供大量的声音数据,男女、小孩、高低音等都是必要的,同样也需要给予标注(label)数据,例如发声源、发声时间的起始。
另外,人声具有一些特点,例如,发声范围分为 20~2 万赫兹之间、大约 24 个频段。第二、人声是连续地。机器学习的优势就在于,通过大规模数据的堆积,机器能够自己寻找到这些特征,进而判断,例如判断环境是户外或室内、在车内还车外,在车内有开窗或没开窗等,这对于车载交互就很有帮助。
大象声科想要解决的两大问题:一是让&人&听得更清楚,针对手机通讯、云通讯等领域所推出的智能通话降噪解决方案,能够帮助用户过滤掉通话环境中的背景噪音,让对方听得更清晰;另一个是让&机器&听得更清楚,为机器打造一双智能耳朵,赋予其更灵敏的机器听觉。大象声科推出的智能交互解决方案,包含智能降噪、语音唤醒、声纹识别等核心算法,能够为智能音箱、机器人、智能车载等行业带来更自然的语音交互体验。据了解,除锤子的坚果3之外,今年年底前,这两大解决方案也会逐渐在其他手机、智能家居和机器人等产品上进行商业落地。
公司主要采用软件授权的商业模式,将算法软件授权给 OEM 厂家,嵌入在手机的数位讯号处理器(DSP )芯片、麦克风芯片上,或直接把它封装成一个 SDK,提供给语音类软件运营商。不过随着市场需求提升,&有计划将算法和硬件结合起来,与芯片厂家合作定制一个专门、适合我们算法的芯片,一方面可以进一步提高方案的性能,还可以帮助客户降低系统总成本,缩短产品上市时间&,苗健彰说。
图|大象声科 CEO 苗健彰(图片来源:DT 君)
不过由于大象声科的团队背景是以软件见长,而做硬件需要长期积累和大量投入,但他认为,&所谓语音芯片就是听觉芯片,什么样的公司做听觉芯片最合适的?其实是对于机器听觉算法有很强认知的公司,因为知道这个算法需要一个什么样的算力载体&,因此,大象声科也希望找到能够一同合作的伙伴。
当智能手机问世后,世界进入了触屏交互时代,很有潜力的新一代交互方式则落到了语音身上,特别是在双手被占据的场景中,用说的比用摸的更方便,像是开车、工厂、医疗场景,语音交互可能会慢慢存在于未来各种各样的设备中,&我们的技术在于将微弱的人声从嘈杂的背景当中提取出来,无形植入未来任何一台需要&听&的智能设备当中,这种存在其实是观察不到的&,就像是老子《道德经》中所言:大象无形,大音希声。
电动牙刷会是智能手机后的下一个风口吗?
智能家居的下一个关键词:全屋智能
信仰跟着心走
别等了!小米8探索版真的遥遥无期!网友:能抢到算雷军输!
小米Max3上手:巨无霸全面屏充电宝了解一下?
07:28 / 9459阅读播放
紫米推4G功能机,或是小米认为这是一个新风口
互联网的下一个浪潮是智能家居行业小米案例分析
智慧家庭会是云计算的下一个风口吗?
物联网——安防行业的下一个风口?
智能家居初学者小米、美的和京东们将梦归何处?
小米、苹果、海尔钟爱的的智能家居,为何会被看好?
爱皮皮的大叔
红外夜视+高清画质,小米最高性价比的智能摄像机,仅需79元!
时光机器猫
小瓦扫地机器人规划版:扫拖合一+高颜值的新选择
消失的苔丝
为什么黑小米、华为的多,黑Vivo和Oppo的少?
测评:百元入门级手机谁最舍得下本,小米、魅族、华为?
在千元手机中华为、小米、OPPO、vivo”,魅族、一加6那个品牌更值得入手?
全面屏救不了小米 Note2成最难抢的量产机
从智能手机到PC, 高通的野心能实现吗?
小米、百度、阿里开始清场,50多家智能音箱厂商怕是要凉了
小米又曝新机:搭载骁龙638处理器 多核成绩接近骁龙660
绮年逐风梦伊人
你想帮陆奇Pick谁?小米、腾讯、阿里、滴滴、京东、头条……

我要回帖

更多关于 脑电波控制怎么解除 的文章

 

随机推荐