这是什么原因电脑的语音搜索都挺好的就是win10没有语音录音机机这样

面相 | 海贼王 | 牙齿矫正 | 徐州市 | 虚拟专用服务器 | Windows 7 | 疤痕修复 | 方言 | 幼儿教育 | 英文歌曲 | 武术 | 餐饮 | 口臭 | 冬奥会 | 化疗 | 汽车音响 | 休学 | 片尾 | 骨折 | 电子技术研发 | 胃炎 | 姓氏 | 过敏性鼻炎 | 房贷 | 身高 | 加湿器 | 雅马哈 | 金平区 | 马鞍山市 | 取名 | 美杜莎 | 韩国 | 饮食 | 怀集县 | 牙套 | 古琴 | 语言学习 | 坦克 | 体检 | 冠心病 | 书籍 | 寺庙 | 美国电影 | 驾驶经验 | 寓言 | 学术 | 坐月子 | 日语语法 | 山东艺术学院 | 类风湿 | 手相 | 乳腺癌 | 运动损伤 | 自卑 | 房山 | 辩论赛 | 机械键盘 | 大学专业选择 | 塑料制品 | 护发 | 眼袋 | 肺癌 | 血型 | 玄幻小说 | 华为路由器 | 温州市 | 留学香港 | 大学生就业 | 大学生创业 | 城市规划 | 美术生 | 一体机 | 率土之滨 | r（编程语言） | 发音 | 记忆力 | 散光 | 互联网公司 | 西班牙语 | 口腔溃疡 | 汉语 | 观后感 | 留学生 | 参考文献 | 印度 | 中耳炎 | 澳门特别行政区 | 近视手术 | 尧山 | 荨麻疹 | 花卉 | 特许加盟 | 烹饪学校 | 设计院 | 岳阳县 | 婴儿喂养 | 痛风 | 营销策划 | 狐臭 | 失眠 | 眼科学 | 药品 | 欧美 | 弱视 | 童年 | 丙肝 | 合生元 | 男生 | 材料 | 中央戏剧学院 | 葡萄酒 | 网络推广 | 胃痛 | 酒文化 | 脱发 | 情绪管理 | 花样姐姐 | 示波器 | 胶原蛋白 | 痤疮 | 自驾游 | 孩子 | 马克思主义哲学 | 大学就读体验 | 美国留学 | 本科毕业论文 | 白内障 | 精神分裂症 | 在线教育 | 无线耳机 | 发动机 | win8 | 桥梁 | 非洲 | 婚恋网站 | 驾驶技术 | 敏感皮肤 | 学车 | 武昌区 | 整形 | 红酒 | 语言学 | Android手机 | 拉丁舞 | 猪肉 | 大学军训 | 高效学习 | 手绘 | 法国 | 刑事案件 | 胃病 | 牙科医院 | 宁夏回族自治区 | 邳州市 | 国家 | 口红 | 尿毒症 | 时间管理 | 事业单位考试 | 迅雷（软件） | 中国科学技术大学 | 康佳 | 西装 | 蓝河 | 肺气肿 | 地黄 | 外貌 | 高中化学 | 励志故事 | 小吃 | 关节炎 | 驻马店市 | 鲁迅美术学院 | 交警 | 发电 | 皮肤保养 | 文玩 | 轮胎 | 山东工艺美术学院 | 钢笔 | 食道癌 | 校服 | 酵素 | 日本漫画 | 非典 | 服装行业 | 数控车床 | 毕业论文 | 蓝莓 | 七田真 | 配方奶粉 | 头痛 | 枸杞 | 孕妇装 | 儿童 | 婴儿车 | 西医 | 本田（honda） | 研究生导师 | 美白 |

你的位置：网站首页 >> 频道首页 >>电脑 >>这是什么原因电脑的语音搜索都挺好的就是win10没有语音录音机机这样

这是什么原因电脑的语音搜索都挺好的就是win10没有语音录音机机这样

来源：蜘蛛抓取(WebSpider) 时间：2017-11-08 07:34 标签：电脑录音机

高手帮忙！为什么上语音对方听我声音很小声？
重装了系统之后，上语音聊天，我听对方声音很正常，为什么对方听我说话总说很小声？电脑上音量的选项和属性都调过了麦什么的都开到了最大，可人家还是说我声音很小，是不是声卡的原因呢？在联想售后重装的系统，装好了人家还拿录音机试过不小声，为什么上语音就小声呢？麦也换过不是麦的问题！请高手帮帮忙！谢谢！
09-10-13 &
你点QQ语音的设置，然后对着麦说话，如果你的麦坏了的话你说话耳麦是没有反应的，能听到声音那你的就没问题，说明是他那边的问题。
请登录后再发表评论!关注今日：17 | 主题：278372
微信扫一扫
【求助】语音聊天的声音没有是什么问题？
页码直达：
这个帖子发布于9年零190天前，其中的信息可能已发生改变或有所发展。
本人对电脑软件了解甚少，所以请大家讲解的时候能有些耐心，谢谢。最近视频聊天的时候发现视频可以，但对方不能听见我的声音，我可以听见对方的声音。请教是我的电脑出现问题了么？如何解决？谢谢。
不知道邀请谁？试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
试试MSn的语音聊天吧，效果比QQ好啊。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
谢谢战友了
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
1. MIC坏了，用windows录音机测试一下2. mic设置有问题，修改声音属性3. mic插错位置了
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园语音技术/语音技术
&&& 　语音技术在计算机领域中的关键技术有技术（ASR）和语音合成技术（TTS）。
&　　让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。
&　　最早的语音技术因“自动”计划而起，包含了语音识别、自然语言理解和语音合成三项非常主要的技术。语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统，此后研究者们逐步突破了大词汇量、连续语音和非特定人这三大障碍。
&　　让计算机说话需要用到语音合成技术，其核心是文语转换技术(Text&to&Speech)，语音合成甚至已经应用到汽车的信息系统上，车主可以将下载到系统电脑中的文本文件、电子邮件、网络新闻或小说，转换成语音在车内收听。
&&&&&&& 语音识别和语音技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术.使电脑具有类似于人一样的说话和听懂人说话的能力,是90年代信息产业的重要竞争市场.和语言识别相比,的技术相对说来要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术. &&&&&&& 语言合成或者让计算机说话包含着二个方面的可能性:一是机器能再生一个预先存入的语音信号,就象普通的录音机一样,不同之处只是采用了数字存储技术.简单地将预先存入的单音或词组拼接起来也能作到"机器开口",&但是"一字一蹦",机器味十足,人们很难接受.然而如果预先存入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,也有可能生成高自然度的语句,这就是波形拼接的语音合成方法.为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩.另一种可能是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音.&调整滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等.&因此,只要正确控制激励源和滤波器参数(一般每隔10～30ms送一组),这个模型就能灵活地合成出各种语句来,因此又称作为参数合成的方法.根据器的结构形式不同,又有LPC合成和共振峰合成器等之分. &&&&&&&& 按照人类言语功能的不同层次,语言合成也可分成三个层次,它们是:(1)从文字到语音的合成(Text-To-Speech);(2)从概念到语音的合成(Concept-To-Speech);(3)从意向到语音的合成(Intention-To-Speech).这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动.不难想象,即使是按规则的文字到语音合成(文语合成)也已经是相当困难的任务.为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题.从这一点讲,文语转换系统实际上也可看作一个人工智能系统.图1显示了一个完整的文语转换系统示意图.文语转换过程是先将文字序列转换成音韵序列,再由生成语音波形.其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流.因此一般说来,文语合成系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持.当然其中语音合成终究还是最基本的部分,它相当于"人工嘴巴",任何语言合成系统包括文语转换系统,都离不开语音合成器. 语音技术的方式&&&&语音技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种. &&&&波形编辑合成,这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库.重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音.这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限. &&&&参数分析合成,这种合成方式多以音节、半音节或音素为合成单元.首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器.在合成器中,通过合成参数的控制,将语音波形重新还原出来. &&&&规则合成,这种合成方式通过语音学规则来产生目标语音.规则合成系统存储的是较小的语音单位(如音素、双音素、半音节或音节)的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则.当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形.由于语音中存在效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等.由于语句中的轻重音,还要归纳出语音减缩规则. 国内外语音技术发展现状&&& 综观语言合成技术的研究已有二百多年的历史,但是真正有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音.近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言.在语音合成技术的发展中,早期的研究主要是采用参数合成方法.值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只要精心调整参数,这两个合成器都能合成出非常自然的语音.而最具代表性的文语转换系统数美国DEC 公司的DECtalk(1987),该系统采用Klatt的串/并联共振峰合成器,可以通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服务,它的发音清晰,并可产生七种不同音色的声音,供用户选择.但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求.自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(PSOLA)方法的提出(1990),使基于时域波形拼接方法合成的语音的音色和自然度大大提高.九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功.这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实现,有很大的商用前景.最近几年,一种新的基于数据库的语音合成方法正引起人们的注意.在这个方法中,合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来的, 不难想象只要语音数据库足够大,包括了各种可能语境下的语音单元,理论上讲有可能拼接出任何语句.由于合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然度都将会非常高.&&& 国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同步发展.大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程.在国家863计划,国家自然科学基金委,国家攻关计划,中国科学院有关项目等支持下,汉语文语转换系统研究近年来取得了令人举目的进展,其中不乏成功的例子:如中国科学院声学所的KX-PSOLA(1993), 联想佳音(1995);清华大学的TH_SPEECH(1993);中国科技大学的KDTALK(1995)等系统.这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术,其合成汉语普通话的、清晰度达到了很高的水平.然而同国外其它语种的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术的大规模进入市场. -----1998年中国科技大学在国家863 计划和国家自然科学基金委支持下,研制成功KD-863汉语文语转换系统.和采用国内外流行的PSOLA技术的系统相比,在输出语音的音质和自然度上有了突破性的提高.KD-863采用了一种全新的基于语音数据库的语音合成方法, 该技术的基本思想是将实际语流中汉语音节千变万化的音变进行听感上的量化归并,设计出多样本的汉语语音基元库,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元库样本的选取便可实现韵律控制.同时语音基元库中的样本是直接从自然语音中截取,避免了采用信号处理技术获取音变单元对音质的损害,因而合成语音具有接近自然语音的音质.KD-863文语转换系统一经推出,就因其合成语音的高清晰度与高自然度引起了社会各方的重视.先后应用于为深圳设计的"114自动系统",和为国家工商总局设计的"工商企业语音(传真)查询系统".使得汉语语音合成技术走出实验室,向市场应用迈出了重要的一步.KD-863系统参加了在1998年4月国家科委组织的全国汉语语音合成系统的性能评测,其输出语音的自然度居同类系统之首,是唯一达到用户可以接受程度的系统.KD-863还在日本,新加坡,香港的有关研究所和大学进行过演示,均得到了有关方面专家的认同.最近中国科技大学又推出了KD-2000汉语文语转换系统,不仅在语音合成技术方面有进一步的发展,特别是在文本预处理中围绕层次化结构思想,运用大量的统计和规则的方法,较好地解决了三个大的处理环节:特殊符号处理,分词处理和拼接处理,使得汉语文语转换系统的整体性能有很大提高.以KD-2000文语转换为核心的"畅言2000"智能汉语平台软件已开始进入市场.语音技术的发展方向&&&&1.&提高合成语音的自然度 &&&&提高合成语音的自然度仍然是高性能文语转换的当务之急.就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大.&-----基于语音数据库的语音合成方法有望进一步提高语音合成的自然度.&因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自然度.但由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去挑选合适的基元;韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元,保证最高的合成语句自然度等等.&-----无论用哪种合成方法,韵律规则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响.还有前端文本处理,&对合成语音的自然度也具有举足轻重的影响,&完整全面的解决,&需要自然语言理解的突破. &&&&2&丰富合成语音的表现力 &&&&目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩.随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上.即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展.这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动.但就语音合成来说,仍是一个要丰富合成语音的表现力问题.相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限.更为有效的办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对象特征可以千千万万,显得更有生命力.近年来提出的基于LMA(对数振幅近似)技术的语音合成器,Hybrid&Harmonic/Stochastic&模型&,&Sinusoidal&模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破. &&&&3&降低语音合成技术的复杂度 &&&&语音合成技术正在走向市场.为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方.就目前汉语文语转换系统而言,减小音库容量就是一个重要课题.目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没有问题的,而对于象HPC,&PDA及无线通信手机,商务通等资源有限的设备上就没法承受.解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节,&以及减少合成语音所需的音节基元数等等.然而又不能增加算法的复杂度,因为运算量及同样会直接影响汉语语音合成的应用.既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面. &&&&4&多语种文语合成 &&&&语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值.例如在自动,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方言文语转换的需求.理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种.例如汉语就和西方语言有很大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度.可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路.美国贝尔实验室在多语种文语转换方面作了大量的工作,其中包括汉语普通话合成,值得注意. VoWLAN测试方法学探讨与无线网语音技术&&&&目前的IT产业领域中,WLAN和VoIP是人们关注的热点,因此使用WLAN提供语音服务(VoWLAN)的终端设备也就应运而生.&VoWLAN终端设备利用现有的WLAN网络实现无线的VoIP语音通话,用户可以通过VoWLAN终端设备在WLAN网络的覆盖范围内随时进行语音通话.这既发挥了IP网络成本低的特点,又使得用户获得WLAN带来的方便性. &&&&一、VoWLAN应用方式 &&&&VoWLAN系统有两种应用方式,一种针对有线办公和住宅电话,也就是基于传统终端的解决方案,如图1所示. &&&&对于传统的语音终端,为了实现VoIP,需要添加VoIP网关设备.网关的主要功能是信令处理、协议转换、语音编码和解码以及路由协议处理等,对外分别提供与PSTN网和IP网连接的接口.因此,基于WLAN的网关设备其实是无线接入点(AP)和VoIP网关设备相结合的产品.一方面用户端设备通过模拟语音接口接入VoIP网关;另一方面,该网关通过内置的WLAN功能将语音打包成IP分组包之后,通过无线链路传送至起中继作用的接收站无线网桥.这种应用方式类似于有线LAN的VoIP解决方案,只是利用了已经敷设的WLAN,解决了VoIP的布线问题,用户终端无需做大的改动,从而节省了用户费用.&&&&&二、VoWLAN关键技术 &&&&虽然基于WLAN的VoIP技术与有线网络类似,但是由于无线网络固有的特性,在支持上层的实时业务时与有线网络有很大差异,导致无线网络传输的语音质量有可能比有线网络要差很多,因此必须采取特殊的措施来保障一定的业务质量.VoWLAN的关键技术主要包括信令技术、编码技术、实时传输技术以及服务质量QoS保证技术等. &&&&2.1信令技术 &&&&VoWLAN系统中,信令技术保证呼叫的顺利实现和语音质量.目前被广泛接受的信令体系包括ITU-T的H.323系列和IETF的会话初始协议SIP. &&&&ITU的H.323系列建议定义了在无业务质量保证的因特网或其他分组网络上多媒体通信的协议及其规程.是局域网、广域网和Internet上多媒体技术的基础保障,它是ITU-T有关多媒体通信的一个协议集,包括用于ISDN的H.320,用于B-ISDN的H.321和用于PSTN终端的H.324等建议.其编码机制,协议范围和基本操作类似于ISDN的Q.931信令协议的简化版本,并采用了比较传统.相关的协议包括用于控制的H.245,用于建立连接的H.255.0,用于大型会议的H.332,用于补充业务的H.450.1、H.450.2和H.450.3,有关安全的,以及与电路交换业务互操作的H.246等.H.323提供设备之间、高层应用之间和提供商之间的互操作性,它不依赖于网络结构,独立于操作系统和硬件平台.同时,H.323还具备相当的灵活性,支持包含不同功能的节点之间的会议和不同网络之间的会议. &&&&虽然H.323提供了窄带多媒体通信所需要的所有子协议,但H.323不支持多点发送(Multicast)协议,只能采用(MCU)构成多点会议,因而同时只能支持有限的多点用户.H.323也不支持呼叫转移,且建立呼叫的时间比较长. &&&&与H.323不同,SIP是一种比较简单的.它不像H.323那样提供所有的通信协议,而是只提供会话或呼叫的建立与控制功能,且既支持单点发送()也支持多点发送,会话参加者可以随时加入一个已经存在的会议. &&&&SIP是一种应用层协议,可以用UDP或TCP作为其传输协议.与H.323不同的是:SIP是一种基于文本的协议,用SIP规则资源定位(SIPUniformResourceLocations)语言描述,这样易于实现和调试,更重要的是灵活性和扩展性好.由于SIP仅用于初始化呼叫,而不传输媒体数据,因而造成的附加传输代价也不大.SIP的URL甚至可以嵌入到Web页或其他超文本链路中,用户只需点击鼠标就可以发出呼叫.与H.323相比,SIP还有建立呼叫快,支持传送号码的特点. &&&&2.2编码技术 &&&&语音压缩编码技术是VoWLAN技术的一个重要组成部分.目前主要的编码技术有ITU-T定义的G.729、G.723、G.723.1等.其中,G.729可将经过采样的64kbit/s语音以几乎不失真的质量压缩至8kbit/s.由于在分组交换网络中,业务质量不能得到很好保证,因而需要语音编码具有一定的灵活性,即编码速率、编码尺度的可变可适应性.G.729原来是8kbit/s现在的工作范围扩展至6.4kbit/s～11.8kbit/s,语音质量也在此范围内有一定的变化.G.723.1采用5.3/6.3kbit/s双速率语音编码,其话音质量好,但是处理时延较大. &&&&此外还需要注意的一个问题是,语音编码的带宽和实际所占用的带宽是不同的,语音编码的带宽是实际语音包的带宽,而语音包在网络上传输时,还需要增加各种报头,如RTP包头、UDP包头和IP包头.由于语音包本身很小,所以这些额外的带宽都是很可观的.表2中列出了各种编码方式下和打包时长所对应的实际带宽. &&&&2.3服务质量QoS保证技术-802.11e &&&&VoWLAN系统中,由于无线链路引入的串扰和多径传播将导致衰落和色散,从而引起系统的附加时延和抖动.而语音业务对于时延和抖动非常敏感,因此在VoWLAN系统中提供一种QoS保证技术就显得非常重要. &&&&IEEE802.11标准定义了两种不同的信道访问机制:一种是点协调机制(PCF),基于CSMA/CA方式;另一种是分布式协同机制(DCF),基于轮询方式.但是这两种都没有划分优先级,因此随着用户数的增多,MAC不能保证为实时语音业务提供可靠的分组传输且传输时延和抖动在规定范围内.为此,IEEE802.11工作组的(MAC)改进任务组(即E任务组)对802.11的MAC层协议进行改进,使其可以支持具有QoS要求的应用,即IEEE802.11e标准. &&&&IEEE802.11e中,MAC接入采用混合协同功能(HCF)控制机制.HCF与PCF和DCF直接兼容,而且可以支持优先级和参数化的媒体访问服务.HCF结合了竞争和轮询两种机制,其中,基于竞争的访问机制称为增强式点协同功能(EPCF),而无竞争的访问机制称为增强式分布系统功能(EDCF). &&&&EDCF对业务先进行分级,为不同的优先级数据提供不同的服务,每个服务队列采用EDCF方法来竞争传输资源.主要表现在不同优先级队列拥有的最小闲散时间()和竞争窗口不一样,可利用参数来改变竞争窗口大小,从而可以获得不同的重发等待时间,保证了实时业务有更高的服务优先级. &&&&EPCF信道访问方法采用QoS相关的点协同功能,称为混合协同器(HC).HC利用点协同功能把优先级信道分配给无线终端,用于传输有QoS需求的数据,来满足预定义的传输优先级、服务速率、延时和抖动.有QoS需求的移动终端可以给HC发送预留请求(RR).移动终端可以在EDCF模式或者EPCF模式下发送RR,也可以在受控竞争间隔(CGI)内发送. &&&&由上可见,随着对QoS研究的不断深入,IEEE802.11e协议也在逐步完善,一方面在原有的框架内修改了分布式和集中式的协调机制,并保持了对传统协议的兼容;另一方面也提出了一些独特的解决方案,如批应答和准入控制.根据国外做出的研究和仿真报告,IEEE802.11e可以实现很好的QoS性能. &&&&2.4实时传输技术 &&&&VoWLAN系统中也用到了实时传输技术,主要是采用RTP.RTP是提供端到端的包括音频在内的实时数据传送的协议.RTP包括数据和控制两部分,后者叫RTCP.RTP提供了时间标签和控制不同数据流同步特性的机制,可以让接收端重组发送端的数据包,可以提供接收端到多点发送组的服务质量保证. &&&&此外,静音检测技术和技术也是十分关键的技术.静音检测技术可有效剔除微弱信号,从而使语音信号的占用带宽进一步降低到3.5kbit/s左右;回波消除技术主要利用数字滤波器技术来消除对通话质量影响很大的回波干扰,保证通话质量,这点在时延相对较大的VoWLAN系统尤为重要. &&&&三、VoWLAN系统测试 &&&&VoWLAN系统测试中,主要可划分为语音质量分析和传输性能分析两个方面.由于VoWLAN完全建立在分组交换基础上,而分组交换固有的时延、丢包等弱点使VoWLAN系统的通话质量得到不保证,因此在VoWLAN系统中,通话质量一直是人们最为关注的问题之一,语音质量的测试也就成了一项关键的指标. &&&&影响VoWLAN系统通话质量的因素 &&&&由于本身的技术特定,影响VoWLAN系统通话质量的因素很多.从用户通话过程中的主观感受而言,主要有以下几个方面. &&&&带宽: &&&&当带宽不足时,语音质量会明显的下降;充足的带宽是保证语音质量的基础. &&&&时延: &&&&由于IP电话需要对语音包进行编码和解码,再加上传输的时延,这就使得IP电话的时延要比普通电话大的多.当时延大于400ms时,人就可以明显的感觉出来,当时延大于2s时,交流就会比较困难.IP电话的编码时延大约在120ms左右,传输时延是影响IP电话时延的主要因素. &&&&抖动: &&&&所谓抖动,就是每个语音包传输时间之间的差别:当抖动超过一个语音包的时长时,语音质量就会明显下降.通过提高打包时长,可以减少抖动对语音质量的影响. &&&&丢包: &&&&一般来说,丢包对语音质量影响不大,当丢包在10%以下时,不会有明显的感觉;但是当丢包大于20%时,就会影响语音的质量. &&&&静音检测: &&&&静音检测检测能够减少传送的语音包数量,减少所需的带宽.但同时静音检测可能会丢掉一些微弱的声音,在静音到非静音的转换过程中,会给用户不连贯的感觉. &&&&背景噪声生成: &&&&背景噪声主要解决当静音检测时静音和非静音转换时的问题,通过加入背景噪声,用户会觉得语音比较连贯,但背景噪声毕竟不是真实的,实际上也降低了语音质量. &&&&: &&&&由于IP网络时延的不确定性,回波抵消本身就有可能导致语音的失真. &&&&四、VoWLAN系统语音质量测试 &&&&4.1主观评价与客观评价 &&&&端到端语音质量的评价方法主要有两种:主观评价和客观评价. &&&&主观评价方法的依据是ITU-TP.800(传输质量的主观评价方法),利用人本身的主观感觉给听到(或对话)的语音的满意度打分,打分的基本原则是可懂度.依此分数来评价端到端的语音质量. &&&&主观评价试验是需要设计的.设计的内容主要包括物理条件,例如空间大小,噪声环境等;试验人员的选择,如是否有听力问题,是否第一次参与试验等;语音样本的选择以及测试数据的收集与整理方法等等. &&&&同时,主观评价试验的结果是一个统计的结果,是对众多评价数据进行收集、统计,最后得到一个"平均意见得分",也就是MOS分.特别需要说明的是,每一次主观评价试验的结果可能是不同. &&&&由此看出,主观评价方法并不适用于实验室对某个特定连接进行语音质量的评定,它仅适用于在实验室环境下,对受控的连接和语音样本进行综合评价. &&&&客观评价主要解决如何利用客观的方法评价语音质量.根据声学特性以及人的心理声学模型,归纳出客观评价指标.但是需要说明的是,任何客观评价方法都是以主观评价为基础的.也就是说,客观评价方法是否正确、合理,一定需要通过主观评价来评估.只有结果与主观评价取得一致的客观评价方法,才是正确的方法. &&&&另外,语音质量的客观评价是可以重复的,即在相同测试条件下得到的客观评价分数是相同的(这一点与主观评价非常不同). &&&&从上述分析看出,作为实验室测试设备和系统应采用客观评价方法.但采用何种客观方法更合理、更准确,则需通过主观试验来验证. &&&&4.2VoWLAN系统语音质量测试-客观评价 &&&&目前,客观评价语音质量的方法是在听觉模式下,在语音通道中(端到端地)传送语音样本信号;再将接收到的语音信号与(经适配后的)原始样本信号进行比较,以得到一个结果,然后根据ITU-TP.800.1建议的方法,计算出MOS分值.因此,VoWLAN系统语音质量测试客观评价方法如图3所示. & &&&&图3客观评定测试方法 &&&&需要注意的是,由于WLAN受空中电磁波影响很大,因此测试中应将待测设备与测试仪表的射频接口通过射频电缆相连,且置于内,才能保证待测设备处于"干净"的环境内,得到的结果是可靠且可重复的. &&&&此外,传输性能主要指设备的响度评定值、频率响应、噪声特性、失真特性、回声特性等,此外还有背景噪声传输和双向通话特性等等.这些指标全面地考察了VoWLAN系统在通话过程中的特性,由此能够分析设备的设计缺陷. &&&&因此,传输性能的测试不仅可以完善语音质量的评价,还可以帮助提高设备的设计水平. &&&&五、总结 &&&&VoWLAN设备在未来通信市场上的前景广阔,因此很多厂商都提供了相应的解决方案,市场上也出现了许多相关产品.但是VoWLAN移动终端并不仅仅是VoIP和WLAN的简单叠加,还需要基于WLAN基础设施解决QoS、无缝漫游、安全等诸多问题.而一旦拥有标准化的QoS、增强的安全性,可靠的及易操作的网络,VoiceoverWLAN的应用将会非常繁荣,与蜂窝系统形成有益的竞争和互补. 语音技术在车载设备中的应用 & &&&&车载电子的发展从传统的收音机功能开始,然后沿着CD、VCD/DVD/移动TV、GPS/、车载电话、移动办公的路线不断引入新技术,并开拓出范围越来越广、越来越智能化和人性化的车载应用.本文介绍语音技术在车载设备中的应用,利用这种技术可将汽车内的文字信息以语音形式播放出来,使司机不会因为要看这些信息而分散注意力,从而提高驾驶的安全性. &&&&语音技术在车载设备中具有广泛的应用.以阅读为例,随着网络时代的到来和办公自动化的日益普及,越来越多的信息正以文字的形式存在,但受车载环境的限制,用眼睛来阅读文字信息无论对司机和乘客都存在极大不便,此时利用语音合成技术改造传统汽车音响,就可让汽车音响不仅能听广播和音乐,还能够听用户自主选择的各种文字信息.今后的汽车音响除了提供CD、磁带歌曲和收音机功能,还可将各种类型的文字信息比如小说、Word文档,Email等下载到车上来听,并且可以让用户选择自己喜欢的各种信息,实现真正的会朗读的人性化汽车音响. &&&&语音车载电话 &&&&车载电话可为司机在开车期间提供便捷的沟通方式.从安全的角度考虑,在行车途中看信息是非常不方便的,比如看来电号码、时间、短信息等.采用嵌入式语音合成技术,可以实现车载电话信息变看为听,大大加强了信息获取的途径,较低了驾驶的危险,给手机增加更多人性化功能. &&&&系统实现如图1所示.语音车载电话在原有车载电话的基础上增加嵌入式,实现信息内容的播放.车载电话通过GSM/CDMA网络获取各类型信息,比如来电信息、短消息等;手机控制模块将需要合成的各类型信息如来电信息、短消息、通讯录信息、记事本信息等内容转换成标准的文本信息并发送给嵌入式语音合成芯片;嵌入式语音合成芯片再将文本信息转换为语音通过车内音响系统播放给用户听. & &&&&要在车载电话上实现语音合成功能,可以选择嵌入式语音芯片或者语音模块.车载电话本身尺寸较小,功耗也不大,选择语音芯片比较合适,虽然语音芯片在任意文本合成上的效果比语音模块差,但完全可以达到实用要求.另外通过定制的数字小系统对"来电通知"等也能取得很好的合成效果.语音车载电话采用的S3111语音合成芯片,其工作原理如图2所示. & &&&&S3111语音芯片通过RS-232异步串口与车载电话主控芯片进行数据交互,将手机主控芯片上的信息转换为语音信息通过扬声器播放给用户听. &&&&语音车载电话通过变看为听,提高驾驶安全系数.其功能包括: &&&&1.来电号码播报.将手机收到的来电信息,包括来电次序、来电人、来电号码、来电时间等信息,以清晰、流畅的语音实现自动播报,手机使用者可以立刻知道来电信息,决定是否接听; &&&&2.时间及日程提醒.任何时候,只需要按键就可以播报出当前的时间,在日程提醒时播报出预约的任务等; &&&&3.信息播报.配合嵌入式,可以将收到的各种短信播报出来,解决手机屏幕小,阅读困难的问题,方便人们获取信息. &&&&语音车载GPS &&&&目前GPS技术已经广泛应用于汽车领域.随着城市车辆的日益增多,交通压力日趋严重,如何使驾驶员方便、快捷地获取信息,变看为听,降低驾驶危险,已经越来越重要.通过嵌入式语音合成技术也可以将GPS信息转变为声音,播放给司机. &&&&车辆通过车载GPS可实现自身定位,再将自身的位置和状态(如速度、方位等)信息通过GPS通讯模块功能发送至信息中心;同样,信息中心也可以向车辆发送中文简短信息(如导航信息、天气预报、各类定制信息等).GPS增强了汽车的防盗性能和辅助驾驶功能(导航信息),但司机获取信息往往是在驾车的过程中,一边驾车一边阅览信息十分不安全,存在着交通隐患,采用语音技术能很好解决这个问题. &&&&系统实现示意图如图3.系统由GPS解析模块、控制模块、信号处理模块、嵌入式语音合成模块构成.其工作过程如下:车载GPS通过GPS信息提供网络(如GPRS/CDMA)获取各类型信息,如导航信息、路况信息、天气预报或用户通过信息中心定制的个人信息等;控制模块将需要合成的各类型信息从GPS解析模块下载到信号处理模块;信号处理模块将信息内容转换成标准的文本信息并发送给嵌入式语音合成模块;嵌入式语音合成模块再将文本信息转换为语音通过车内音响系统播放给用户. & &&&&语音车载GPS需要合成的文本比较多,而且较为随意,不好定制,另外每个用户需要定制的服务内容都不一样,因此语音合成的效果要求高一些.另外车载GPS本身尺寸较大,很容易找到嵌入语音模块的空间.从功能上考虑,用户希望通过GPS实现与信息中心的语音通信功能,这就需要解决语音编解码的问题,而嵌入式语音合成模块支持语音编解码功能.综合考虑,建议在语音车载GPS采用嵌入式语音合成模块. &&&&车载GPS可使用S3231语音合成模块,其工作原理如图4.S3231语音模块通过RS-232异步串口与车载GPS主控芯片进行数据交互,实现TTS服务和语音编解码服务.在TTS服务中,S3231将接收到的文本转化为声音,然后通过音频输出通道直接输出语音;在语音解码服务中,S3231将接收到的编码的数据(用户定制信息,信息中心以语音编码数据方式下传到车载GPS)解码成语音数据,然后通过音频输出通道输出;而在语音编码服务中,S3231将接收到的音频数据(用户通过麦克风输入)进行编码压缩,然后通过串口通信将语音数据传送给GPS主控芯片. & &&&&语音车载GPS功能可以播放导航信息,让司机知道最佳行走路线,也可以播放路况信息,让司机提前做好准备,以及堵车、紧急事故处理等等.另外还能播放天气预报、定制信息,各地信息中心获知车辆到达当地后将当地的天气预报、用户定制的内容服务告诉司机,用户定制的信息内容模式可为语音压缩数据. 语音技术在可视对讲产品中的应用 & &&&&语音信号处理技术是20世纪70年代以来通信领域和人工智能领域的重要课题,其研究内容包括:语音分析、语音编码、语音压缩与解压缩、语音合成和语音识别等.语音技术简单来说就是让计算机、手机等信息终端能够像人一样"能听会说"的技术.近年来以植根安徽、落户合肥的科大讯飞为龙头,汇集安徽多家机构、研究院所与国内众多的语音专家,已成功地将语音领域的局部优势整合成民族语音产业的整体优势,科大迅飞被认定为"国家863计划语音成果产业化基地",并牵头制订了中文语音标准.据CNNIC(中国互联网络信息中心)和有关专家分析,未来五年内中文语音产业将具有1000多亿元人民币的潜在市场.精诚合作,让我们共同推动语音产业的早日到来. &&&&当今,小区智能化安防这个新兴产业在我国经历十余年的快速发展已深入千家万户,一个个智能化小区如雨后春笋拔地而起,诸如可视对讲与防盗报警、闭路电视监控、出入口管理、电子巡更、三表远程抄收与管理用IC卡、车辆出入与停车场管理、紧急广播与背景音乐系统,以及供电设备、公共照明、电梯、供水等主要设备监控管理、物业管理计算机信息化系统等智能化技术得以广泛应用.然而楼宇可视对讲联网系统经过十多年的发展,仍然存在以下诸多弊端:1、&机型结构繁杂、互换性差,需要向模块化、接口标准化方向发展;2、&接线方式多样化,施工、调试、维护、检修繁琐,需简化,向高速、宽带数字化方向发展;3、&高端机型操作专业化,用户使用繁琐,以至于部分功能不会用而闲置,需要向操作简单、快捷明了、易懂易学的傻瓜型方向发展; &&&&由于小区物业管理人员素质不整齐,安防系统的有效运行更多依赖于工程建设单位或生产厂家,一旦售后服务跟不上,则会对小区物业管理带来负面影响.据《中国楼市报道》,现在的智能化小区,3到5年内有35%左右的系统瘫痪,还有30%的系统工作不正常,仅有20%多的系统能正常使用. &&&&应用一:语音提示 &&&&针对当前可视对讲系统在布线、调试、维护上的繁琐现状,CX-400系列主机利用CPU内置多路A/D转换器实时检测系统设备在线状态,根据不同在线状态,分别向访客或检修者提供语音提示.如"分机线路短路"、"分机线路开路"、"分机未挂好"……当门口机遭遇不法分子恶意破坏,而导致主机壳变形、按键卡键时,提示"主机键盘卡键了".当住户休息期间,在室内分机设置关闭铃音后,访客来访时,会提示"请勿打扰",或者"请勿打扰,请留言",当住户允许访客进入并通过室内分机实施遥控开琐时,会在分机、主机中听到温馨提示"请进".这种"能说会道"的可视对讲系统一定会让广大用户与工程商倍感亲切和方便明了.CX-400系列"能说会道". &&&&门口机分直按式和数码式两类,前者适用多层,后者适用高层.直按式汇集了以往总线制与分线制系统的优点,采用"1+1"的结构布线方式,且无须安装楼层解码器,即一根公共线加一根呼叫线,类似电话机的两线无极性接线方式,这样就做到了某一分机短路不影响其它用户使用.该系列门口机还内置了多首铃声,经典金属铃、手摇电话铃、语音门铃、和弦音乐铃,可通过键盘操作设置自己所喜欢的铃声,还可按工程商的要求定制开机问候语. &&&&应用二:语音识别先练习使用者的声音特性来加以辨认,然后进入语音适应阶段.以下是CX-D480/sb主机辨识的一个范例:在程序中我们通过三条语句的训练演示特定人连续音识别,其中第一条语句为触发名称.另外两条为命令,训练完毕开始辨识,当识别出触发名称后,开始发布命令,则会听到自己设置的应答,具体命令如下: &&&&提示音&&&&输入语音 &&&&"请输入触发名称"&&"请开门" &&&&"请输入第一条命令"&"我是302" &&&&"请输入第二条命令"&"你在干什么?" &&&&"请再说一遍"(以上提示音每说完一遍出现此命令) &&&&"没有听到任何声音"(当没有检测到声音时出现此命令) &&&&"两次输入名称不相同"(当两次输入的名称不同时出现此命令) &&&&"两次输入命令不相同"(当两次输入的命令有差异时出现此命令) &&&&"准备就绪,请开始辨识"(以上三条语句全部训练成功时,进入识别)****************识&别******************************* &&&&用户发布命令&主机应答 &&&&"请开门"&"你是谁" &&&&"我是302"&"请再说一遍" &&&&"我是302"&"请进"(CPU发出开锁信号打开电锁) &&&&"你在干什么?"&"我在巡逻"/"我在休息 &&&&"注意:在每次提示音结束后&2-3秒再输入命令或当上次应答结束&2-3秒后再发布命令. &&&&可以预言,今后中文语音识别技术以及指纹识别技术在智能化小区安防产品中,必将得到广泛运用,智能化安防产品也将变得更加精彩. 语音将成为下一代操作系统和应用程序的用户界面 & &&&&计算机语音识别就性质而言是非常复杂的,是跨学科的边缘性研究,涉及数学、声学、生理学、数字信号处理、心理学、统计学、语言学等诸多领域.语音识别技术的原理看起来似乎并不复杂,它主要依赖于计算机发达的运算能力和存储能力,就像战胜棋王的"深蓝",其致胜的关键是拥有大型棋谱数据库和每秒上亿次的是非判断能力. &&&&一般来说,计算机语音识别是一个模式识别匹配的过程.在这个过程中,计算机首先要根据人的语音特点建立,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板.而计算机在识别过程中要根据语音识别的整体模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板.然后,据此模板号的定义,通过查表就可以给出计算机的识别结果.显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系,这也是目前语音识别过程中的一个难点. &&&&总而言之,语音识别的任务是利用语音学知识和语言学知识,首先对语音信号进行基于信号特征的模式分类,这是语音信号处理的范畴,分类的结果是得到拼音串;其次是利用语言学知识对拼音串做进一步处理,得到一个符合语法和语义的句子.而对于汉语,还要在其中完成音字的转换. &&&&语音识别就应用来说,有低水准和高水准之分.高水准的语音识别用来实时地控制和操作计算机,不允许出错;低水准语音识别的应用则更为广泛,诸如听写系统.但是每个语音识别系统都有下列特征: &&&&·连续性与不连续性:如果语音识别系统是连续的,用户就能正常地与系统对话;如果是不连续的,用户就需要字字停顿.显然,连续的识别比不连续的识别更受欢迎,但它却需要更多的处理能量. &&&&·单词量:语音识别系统可以有或大或小的词汇量.词汇量小的识别系统需要用户发出简单的命令,而宣读文件时,这一系统就必需有大的词汇量,大词汇量识别系统比小词汇量识别系统需要更多的处理能量和储存空间.虽然日常生活中常用的词汇最多不超过一两万个,但每个专业的术语一般不少于几万条. &&&&·扬声器的独立性:独立扬声器语音识别系统可以在机器外独立工作,而非独立扬声器语音识别系统则需要用户用大约三十分钟的时间训练该系统来适应他或她的声音. &&&&·特定人与非特定人:例如有男声、女声、童声之分. &&&&·规则句式与自由句式:识别结构化的句式比较容易,因为它有规则可循,有一定的范围;而人们说话大多采用任意句式,增加了计算机识别的难度. &&&&汉语语音识别系统按发音方式可分为孤立字发音识别系统、连接词发音识别系统和连续语音识别系统;按识别对象可分为特定人及非特定人识别系统;按词汇表的大小可分为小词汇表识别系统、中等词汇表识别系统、大词汇表识别系统和无限词汇表识别系统.实践证明,对汉语而言,只能用连续的语音识别技术;目前,代表汉语语音识别技术最高水平的是非特定人无限词汇的连续语音识别系统,例如IBM的98/2000. &&&&正像Windows扬弃Dos一样,计算机生产及使用的下一次飞跃将由人机界面的革新开始.毫无疑问,语音将摒弃键盘和鼠标,成为下一代操作系统和应用程序的用户界面. 高速处理器和低成本内存的发展促使语音技术的产品进入市场 & &&&&语音识别技术的研究与发展举步维艰.在50年代以前,由于计算机的计算能力和有关语音信号处理方面的理论都处于比较低的水平,有关语音识别的研究工作未能形成规模.而对这一课题开展大规模研究是在60年代末和70年代初.尽管初期的研究常常未能达到预期的目标,却使人们认识到了语音识别研究的艰巨性. &&&&像计算机的许多关键性技术一样,IBM也做了语音识别的开创性的工作.1972年,IBM成立了一个专门小组从事计算机语音识别技术的开发.开发初期,一页纸的词汇需要整整一房间的计算机同时处理,而且这些词汇必须是由一个特定的人非连续地读出.IBM在所有语音识别技术关键性领域的研究均获得了成果,包括:(1)识别语音特征:语音符号首先被数字化,并根据经过抽取和导向的语音频率、力度等特征被分割成每百分之一秒的时间点.包含导向成分的数字化的信息是增强识别能力所必须的.(2)语音模型:技术人员根据语言的基础语音元素对真实声音的录音进行分析、分类和分级,研制成能使一组特定人员的动态语音型式特征化的统计模型.语音上特征明显的语言或方言的识别要求特征明显的语音模型.(3)统计语言模型:语言使用类型特征化的统计模型是建立在大量实体的收集的基础上的,为了更好地识别同一种语言的不同的使用方法,需要不同的语言模型.(4)规则发展:除了建立语音和语言模型的基础的规则,还需要各种各样的规则去概括和研究潜在的词汇序列,通过组合相应的语音和语言来衡量每个侯选序列的可能性,并且选择最有可能的一个,该方法被证实在有效地缩小研究范围和改善极端复杂的正确的词汇序列研究过程方面是具有核心意义的.正是因为这种规则的发展,实时识别大量词汇、连续的速度才成为可能. &&&&语音识别的困难涉及语音信号和自然语言的多变性及复杂性问题,主要包括以下几方面: &&&&·在连续语音中,词与词之间没有明显的停顿间隙,词与词之间的分割困难; &&&&·每一个基本的声学识别单元(如音素)受前后音素发音方式的影响(称为交调),而使语音声学信号的特征变得不稳定; &&&&·不同人或不同的心理和生理以及在不同的说话环境,即便说同一个词,声学信号特征也会发生变化; &&&&·一个词的读音不仅包含了与词义有关的特征,而且还包含了说话人的性别、年龄、情绪等大量与词义无关的信息,而后面这些信息对语音的识别造成了干扰,而且把这些互不相关的信息分离开比较难; &&&&·自然语言的多变性难以借助一些基本的文法规则进行描述,从而使计算机的编程产生困难. &&&&可以说,研究的最大的成果是80年代初R.Rabiner和F.Jelinek等人将隐含马尔可夫模型(Hidden&Markov&Model,HMM)引入语音识别中.他们把HMM与矢量量化(Vector&,VQ)结合起来,用于与人无关的孤立词识别,并取得成功.HMM语音识别模型和算法以及动态规划模板匹配技术(又称动态时间归整Dynamic&Time&Warping,DTW)已成为当今国际上的主流技术. &&&&因为人耳对不同频率的声波有不同的,从200Hz到5KHz之间的语音信号对语音的清晰度影响最大;低音掩蔽高音容易,反之则较困难;在低频处的声音掩蔽的临界带宽较高频端小.所以,人们从低频到高频这一频段内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波.将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征进一步处理后就可作为语音识别系统的输入特征.由于这种特征不依赖于信号的性质,对输入的信号不作任何假设和限制,又利用了听觉模型研究的成果,因此,这种参数与基于LPC(Linear&Prediction&Coding,语音处理的线性)的全极点模型参数相比具有较好的鲁棒性,当信噪比降低时仍然具有较好的识别性能.目前,这种基于听觉模型的语音特征在语音识别系统中也已获得了广泛的应用. &&&&要建立一个语音识别系统仅有一个好的语音特征还不够,还要有一个好的语音识别的模型和算法.为研究方便,在语音识别系统中通常分为两部分:声学层部分主要研究如何充分利用语音信号中的信息,语音学层部分主要研究如何充分利用已有语音学知识来提高系统的分辨率. &&&&常用算法有基于神经网络的训练和识别算法、基于动态时间归整匹配的DTW算法和基于统计的隐含马尔可夫模型(HMM)识别和训练算法;连同基于规则的方法、基于统计的方法、基于文法规则的方法和基于对语料库统计的方法相结合;近年来,又有人将神经网模型与HMM模型结合起来,使其优势互补,进一步提高了系统的识别率;另外,也有人将模糊识别的方法应用于语音识别中.我们可以从以二元文法模型为例说明模型如何通过训练得到,进而扩展为三元文法模型,可以预见,随着高速处理器和低成本存储器的发展,语音识别的效率会不断地提高. &&&&随着微机的中央处理器从4位到64位、时钟频率从8MHz到2GHz的飞跃,内存(RAM)从16K到256M,外存(硬盘)容量从10M到100G的发展,语音识别技术经历了从最初的特定人、小词汇量、非连续、非独立扬声器的语音识别到今天的非特定人、大词汇量、连续、独立扬声器的语音识别的发展历程,而且识别速度和准确率都有了极大提高. &&&&无论如何,语音技术已成为计算机工业发展的趋势,使全球亿万人享受着与计算机对话的便利与乐趣,是电脑走向人性化的重要一步. 语音技术产品将是信息产业界的又一次革命 & &&&&如果我们能够突破人机交互的瓶颈,就能使任何人都可以对计算机"发号施令",口授文章,甚至"亲切交谈",真正全面地实现""的人机交互方式. &&&&正是这充满潜力的市场前景使世界上一些知名公司无不看重"语音识别"这块正待开发的市场,IBM、Dragon、INTEL、Microsoft、PHILIPS、MOTOROLA、Apple、NATIONAL、NORTEL等大公司都设有专门的语音识别技术研发部或子公司,每年投入的研究经费达数千万美元.INTEL公司推出的PentiumⅢ为语音产品的实时化提供了进一步的保证.反过来,语音产品的发展也将为半导体工业提供新的契机. &&&&在国际市场上,由于中国的国际地位与日俱增以及在经济和市场方面所处的重要地位,汉语语音识别越来越受到重视;各大公司都相继投入到汉语语音识别系统的开发中,其投资也在逐年增加. &&&&智能翻译机、语音拨号、语音查询、语音自动定票系统、语音工业控制等等,可以想见,凡用计算机的地方都会有语音识别.在计算机辅助教育方面,计算机就成为专业的家庭辅导教师;在幼儿进行启蒙教育的玩具中,语音识别也将倍受欢迎. &&&&电脑语音合成技术即CTI(Computer&Telephone&Integration),是用计算机技术处理电话语音.通常是建一个信息呼叫中心,用户打来电话时计算机会自动地一层层地转给相关部门,一直到为用户解决问题为止.有的语音信箱可以支持不同语种.CTI并非新技术.与网络电话把数据压缩打包进行传输有所不同,CTI到底还是一种语音模拟传输技术,只不过用上了计算机对语音进行智能管理而已.发达国家早几年就普及了这项应用,"是个机构就有呼叫中心",以保证客户或合作伙伴打来的每一个电话都有回应.中国却还没有走到这一步,目前除了电信部门普遍开通了"呼叫中心"服务之外,大多数企业还刚刚起步.这个差距反映了管理和竞争意识方面的问题. &&&&中文语音浏览器产品"Interversa"使我们能够用"嘴"遨游互联网实现了"所说即所得".Interversa已针对PentiumⅢ的集进行了优化,并将在PentiumⅢ上实现最好的性能和识别率. &&&&常见的语音识别系统还有"命令和控制(Command&Control)"(是连续的,拥有小词汇量和独立扬声器)、"语音导航"、微软的"不连续听写(Discrete&Dictation)"(是不连续、大词汇量和非独立扬声器的),IBM的ViaVoice则属于连续听写. &&&&日渐火爆的语音市场再一次给我们带来了机遇和挑战;不断涌现和日新月异的新产品将证明,语音识别产品是继电话、计算机、Internet之后,信息产业界的又一次革命. &
&|&相关影像
互动百科的词条（含所附图片）系由网友上传，如果涉嫌侵权，请与客服联系，我们将按照法律之相关规定及时进行处理。未经许可，禁止商业网站等复制、抓取本站内容；合理使用者，请注明来源于。
登录后使用互动百科的服务，将会得到个性化的提示和帮助，还有机会和专业认证智愿者沟通。
此词条还可添加&
编辑次数：3次
参与编辑人数：2位
最近更新时间： 02:53:00
申请可获得以下专属权利：
贡献光荣榜

这是什么原因电脑的语音搜索都挺好的就是win10没有语音录音机机这样

我要回帖

更多关于电脑录音机的文章

随机推荐

这是什么原因 电脑的语音搜索都挺好的 就是win10没有语音录音机机这样

我要回帖

更多关于 电脑录音机 的文章

随机推荐

这是什么原因电脑的语音搜索都挺好的就是win10没有语音录音机机这样

更多关于电脑录音机的文章