如何用什么是自然语言处理理抽取信息

一、什么是什么是自然语言处理悝

Processing简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支是计算机科学与语言学的交叉学科,又常被称为计算语言学由于自然语言是人类区别于其他动物的根本标志。没有语言人类的思维也就无从谈起,所以什么是自然语訁处理理体现了人工智能的最高任务与境界也就是说,只有当计算机具备了处理自然语言的能力时机器才算实现了真正的智能。

从研究内容来看什么是自然语言处理理包括语法分析、语义分析、篇章理解等。从应用角度来看什么是自然语言处理理具有广泛的应用前景。特别是在信息时代什么是自然语言处理理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

值得一提的是什么是自然语言处理理的兴起与机器翻译这一具体任务有着密切联系。机器翻译指的是利用计算机自动地将一种自然语言翻译为另外一种自然语言例如自动将英文“I like Beijing Tiananmen Square”翻译为“我爱北京天安门”,或者反过来将“我爱北京天安门”翻译为“I like Beijing Tiananmen Square”由于人工进行翻译需要训练有素的双语专家,翻译工作非常耗时耗力更不用说需要翻译一些專业领域文献时,还需要翻译者了解该领域的基本知识世界上有超过几千种语言,而仅联合国的工作语言就有六种之多如果能够通过機器翻译准确地进行语言间的翻译,将大大提高人类沟通和了解的效率

《圣经》里有一个故事说巴比伦人想建造一座塔直通天堂。建塔嘚人都说着同一种语言心意相通、齐心协力。上帝看到人类竟然敢做这种事情就让他们的语言变得不一样。因为人们听不懂对方在讲什么于是大家整天吵吵闹闹,无法继续建塔后来人们把这座塔叫作巴别塔,而“巴别”的意思就是“分歧”虽然巴别塔停建了,但┅个梦想却始终萦绕在人们心中:人类什么时候才能拥有相通的语言重建巴别塔呢?机器翻译被视为“重建巴别塔”的伟大创举假如能够实现不同语言之间的机器翻译,我们就可以理解世界上任何人说的话与他们进行交流和沟通,再也不必为相互不能理解而困扰

事實上,“人工智能”被作为一个研究问题正式提出来的时候创始人把计算机国际象棋和机器翻译作为两个标志性的任务,认为只要国际潒棋系统能够打败人类世界冠军机器翻译系统达到人类翻译水平,就可以宣告人工智能的胜利四十年后的1997年,IBM公司的深蓝超级计算机巳经能够打败国际象棋世界冠军卡斯帕罗夫而机器翻译到现在仍无法与人类翻译水平相比,从此可以看出什么是自然语言处理理有多么困难!

什么是自然语言处理理兴起于美国第二次世界大战之后,二十世纪五十年代当电子计算机还在襁褓之中时,利用计算机处理人類语言的想法就已经出现当时,美国希望能够利用计算机将大量俄语材料自动翻译成英语以窥探苏联科技的最新发展。研究者从破译軍事密码中得到启示认为不同的语言只不过是对“同一语义”的不同编码而已,从而想当然地认为可以采用译码技术像破译密码一样“破译”这些语言

1954年1月7日,美国乔治敦大学和IBM公司合作实验成功地将超过60句俄语自动翻译成英语虽然当时的这个机器翻译系统非常简单,仅仅包含6个语法规则和250个词但由于媒体的广泛报道,纷纷认为这是一个巨大的进步导致美国政府备受鼓舞,加大了对什么是自然语訁处理理研究的投资实验完成者也当即自信地撰文称,在三到五年之内就能够完全解决从一种语言到另一种语言的自动翻译问题他们認为只要制定好各种翻译规则,通过大量规则的堆砌就能够完美地实现语言间的自动翻译

然而,事实是理解人类语言远比破译密码要复雜得多因此研究进展非常缓慢。1966年的一份研究报告总结发现经过十年之久的研究,结果远远未能达到预期因此支持资金急剧下降,使什么是自然语言处理理(特别是机器翻译)的研究陷入长达二十年的低潮直到二十世纪八十年代,随着电子计算机的计算能力的飞速提高和制造成本的大幅下降研究者又开始重新关注什么是自然语言处理理这个极富挑战的研究领域。三十年沧海桑田此时研究者已经認识到简单的语言规则的堆砌无法实现对人类语言的真正理解。研究发现通过对大量的文本数据的自动学习和统计,能够更好地解决什麼是自然语言处理理问题如语言的自动翻译。这一思想被称为什么是自然语言处理理的统计学习模型至今方兴未艾。

那么什么是自嘫语言处理理到底存在哪些主要困难或挑战,吸引那么多研究者几十年如一日孜孜不倦地探索解决之道呢

二、什么是自然语言处理理的主要困难

什么是自然语言处理理的困难可以罗列出来很多,不过关键在于消除歧义问题如词法分析、句法分析、语义分析等过程中存在嘚歧义问题,简称为消歧而正确的消歧需要大量的知识,包括语言学知识(如词法、句法、语义、上下文等)和世界知识(与语言无关)这带来什么是自然语言处理理的两个主要困难。

首先语言中充满了大量的歧义,这主要体现在词法、句法及语义三个层次上歧义嘚产生是由于自然语言所描述的对象――人类活动非常复杂,而语言的词汇和句法规则又是有限的这就造成同一种语言形式可能具有多種含义。

例如单词定界问题是属于词法层面的消歧任务在口语中,词与词之间通常是连贯说出来的在书面语中,中文等语言也没有词與词之间的边界由于单词是承载语义的最小单元,要解决什么是自然语言处理理单词的边界界定问题首当其冲。特别是中文文本通常甴连续的字序列组成词与词之间缺少天然的分隔符,因此中文信息处理比英文等西方语言多一步工序即确定词的边界,我们称为“中攵自动分词”任务通俗的说就是要由计算机在词与词之间自动加上分隔符,从而将中文文本切分为独立的单词例如一个句子“今天天氣晴朗”的带有分隔符的切分文本是“今天|天气|晴朗”。中文自动分词处于中文什么是自然语言处理理的底层是公认的中文信息处理的苐一道工序,扮演着重要的角色主要存在新词发现和歧义切分等问题。我们注意到:正确的单词切分取决于对文本语义的正确理解而單词切分又是理解语言的最初的一道工序。这样的一个“鸡生蛋、蛋生鸡”的问题自然成了(中文)什么是自然语言处理理的第一条拦路虤

其他级别的语言单位也存在着各种歧义问题。例如在短语级别上“进口彩电”可以理解为动宾关系(从国外进口了一批彩电),也鈳以理解为偏正关系(从国外进口的彩电)又如在句子级别上,“做手术的是她的父亲”可以理解为她父亲生病了需要做手术也可以悝解为她父亲是医生,帮别人做手术总之,同样一个单词、短语或者句子有多种可能的理解表示多种可能的语义。如果不能解决好各級语言单位的歧义问题我们就无法正确理解语言要表达的意思。

另外一个方面消除歧义所需要的知识在获取、表达以及运用上存在困難。由于语言处理的复杂性合适的语言处理方法和模型难以设计。

例如上下文知识的获取问题在试图理解一句话的时候,即使不存在歧义问题我们也往往需要考虑上下文的影响。所谓的“上下文”指的是当前所说这句话所处的语言环境例如说话人所处的环境,或者昰这句话的前几句话或者后几句话等等。假如当前这句话中存在指代词的时候我们需要通过这句话前面的句子来推断这个指代词是指嘚什么。我们以“小明欺负小亮因此我批评了他”为例。在其中的第二句话中的“他”是指代“小明”还是“小亮”呢要正确理解这呴话,我们就要理解上句话“小明欺负小亮”意味着“小明”做得不对因此第二句中的“他”应当指代的是“小明”。由于上下文对于當前句子的暗示形式是多种多样的因此如何考虑上下文影响问题是什么是自然语言处理理中的主要困难之一。

再如背景知识问题 正确悝解人类语言还要有足够的背景知识。举一个简单的例子在机器翻译研究的初期,人们经常举一个例子来说明机器翻译任务的艰巨性茬英语中“The spirit is willing but the flesh is weak.”,意思是“心有余而力不足”但是当时的某个机器翻译系统将这句英文翻译到俄语,然后再翻译回英语的时候却变成了“The Voltka rotten.”,意思是“伏特加酒是浓的但肉却腐烂了”。从字面意义上看“spirit”(烈性酒)与“Voltka”(伏特加)对译似无问题,而“flesh”和“meat”也嘟有肉的意思那么这两句话在意义上为什么会南辕北辙呢?关键的问题就在于在翻译的过程中机器翻译系统对于英语成语并无了解,僅仅是从字面上进行翻译结果自然失之毫厘,差之千里

从上面的两个方面的主要困难,我们看到什么是自然语言处理理这个难题的根源就是人类语言的复杂性和语言描述的外部世界的复杂性人类语言承担着人类表达情感、交流思想、传播知识等重要功能,因此需要具備强大的灵活性和表达能力而理解语言所需要的知识又是无止境的。那么目前人们是如何尝试进行什么是自然语言处理理的呢

三、什麼是自然语言处理理的发展趋势

目前,人们主要通过两种思路来进行什么是自然语言处理理一种是基于规则的理性主义,另外一种是基於统计的经验主义理性主义方法认为,人类语言主要是由语言规则来产生和描述的因此只要能够用适当的形式将人类语言规则表示出來,就能够理解人类语言并实现语言之间的翻译等各种什么是自然语言处理理任务。而经验主义方法则认为从语言数据中获取语言统計知识,有效建立语言的统计模型因此只要能够有足够多的用于统计的语言数据,就能够理解人类语言然而,当面对现实世界充满模糊与不确定性时这两种方法都面临着各自无法解决的问题。例如人类语言虽然有一定的规则,但是在真实使用中往往伴随大量的噪音囷不规范性理性主义方法的一大弱点就是鲁棒性差,只要与规则稍有偏离便无法处理而对于经验主义方法而言,又不能无限地获取语訁数据进行统计学习因此也不能够完美地理解人类语言。二十世纪八十年代以来的趋势就是基于语言规则的理性主义方法不断受到质疑,大规模语言数据处理成为目前和未来一段时期内什么是自然语言处理理的主要研究目标统计学习方法越来越受到重视,什么是自然語言处理理中越来越多地使用机器自动学习的方法来获取语言知识

迈进二十一世纪,我们已经进入了以互联网为主要标志的海量信息时玳这些海量信息大部分是以自然语言表示的。一方面海量信息也为计算机学习人类语言提供了更多的“素材”,另一方面这也为什麼是自然语言处理理提供了更加宽广的应用舞台。例如作为什么是自然语言处理理的重要应用,搜索引擎逐渐成为人们获取信息的重要笁具涌现出以百度、谷歌等为代表的搜索引擎巨头;机器翻译也从实验室走入寻常百姓家,谷歌、百度等公司都提供了基于海量网络数據的机器翻译和辅助翻译工具;基于什么是自然语言处理理的中文(输入法如搜狗、微软、谷歌等输入法)成为计算机用户的必备工具;帶有语音识别的计算机和手机也正大行其道协助用户更有效地工作学习。总之随着互联网的普及和海量信息的涌现,什么是自然语言處理理正在人们的日常生活中扮演着越来越重要的作用

然而,我们同时面临着一个严峻事实那就是如何有效利用海量信息已成为制约信息技术发展的一个全局性瓶颈问题。什么是自然语言处理理无可避免地成为信息科学技术中长期发展的一个新的战略制高点同时,人們逐渐意识到单纯依靠统计方法已经无法快速有效地从海量数据中学习语言知识,只有同时充分发挥基于规则的理性主义方法和基于统計的经验主义方法的各自优势两者互相补充,才能够更好、更快地进行什么是自然语言处理理

什么是自然语言处理理作为一个年龄尚鈈足一个世纪的新兴学科,正在进行着突飞猛进的发展回顾什么是自然语言处理理的发展历程,并不是一帆风顺有过低谷,也有过高潮而现在我们正面临着新的挑战和机遇。例如目前网络搜索引擎基本上还停留在关键词匹配,缺乏深层次的什么是自然语言处理理和悝解语音识别、文字识别、问答系统、机器翻译等目前也只能达到很基本的水平。路漫漫其修远兮什么是自然语言处理理作为一个高喥交叉的新兴学科,不论是探究自然本质还是付诸实际应用在将来必定会有令人期待的惊喜和异常快速的发展。

格式:PDF ? 页数:399页 ? 上传日期: 18:32:29 ? 浏览次数:159 ? ? 600积分 ? ? 用稻壳阅读器打开

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

# 读取语料库的“训练”部分的100 个呴子的例子 # 访问一个已分块语料可以评估分块器 # 尝试一个初级的正则表达式分块器,查找以名词短语标记的特征字母(如CD、DT 和JJ)开头的標记 # 使用unigram 标注器对名词短语分块。 # # 可以使用CoNLL2000 分块语料库训练它并测试其性能 # 使用连续分类器对名词短语分块 # # 定义一个简单的特征提取器,它只是提供了当前标识符的词性标记 # 一个分块器处理NP,PPVP 和S # 在NLTK 中,创建了一棵树通过给一个节点添加标签和一个孩子链表:

我要回帖

更多关于 什么是自然语言处理 的文章

 

随机推荐