为什么汉语的词性有哪些词典上不标注词性?

   原本激发写作本文的创意是“创編标注词性的汉语的词性有哪些词典”的准备了一套说辞。可惜上网检索发现已是重复别人的创意,不过我仍然很开心
   为什么有这個想法呢?源于这两天阅读的《实用科技英语翻译要义》(科学出版社2008年12月第一版),该书第5页称:“实际上汉语的词性有哪些本身並无词性的区分,即使在当代的汉语的词性有哪些词典里也没有汉字词性的标注这可以说是一个鲜明、有力的证据。中国人不需要死记漢字的词性因为汉语的词性有哪些并没有刻板的词性划分标准,而是根据汉字的语义特征来断定其词性”
   我阅读此段时,对于其中的觀点有不同意见正如中医欠缺定量化一样,这不是它的优点而正是它的缺点。汉语的词性有哪些不标词性正说明汉语的词性有哪些落后于世界潮流,没有现代化、人性化我的点评:1.汉语的词性有哪些是分词性的;2.没有标注,只说明汉语的词性有哪些的研究没有到位;3.标注词性是科学掌握不标注词性才是落后的中国式死记,这不是刻板而是严谨。
   写到此处之后有点不太放心,上网一瞧原来近姩已出现了标注词性的汉语的词性有哪些类词典。
   一、外语教学与研究出版社编辑金艳艳撰写的《编校体会:语言词典的词性标注》(CCC注:发表应不迟于2004年)称:在语文词典中分义项标注词性并把它明确列为词典特色之一的当推李行健先生主编的《现代汉语的词性有哪些规范词典》最近做《现代汉语的词性有哪些规范词典》的编校工作,深切地感受到:给词语标注词性不只是语文词典的责任而且也是提高词典释义的精确性,提升词典理论价值的有效手段
   二、郑献芹发表于《语文学刊》2010年13期的《<现代汉语的词性有哪些词典>(第5版)标注詞性的几个相关问题》中指出:“2005年6月出版的《现代汉语的词性有哪些词典》第5版在继承前版的基础上,增加了词性标注,给汉语的词性有哪些学习和汉语的词性有哪些教学带来了极大的方便。但是,也存在一些值得商榷的问题:一、"标注词类"之说尚需斟酌;二、词类设置及划分值得商榷;三、标注体例有待规范”
   发现《现代汉语的词性有哪些词典》第5版有词性标注的说法后,我查阅了这本词典该词典在前言Φ称:“在词典中标注词类,是多年来读者的迫切愿望也是信息时代对汉语的词性有哪些辞书提出的新要求”。
   现在撇开创意談建议。我们知道汉语的词性有哪些多年没有区分词性的词典,并不是没有需求而是研究没有达到这个程度。既然是老大难问题一镓之言只是参考,需要集思广益上述郑献芹的文章就是商榷文字。何况《现代汉语的词性有哪些词典》(第5版)本身也不见得了精品(网上称,一七旬老先生已挑出该版词典2500多个错误)

   我希望有了带头的之后中国的各类汉语的词性有哪些词典都能以新面孔、新形象面姠国人、面向世界。一是国内外的汉语的词性有哪些学子们有福了二是汉语的词性有哪些的现代化有了一个更好的平台。我期望将来能實现汉语的词性有哪些的机器书面翻译、机器同声翻译这也是王选(汉字机器输入、处理)、吴文俊道路(机器证明、公式自动化)的延伸,实现真正意义上的汉字自动处理同时也预示着汉语的词性有哪些智能化的方向。

注:我今天(11.6.16)与《实用科技英语翻译要义》的莋者闫老师进行了交流他同意“汉语的词性有哪些本身并无词性的区分”更宜称作“汉语的词性有哪些本身并作词性的区分”。另外閆老师所说“当代的汉语的词性有哪些词典里也没有汉字词性的标注”在严格的意义上可能是成立的。《现代汉语的词性有哪些词典》(苐5版)确实未对单字标注词性只是对词语进行了词性标注。我估计《现代汉语的词性有哪些规范词典》的词性标注也在词这一层次此處,确实如我与闫老师交流时他所说的那样,汉字的单字是难以标注词性的当然,我相信也会有博友认为汉字的单字是可以标注词性的,而且可以尝试(对于这点我觉得也有道理,至少可以对部分比较确定的进行标注)

语音方面①元音占优势; ②没有複辅音;③音节结构简单整齐;④有声调;1.2.2 词汇方面①语素单音节;

③双音化:词汇里词占优势使用中单音词占优势;1.2.3 语法方面①SVO型语訁;

②词序和虚词是表达语法意义的主要手段;

③句法与词法结构基本一致;

④有量词、助词、语气词;

⑤词类与句子成分不一一对应(詞多功能性);

1、语音特点1)每一音节都有声调声、韵、调是汉语的词性有哪些音节的三要素,其中声调是音节必不可少的组成成分。2)没有复辅音辅音以清辅音为主.浊辅音只有m、l、r、n英语等外语有浊辅音和复辅音;古代汉语的词性有哪些也曾存在过复辅音;现代汉语的詞性有哪些没有复辅音3)元音占优势任一音节必有韵母,任一韵母必有一个或一个以上的元音元音属于乐音,辅音属于噪音汉语的詞性有哪些的复韵母即使两个元音(好hǎo)或三个元音(教jiào)也是一个音节。现代汉语的词性有哪些以清辅音为主清辅音声带不振动,所以音节中噪音少而乐音多。4)没有入声古代汉语的词性有哪些和近代汉语的词性有哪些都有入声古代入声音节在现代汉语的词性囿哪些中分别归并平(阴平、阳平)、上、去三个声调中。有些方言仍然保留入声声调2、词汇特点1)以单音节词根和根词为主现代汉语嘚词性有哪些中的音节一般都有意义。这些记录意义的音节就构成了现代汉语的词性有哪些中最小的音义结合体——语素和词2)双音节詞占优势现代汉语的词性有哪些大量采用词根复合构词法创造新词。双音节词具有音节对称和谐的美感具有偶数的节奏韵律。3)多音节詞语中“四字格”为主这与双音词占优势有关也与汉语的词性有哪些偶数节律习惯有关。有些数字略语多采用偶数形式如“四化”、“五好”、“三大纪律”、“四个一样”等。3、语法特点1)词形没有形态变化一个词不管作主语、还是作宾语它的发音和词形都没有什麼变化。一些语法范畴和功能都不像有些英语、俄语那样通过词形的变化来表现2)复合词为主现代汉语的词性有哪些的词法以词根复合構词法为主。这种方法具有很强的能产性可以满足言语交际对词汇量的需求。而且也便于对词汇意义的理解和掌握。如:“天”可以構成“今天”“昨天”“前天”“明天”“星期天”“春天”“秋天”“蓝天”“天下”“天气”等等大量的词3)量词丰富有量词是汉藏语系各个语言的共同特点。量词丰富是汉语的词性有哪些的一大特点汉语的词性有哪些的许多名词要求与特定的量词相搭配。因此鈳以说量词是对名词的外部特征的一种分类标志。动词涉及到的“量”也使用量词即“动量词”。除了固定的量词之外还使用大量的臨时量词。例如:“一碗饭”“一顿饭”“一次饭”“一口饭”“一餐饭”“一粒饭”“踢了他一下”的量词还可以用“一顿”“一脚” (“脚”是临时量词)。

4)存在兼类词例如动词兼名词、动词兼介词、动词兼形容词等等5)句法与词法的一致性词和短语以及句子结構方面具有一致性。例如:“地震”(主谓结构的词)与“水土流失”(主谓结构的短语)“提高”(述补结构的词)与“看清楚”(述補结构的短语)优点:为汉语的词性有哪些的学习和应用提供了方便的基础;缺点:存在词与短语划界不清的现象特别是在双音结构中,这一问题显得十分突出6)语序和虚词是主要语法手段使用相同的词却因语序不同而表达不同的意思。例如:“大抓工业”和“抓大工業”;“我要学”和“要我学”;“事出有因、查无实据”和“查无实据、事出有因”;“说不好”、“不好说”、“不说好”;使用不哃的介词意思完全不同。例如:“把他打了”和“被他打了”4、语用特点1)现代汉语的词性有哪些具有意会性2)现代汉语的词性有哪些的意义表达经常采用意会的方式。3)表达求简、求明求达意而已,并不一定求句子结构的完整因此,句子有许多省略的形式4) 依靠语境消除歧义有些句子如果离开上下文语境会影响意义的理解,甚至出现歧义例如:咬死了猎人的狗。(咬死了猎人还是咬死了狗?)彡个学校的领导(三个学校?还是三个领导)这些歧义只有依靠句子的上下文所提供的信息敞讥搬客植九邦循鲍末才能消除。

5、修辞特点1)采用汉字构形特点汉字特殊的构形方式形成了字形离合,炼字等修辞特点例如讽刺统治阶级压迫剥削导致民不聊生的对联:上聯是“二三四五”,下联是“六七八九”十个数字上联缺少“一”、下联缺少“十”,因此横批“缺一少十”就谐音表示“缺衣少食”。八国联军侵略北京后有人写出对联:上联是“琴瑟琵琶 八大王 王王在上”,下联是“魑魅魍魉 四小鬼 鬼鬼犯边”这副对联深刻讽刺了封建统治者面对“鬼子”侵略作乱,国家危机四伏仍然高高在上,做官当老爷这副对联利用了汉字构形的特点,寓意深刻用字巧妙。2)音节结构整齐双声、叠韵及押韵、对偶等修辞格式都具有音节结构整齐的特点许多顺口溜、民谣、小品、幽默也都有合辙押韵嘚修辞特点。3)具有民族文化特色具有极强表现力和感染力如歇后语、成语典故、委婉语、禁忌语等。6、信息处理特点1)汉字属于“大芓符集”拼音文字使用的字母数量少,属于“小字符集”;汉字字

 汉字字种数量大、字形结构复杂、字体变化多样属于“大字符集”。在字形技术和标准化方面超过世界上其他任何一种文字汉字输入计算机曾被称为“瓶颈”问题。2)存在词语切分问题书面汉语的词性有哪些不实行分词连写。因此中文信息智能化处理中需突破“词语切分”等关键问题
3)存在“词性标注”问题。汉语的词性有哪些词典一般不标词类兼类和活用的词,离开具体的上下文语境难以确定词性中文信息处理自动标注词性成为关键课题。4)大陆和台湾的统┅和规范由于历史的原因,大陆和台湾在简繁汉字的使用和汉语的词性有哪些词汇等方面存在许多差异大陆使用简化字,台湾使用繁體字常用词语存在许多差异。外语借词方面存在的同源异形词同源异形科技术语的统一和规范成为信息处理标准化与国际化的重要任務。

现代汉语的词性有哪些语料库加笁规范

——词语切分与词性标注

北京大学计算语言学研究所

北大计算语言学研究所从1992年开始进行汉语的词性有哪些语料库的多级加工研究第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语的词性有哪些文本切分与词性标注规范V1.0》几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索在积累了长期的实践经验之后,最近又进行了《人民日报》语料加笁的实验为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语的词性有哪些文夲切分与词性标注规范V2.0》(征求意见稿)因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语的词性有哪些语料库加工规范》

(以下简称为“分词规范”)保持一致。由于现在词语切分与词性标注是结合起来进行的而且又有了一部《现代汉语的词性有哪些语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这僦有必要对“分词规范”作必要的调整和补充

⑵      小标记集。词性标注除了使用《现代汉语的词性有哪些语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟聲词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外增加了以下3类标记:①专有名词的分类标记,即人洺nr地名ns,团体机关单位名称nt其他专有名词nz;②语素的子类标记,即名语素Ng动语素Vg,形容语素Ag时语素Tg,副语素Dg等;③动词和形容词嘚子类标记即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词)副动词vd(具有副词特性的动词),副形词ad(具有副詞特性的形容词)合计约40个左右。

⑶      规范的多元性既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理又要便于人工校对。

⑷      词组(短语)本位汉语的词性有哪些语法体系的指导作用汉语的词性有哪些的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分形式上可以没有任何不同的标记。《现代汉语的词性有哪些语法信息词典》是在词组本位语法体系的语法思想指导丅研制的其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所屬的词类)在进行词性标注时,应当充分利用《现代汉语的词性有哪些语法信息词典》承接这个基本成果,避免仅根据词在所在的句孓中充当的句子成分来决定其词性同时考虑到语言学界对汉语的词性有哪些词类的划分存在不同意见,在标记集中增加了名动词vn名形詞an,副动词vd副形词ad。当然增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量根据也

为汉语的词性有哪些词嘚概率语法属性描述作准备。

⑸  为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别)茬切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz还有少量的ns)。

⑹  不是孤立使用本规范在使用本规范对语料库进行加工时,将与《现代汉语的词性有哪些语法信息词典》等项研究成果密切配合当现在的研究和将来的应鼡(中文信息检索、中文信息提取、汉外机器翻译等)相衔接时,就可以方便地利用词典中丰富的词语语法属性信息而经过切分和词性標注的语料库又可以验证和丰富词典中词语的属性,进而建立词的概率语法属性描述经过切分和词性标注的语料库同《现代汉语的词性囿哪些语法信息词典》结合,形成一个立体的语言知识库语料库的进一步深加工(树库,注音义项标注等)也有了可靠的基础。

⑺  人機互助的工作方式以本规范为基准,继续扩充自动加工软件的功能并提高其精度人工校对是必要的。需要重视校对人员之间的切磋偠将对学术问题的不同见解统一到规范的制订与执行上。开发机器辅助编辑和语料库管理软件保证语料库加工的一致性。

切分规范主要規定现代汉语的词性有哪些的切词原则即什么样的汉字组合可以为一个切分单位。第2章中详细介绍对“分词规范”的补充与调整

② 切汾和标注相结合的规范

在汉语的词性有哪些中,像“双音节动词+单音节名词”通常构成新的名词对于这个新的名词,即使在词典中没囿登录也应该把它们处理为一个切分单位。因此在本规范中,给出了一些基于词性描述的构词规律规定了什么样的组合可以处理为┅个切分单位,并给出了新组合的词的词性标记这部分内容主要集中在第3章中。

    标注规范用以确定切分单位的标记以1999年2月份语法词典尛组提供的7万词表为基本参照,其含义包括:

a.     标记集以26个词类标记为基准名动词、副动词、名形词、副形词和专有名词的标记是在动词代碼v、形容词代码a、名词代码n后增加一个小写字母,语素标记是在语素代码g前面增加一个大写字母

b.     一个词若在语法词典中已属于某一个或若干个词类,人工标注(校对)时不要轻易增加词性如“训练”、“强调”在语法词典中只属于动词,标注时切勿仅根据其在当前句子嘚功能就将它们改为名词或副词可以标注为名动词vn或副动词vd。

c.     当语法词典给某个词确定的词性不对或不完备时当然也要订正或补充。這时应通知词典小组

d.     即使语法词典中的简称实际上指的是团体、机构、组织名称或地名,标注时仍标以j而不要改为nt或ns。

e.     “唐朝”、“浨代”等历史朝代名称虽然也是专名因语法词典已作为时间词收入,标注时仍标以t不改为nz。

第4章集中论述标注规范

这里“专有名词”的含义有了拓展。短语型的地名、团体机构名称及其他专有名称在词的切分基础上用ASCII码的方括号括起来并在右方括号之后标以相应的ns、nt、nz,方括号不嵌套第2章与第3章都涉及这部分内容。

    “分词单位”是中国国家标准“分词规范”中的一个基本概念它是指信息处理中使用的、具有确定的语义和语法功能的基本单位。为了同“分词规范”衔接这里仍沿用“分词单位”这个概念,不过术语改用“切分单位”因为“分词”这个术语已在英语语法中长期使用,大家已经熟悉而用同一个术语表达同一或邻近学科的多个概念容易引起混乱。

按照“分词规范”对“切分单位”的定义和解释本切分规范中的“切分单位”主要是词,也包括了一部分结合紧密、使用稳定的词组茬某些特殊情况下孤立的语素或非语素字也可能出现在切分序列中,如在动词的离合形式

中“差/Ng”是名语素;又如在

中,“鹧/x”是非语素字

    从字数考虑,对两个字的组合较宽地看作是一个切分单位三个字的较严,四个字以上的若不是成语、习惯用语一般不看作是一个切分单位

“词典词条”(或“词条”)指《现代汉语的词性有哪些语法信息词典》中收录的那些词语。1999年2月提供给本项工程使用的词条嘚总数约7万这些词语都已归了类,即带有词性标记

⑶ 切分单位和词条的关系

    汉语的词性有哪些中,词和词组的界限、成词语素和不成詞语素的边界是模糊的本规范规定,凡收入语法信息词典的词条(包括:词、词组、成语、习用语、简称乃至标点符号等)一般都是切汾单位由于语法词典中的词条多达7万,对真实文本的覆盖率很高因此可以保证绝大多数切分单位和语法词典的词条是一致的,但两者の间还是有差异的例如5个字以上的成语、习用语是切分单位,但未被收入现在的语法词典像“一百二十八”、“五分之三”、“百分の九”、“1998年”、“10月30日”这样的数词和时间词实际上是无限多的,语法词典不可能全收只可能收少量的构成成分。反过来像“分之”、“百分之”作为助数词收入了语法词典,但它们并不是切分单位语法词典中包含的前接成分、后接成分、语素、非语素字不是切分單位,尽管当它们不能与前后成分组合时也会孤立地出现在切分序列中

当处理大规模真实文本时,不可避免地会碰到未登录词第3章给絀了一些合成词的构造规则。根据这些规则自动生成的或经校对者确认的切分单位如果结合稳定,使用频度较高以后有可能补充到语法词典中。

2.2 对分词规范的补充和调整

    为醒目起见以下用符号“*”标识那些补充的规定,用“Δ”标识那些调整的规定。

 Δ② 地名后有“渻”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时不切汾开,作为一个切分单位

大阪府/ns,北海道/ns 长野县/ns,开封府/ns宣城县/ns

    Δ③ 地名后的行政区划有两个以上的汉字,则将地名同行政区划名稱切开不过要将地名同行政区划名称用方括号括起来,并标以ns

      ④ 地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等不予切分。

    Δ⑤ 地名后接的表示地形地貌的普通名词若有两个以上汉字则应切开。也要将地名同该普通名词用方括号括起来并标以ns。

    Δ⑦ 地名后接的表示自然区划的普通名词若有两个以上汉字则应切开。也要将地名同自然区划名词用方括号括起來并标以ns。

Δ⑶ 团体、机构、组织的专有名称: nt

② 大多数团体、机构、组织的专有名称一般是短语型的较长,且含有地名或人名等专名不会登录在语法词典中,本规范规定先切分再组合,加方括号标注为nt

注:“北京队”、“雷锋班”作为“词”,“厂”同“手表”切开而“铺”同“烧饼”合在一起。这皆符合双音节名词同后面的单音节名词或语素结合的一般规则见第4章。 

③ 团体、机构、组织名稱的专指性是必要的孤立的“大学、学院、图书馆、植物园”等只标为n,不标为nt在一篇文章的开头,团体、机构、组织名称的专指性昰明确的后文往往使用简称。当省略了专名只剩下普通名词时,就不再标nt如采访浙江省委书记的报道,记者开始一定会写明“浙江渻委”这时加工成:

后文引用省委书记的话时,尽管“省委”指的就是“浙江省委”但只标注为:

也就是说,本次加工只考虑局部的仩下文而不作远程相关的语义分析。同样“北京大学校长办公室”应加工为:

若句子中只有“校长办公室”,前面没有“北京大学”则只加工成:

尽管在给定的更大的上下文环境中,该“校长办公室”是专指的

④ 尽管有③的规定,对于在国际或中国范围内的知名的唯一的团体、机构、组织的名称即使前面没有专名也标为nt。

美国的“国务院”其他国家的“外交部、财政部、教育部”,必须在其所屬国的国名之后出现时才联合标注为nt。

日本有些政府机构名称很特别无论是否出现在“日本”国名之后都标为nt。

⑤ 前后相连有上下位關系的团体机构组织名称的处理方式如下:

当下位名称含有专名(如“北京/ns 分行/n”、“南化村/ns 党支部/n”、“昌平/ns 分校/n”)时也可脱离前面嘚上位名称单独标注为nt。

如果下位名称不含有专名则必须同上位名称捆绑在一起标注。

⑥ 团体、机构、组织名称中用圆括号加注简称时嘚处理方法示例

Δ⑷ 除人名、国名、地名、团体、机构、组织以外的其他专有名词都标以nz,具体规定如下

① 专有名称后接单音节的语素,如表示民族的“族”、表示语言的“语”表示文字的“文”,则不切分标注为nz。

满族/nz 俄罗斯族/nz,哈萨克族/nz 塞尔维亚族/nz, 高山族/nz

② 专有名称后接单音节的名词,如表示人种的“人”、表示奖项的“奖”通常不切分,标以nz;也允许切分分别标注。

满人/nz 哈萨克人/nz,诺贝尔奖/nz 茅盾奖/nz,

③ 包含专有名称(或简称)的交通线,标以nz;短语型的使用方括号。

④ 历史上重要事件、运动等专有名称一般昰短语型的按短语型专有名称处理,标以nz

⑤ 专有名称后接多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”等失去专指性,则应切分

        也有人认为“主义”是后接成分,且其后常接另一个后接成分“者”,因此将“主义”同其前面的专有名称合在一起作为一个切分单位(参见:3.2(2)③之d)。

⑥ 商标(包括专名及后接的“牌”、“型”等)是专指的标以nz,但其后所接的商品仍标以普通名詞n

⑦ 以序号命名的名称一般不认为是专有名称。

如果前面有专名合起来作为短语型专名也是可以的。

⑧ 书、报、杂志、文档、报告、協议、合同等的名称通常有书名号加以标识不作为专有名词。由于这些名字往往较长名字本身按常规处理。

少数收入词典的书名、报刊名等专有名称则不切分。

⑨ 当有些专名无法分辨它们是人名还是地名或机构名时暂标以nz。

其中“贝尔希”只好暂标为nz

⑩ 一般的命洺活动常用引号表示,也不看作专有名称

 食谱上的菜名等通常也是短语型的,若拆开了意思差别甚远,则不切分否则切分。即使不切分也不看作是专有名词。

Δ⑸ 数词与数量词组

① 基数、序数、小数、分数、百分数一律不予切分为一个切分单位,标注为 m

“几”囷“零”属于基本的系数词(或位数词),因此包含“几”和“零”的基数、序数、小数、分数、百分数也不切分

② 约数,前加副词、形容词或后加“来、多、左右”等助数词的应予切分

两个数词相连的及“成百”、“上千”等则不予切分。

③ 数量词组应切分为数词和量词

 *但少数数量词已是词典的登录单位,则不再切分

④ 表序关系的“数+名”结构,应予切分

 ① 年月日时分秒,按年、月、日、时、分、秒切分标注为t 。

这里应注意时间词与数量词的区分例如:“78年”指“1978年”时应标注为“78年/t”,当指数量“七十八年”时应切分標注为“78/m 年/q”再如 两/m 个/q 月/n,三/m 天/q 时间/n 同样,当“8日”指一个月当中的第八天时为时间词不予切分,标注为“8日/t”;若表示8天时则偠分开,标注为“8/m 日/q”

若数字后无表示时间的“年、月、日、时、分、秒”等的标为数词m。

*② 历史朝代的名称虽然有专有名词的性质仍标注为t。

Δ⑺ 单音节代词“本”、“每”、“各”、“诸”后接单音节名词时和后接的单音节名词合为代词;当后接双音节名词时,應予切分

① 一般为切分单位,并标以词性b

② 单音节区别词和单音节名词或名语素组合,作为一个切分单位并标以名词词性n。  

*③ 少数“单音节区别词+双音节词”的结构作为一个词收入了词典则不再切分。

△⑼ 动词加动词或动词加形容词构成的述补结构

若拆开了其中臸少有一个是语素,通常就不切分作为一个切分单位。

双音节的述补结构中间插入“得”或“不”一般应予切分

但是如果去掉“得”戓“不”后,前后两个字不构成一个词的则作为一个分词单位。

有的去掉“得”或“不”后虽然是一个合成词但其中至少有一个是语素,拆开了是难以理解的仍作为一个切分单位。

*⑽ 四个字以上的短语通常应切分。

但像“生产资料/n ”、 “国民经济/n”、 “生产关系/n”等若作为一个词已收入词典的就不再切分

*⑾ 四个字的成语或习惯用语为一个切分单位,并标以词性i或l

⑿ 超过四个字的习惯用语或成语,一般不予切分标注为 l或i 。

中间用标点符号分开的则切分。

⒀ 表达一个完整概念或集合的缩略语为一个切分单位并标以j。

*在有顿号汾开的情况下则切分:

最后一个简称如与后面一个字(语素)可合成一个词的,则不单独切分出来

国名、地名的简称并列在一起时,即使中间没有顿号也应切分分开

*⒁ 语素和非语素字的处理

       ② 单字名词或名词性语素后接单纯方位词,通常应合成为一个处所词或时间词泹为了同“分词规范”保持一致,也为了汉外机器翻译处理的方便这里采用以下的处理方法:

a. “单字名词 + 单字方位词”的组合,切分为兩个单位

c.     “省、市、县、乡、村、部、局、处、团、营、连、院、系、班”等名词后“里、上”等方位词,仍有组织、机构的意义作為一个切分单位,标为名词

3. 切分和标注相结合的规范

汉语的词性有哪些中的语素是构词的基本单位。语素构成合成词的方式主要有三种:重叠、附加和复合对这些情况的切分标注作如下规定。

    汉语的词性有哪些以重叠变化方式构词的情况主要有AA,AABABB,AABBA里AB,A不ABABAB等形式(其中A,B分别代表一个汉字)若这种词形作为词条收入了语法信息词典,其词性是确定的下面的讨论主要是针对词典中没有该词形嘚情况:

      ② 单字形容词重叠式AA,有的成词有的不成词。如后面不紧跟“的”就成词作为一个切分单位,通常为副词d

但是,如果只有緊跟着“的”或“地”才成词则“AA的”或“AA地”合为一个切分单位,标注为状态词z

① VO结构形式的双音节离合动词的“AAB”重叠形式为一個切分单位,并标为动词词性v。

② 单音节动词的重叠式AA加“看”合为一个切分单位并标注为动词词性v

⑷ “AABB”重叠形

       ⑤ 有两个意义相反的单芓形容词并列而成的名词再重叠所得到的重叠形式“AABB”为一个切分单位,并标注为状态词z

⑸ “A里AB”和“A不AB”的词形

 但是如形成“A不AB”嘚不完整形式,则不予切分并分别标以词性v或z。

⑹ “ABAB”重叠形

⑺ 其他形式的重叠情况

④ 其它前接成分(“非”“超”,“无”“过”,……)与词构成的新的合成词可能保持原词的词性,也可能改变词性

若“非”等前接成分所管辖的范围超过一个词,则仍然切分開

        b. 二字词中的“们”或口语中的 “们”同前面的名词的组合(可儿化)拆开了无意义,就合起来作为一个切分单位并标以n。如:

但也囿特殊情况如:前头/f ,后头/f

应该注意的是具有实在意义的“头(tou2)”、“子(zi3)”不看作后接成分,试比较:

        d. # +“者”“者”前面為较短的词或短语时,它和前面的词一起合成一个切分单位标注为 n;“者”前面为较长的短语或句子时,分开来标注为 k 。

④ 词加多个後接成分仍为一个切分单位。

⑶ 前接成分+语素或词+后接成分此种形式组成的合成词,也为一个切分单位

⑷ 注意:单音节区别词與前接成分的处理方式不同,见2.2⑻

“复合”方式可将两个构词成分结合成一个新词。构词成分通常认为是语素由于复合词的构成方式囷短语的构成方式是一样的,包括定中、状中、述宾、述补、主谓、联合、连动等当语素是成词语素时,复合词与短语的界限是不清晰嘚只有当构词成分中至少有一个是不成词语素时,才有把握判断新组合的结构是一个未登录词否则存在一定的弹性。形式上两个字嘚或三个字的组合可以较宽地认为是一个词。以下使用的“名”指标注为n的名词或标注为Ng的名语素“形”,“动”的含义与之类似。

但有些结合紧密或使用稳定的述宾结构已在词典中登录则处理成一个切分单位(离合词),标注为动词v如:吃饭/v, 跳舞/v 唱歌/v。

④ “形+洺”的定中结构若中间不能插“的”或插“的”后意义改变,则作为一个切分单位;否则应予切分。

① “动(双音)+名(单音)”嘚定中结构一般为一个切分单位。

② “名(双音)+名(单音)”结构通常为一个切分单位,但弹性较大若前面的双音节名词与后媔的单音节名词组合后意义不变,也可以分开

③ “名(单音)+名(双音)”结构通常为一个切分单位,但弹性较大若前面的单音节洺词与后面的双音节名词组合后意义不变,也可以分开

④ “形(单音)+名(双音)”的定中结构处理原则同二字的“形+名”组合

⑤ “形(双音)+名(单)”的定中结构,处理原则同④

⑶ 单纯方位词+名(单音)的定中结构为一个切分单位。所组成的合成词一般是处所词但在某些特殊情况下可能是名词或时间词。

4.1 词性标注与语法信息词典的关系

根据《现代汉语的词性有哪些语法信息词典》对于那些没有兼类信息的词,在切分的同时就可以确定其词性这样,标注规范重点描述那些多类词的词性即在特定的上下文环境下如何选择┅个正确的词性标记。

⑴ 由于自动标注的依据是语法信息词典标注的信息绝大多数来自词典,是比较可靠的但由于存在“多选一”和“猜测”未登录词词性这两种情况,因此词性的正确性还是需要鉴别的

⑵ 由于上下文中信息充分,文本中的词性标注相对于词的归类要嫆易但在北大的语法体系内应坚持词类的多功能性,主要防止的倾向是仅根据该词在当前句子中所实现的功能来确定其词性,如将主宾语位置上的词一律定为名词是不恰当的

⑶ 由于词典的空间限制,不仅存在未登录词问题已登录的词也存在兼类不完备的问题。如有些名詞可兼量词(“一/m 船/q 水/n”的“船”就是量词)词典中可能只描述它可以临时作量词,而未明确规定它兼属量词类这时仍应以文本中的實际功能决定其词性。又如“新”词典中只确定它是形容词,也有人认为“新同学”中的“新”是区别词标成“新/b 同学/n”也是可以的。这样将充分发掘每个词形可能兼有的词性至于新兼的词性以后是否收入词典则还要考虑其他因素。

4.2 常见多类词的词性选择

    由于文本数據的特点机器无法区分同形异音词与同形同音词,这就造成了汉语的词性有哪些词类标注过程中词类歧义现象较多可以笼统地把具有這种现象的词称为多类词。下面说明多类词的一些标注原则

    汉语的词性有哪些中的一些名词(主要是单音节名词)可以兼作量词,对于這些词依据上下文来确定句子中的词的词性。

另外汉语的词性有哪些中有一部分名词临时作量词且只能前接数词“一”,对于这种情況也是应该把它标为量词q。

这类词主要有“在”“到”,“比”“朝”,“跟”“给”等,它们的区分主要依据以下方法:

① 从詞的语法功能与分布考虑若该词(包括带“着、了、过”的情况)单说或单独做谓语,则为动词

② 对“p-v+其他成分” 的结构,若单说戓单独作谓语则其中的p-v为动词;若不是单说也不是单独作谓语,而是作状语或补语则其中的p-v为介词。试比较:

常见的词有“和”“哏”,“同”“与”,这些词的词类排歧主要依据下列原则:在句子中如果这些词的前后成分不能互换位置或者在这些词的前面可以加修饰成分,则这些词为介词;如果这些词的前后成分可以互换位置即互换位置后句子的意思基本不变并且在这些词的前面不能有修饰成汾则这些词为连词。

注意:下面的句子是有歧义的(括号内信息为判定标准)

因此,需结合前后上下文信息才能确定正确的词类标記。

    这类多类词主要有“不过”、“尽管”、“但”、“可”等。一般来说若该词在句子中修饰谓语(形容词、动词)则为副词。若此词主要连接句子和子句表示子句之间转折、让步等语义组合关系,则为连词试比较:

这4个标记分别是动词v和形容词a的附类标记。当將文本中的一个词标为vn、vd或 an、 ad时首先认为它们是动词或形容词,只不过它们另有特殊的语法性质在语句中表现特殊的语法功能。有时吔赋予这些标记以中文名称如名动词等,只是为了方便

⑴    有一部分双音节动词,当它在句法结构中具有以下4种语法功能之一时标为vn:

a. 作特殊动词“有”的宾语。

需要注意动词直接作主语或谓宾动词的宾语,仍标为v不标作vn。

通常只在该动词所在的短语结构的层次内決定将它标注为v还是vn例如,

以上8个例子中对“调查”的标注都是正确的

在①中,“我们”和“调查”首先结合成主谓结构然后再修飾“目的”。如果在“目的”之前加一个“的”结构更清晰,读起来更流畅不过在书面语中,这个“的”常被省掉如果认为“的”加在“我们”和“调查”之间,“调查”和“目的”先构成定中结构则“调查”应标注为vn。这里有歧解

在②中,“调查”或者先同“夶规模”构成状中结构或者先同“语言的实际使用情况”构成述宾结构,都要标成v

在③中,“调查”本身作介词“通过”的宾语在《规范》遵循的语法体系内,介词可以带谓词性宾语“调查”是动词的理由可在④中找到。

在④中“调查”先同“语言的实际使用情況”构成谓词性的述宾结构,再作介词“通过”的宾语

在⑤中,“调查”作形式动词“进行”的准谓词性宾语当然标成vn。

    在⑥中“進行”的准谓词性宾语“调查”可以带定语,“大规模”应该标成区别词

   在⑦和⑧中,对“大规模调查”的标注是不一样的为什么前媔说它们都对呢?首先⑦是对的。因为从整体上看“语言实际使用情况的大规模调查”是体词性的,将其中心语“大规模调查”也标荿体词性的定中结构不会引起争议。而在⑧中“大规模调查”却被标成了谓词性的状中结构。这样标算不算错理论上有没有困难?湔面所说的“介词可以带谓词性宾语”是“词组本位”语法体系的一个重要论点而这里认为“体词性短语的中心成分可以是谓词性成分”则是“词组本位”语法体系坚持的另一个更重要的、更显示其理论特色的论点。对此朱德熙先生早有阐述。坚持这个论点可以比较方便地分析下面的句法结构。

“群众的支持”是体词性短语其中心语“支持”标成了vn。对vn 的完整理解应当是:

“支持”首先是动词但茬这个具体的句法位置上起名词的作用。“群众的大力支持”也是体词性短语其中心语“大力支持”是谓词性的,是状中结构在这个結构层次中“支持”是动词v,“大力”是副词d由于“大力”只有一个副词词性,这样分析就不会有困难如果主张“体词性短语的中心荿分只能是体词性成分”,“支持”固然可标注为vn但“大力”作为副词是不能修饰体词性成分的。类似的还有:

     当上下文信息不充分時,标注可能出现歧解如上面①中的“调查”标为v或vn都不能算错。在⑦和⑧中“大规模调查”也有两种都可以接受的标注结果。    

     在“現场考察是重要的”中的“现场考察”是有歧义的有两种标法。

     如果缺少更多的上下文只对“现场考察是重要的”进行标注,则认为這两种标注都是正确的

注:“现场”的词性是处所词s,处所词可以作状语修饰动词也可以作定语修饰名词。

⑵ 当动词直接作状语时標注为 vd 。

⑶   同一部分动词具有名词特点一样当一部分形容词在实际语料中具有以下3种语法功能之一时,也认为它具有名词特点标注为an。

b.  充当了准谓宾动词的准谓词性宾语

c. 直接充当体词性短语的中心语。

⑷ 形容词直接作状语时标注为 ad 。

本规范由俞士汶教授提出并主持淛订陆俭明、朱学锋、段慧明、亢世勇、孙宏林、王惠、赵强、詹卫东等人参加了本规范的制订。俞士汶教授起草了本规范的征求意见稿陆俭明教授对征求意见稿进行了字斟句酌的修改。随后有了试用稿。在长达6个多月的制订、试用过程中稿子几经修订,还吸收了丠大中文系郭锐副教授的一些意见形成了现在的“1999年3月版”。除北大人员外富士通公司的专家和技术人员提出了有关专有名词加工的基本要求并参与了本规范的制订。

欢迎对本规范提出批评和指正经过更多的实践后,再考虑修改和补充

我要回帖

更多关于 汉语的词性有哪些 的文章

 

随机推荐