为什么参考文献中国人名只保留了一个英文文献没有期号

必也正名:中国人名避讳的

避讳是人类各民族普遍存在的文化现象,但中国的人名避讳因其历史渊源和社会文化内涵而独树一帜。其间既有宗法政治文化的寻租,也有伦理本位文化的浸染,又有民族综合性思维文化的根本性影响,进而使中国人名避讳呈现出特有的文化机理。避凶求吉的本能心理和避名的巫术思维使得人名禁忌得以产生,而基于农耕文明基础上的宏观把握的思维方式、人伦型的文化模式以及以宗法色彩浓厚和君主专制高度发达为主要特征的中国传统社会政治结构,导致了人名属性的异化:伦理化、权威化和工具化,进而使人名避讳不仅成为人们的一种存在方式,还演化为上层建筑。文化心理具有惯性作用,名讳心理经过千百年来的积习成俗,已经成为民俗文化的一部分;和西方人无论尊卑贵贱、年龄长幼均可直呼其名不同,即使是今天的中国人,对尊长者、为官者的名字也讳莫如深,视直呼他们的名字为大不敬,名讳已经内化成一种民族心理模式。

人名避讳;宗法制度;伦理本位;文化补偿;文化惯性;思维方式个框线编号标题

辨物取名,是人类进入语言时代的重要工作;但是,既有的名称却忌讳使用,这就是语言避讳。语言避讳是出于畏惧、迷信、憎恨等心理,或是由于礼制、政治等原因,在语言文字中回避相关名物的现象。人名避讳是一种常见的语言避讳,也是人类各民族普遍存在的文化现象。但中国的人名避讳在人类的避讳文化中独树一帜,形成了其特有的名讳文化。有关中国避讳的研究,可谓历史悠久、文献丰富、成就巨大,但关于中国人名避讳的形成机制,学界一直缺乏深入、全面的分析和研究。要说明中国人名避讳的文化机理,必须以跨文化的视角,从历史渊源、社会制度、文化模式和中国人特有的思维方式等方面进行综合性的分析。

中国人名避讳的历史渊源

避讳是人类各民族共有的文化现象,如美国路易斯·亨利·摩尔根的《古代社会》、法国列维·布留尔的《原始思维》和列维·斯特劳斯的《图腾制度》、英国J.G.弗雷泽的《金枝》等人类学家的著作都揭示过一些原始禁忌(taboo)。至于人名避讳(name avoidance),日本学者穗积陈重在《实名敬避俗研究》中甚至搜集到世界120多个古老民族的人名避讳习俗[1]。对此,英国的弗雷泽解释道:“原始人把自己的名字看作是自身生命的重要部分,从而极力隐讳自己的真名,恐怕给不怀好意的人知道后用来伤害自己。”[2]郑振铎先生在《汤祷篇·释讳》中也指出:“远古的人,对于自己的名字是视作很神秘的东西的。原始人相信他们自己的名字和他们的生命有着不可分离的关系。他们相信,他们的名字乃是他自己的重要的一部分,别人的名字和神的名字也是如此。”[3]古代中国人所施行的巫术,即是把人的名字写在布偶或纸人上,用来代替所仇恨的人本身,并通过诅咒名字、对布偶或纸人千刀万剐以达到巫术目的。鲁迅先生《三味书屋》所载“美女蛇”传说:人的名字若被呼叫,一旦答应就会被吃掉;《西游记》中的“银角大王”一旦呼叫某人名字,被呼之人如果应答,就会被吸入金角大王的宝葫芦中。以上二者虽然是文学作品,但文学是人的思维活动的结果,反映了中国人曾有把名字看作人本身的巫术思维方式。处于蒙昧状态的原始先人还不能正确认识自身创造的语言符号和它代表的客观事物之间的关系,基于畏惧心理和巫术思维,对名实关系进行了错位解读:把语言之“名”迷信为客观之“实”,以语言符号的能指(signifier)等同于祸福本身,进而在语文生活中或在行为方式上回避所畏惧、憎恨、崇拜的名物;或者防止被巫术加害就刻意隐讳真名,这就是原始避讳。

为便于说明中国人名避讳的历史渊源,依据主要禁忌对象的变迁,我们将中国古代避讳的历史大致分为原始时期、殷商时期、西周以迄清末等3个阶段。

(一)原始时期:以图腾禁忌为最高形式

如前述,忌讳的产生和原始人类的禁忌(taboo)有关。考古发掘和神话传说中有很多有关中华先人禁忌的资料,如信奉萨满教的鄂伦春族人出猎时不能在篝火上洒水,他们认为洒水会触犯火神,就不会打到野兽。为什么要禁忌一些言行呢?当然是基于原始先人对一些事物的恐惧、迷信、崇拜或厌恶心理。限于社会发展水平和认知能力,原始人类不能解释各种自然现象、生理现象和社会现象(比如疾病、死亡、自然灾害等),基于恐惧心理,他们就把这些现象归因于某些神秘或超自然的力量,从而在现象和神秘力量之间建立起必然联系,这就是原始迷信。西格蒙德·弗洛伊德认为,“禁忌的来源是归因于附着在人或鬼身上的一种特殊神秘力量(玛那)”[4]。因此,对于那些威胁或保护原始人类生存和安全的神秘力量,他们自然会本能地回避或禁忌。

西格蒙德·弗洛伊德指出,“一种对某种物体产生畏惧心理的习惯,而这种畏惧常常是与宗教崇拜的思想或行为有关”[4](P37)。原始宗教里对某些神秘力量的崇拜,都和原始迷信有关,如中华先民的自然崇拜(如雷电风雨、日月星辰、山川大地等)、生殖-祖先崇拜和图腾崇拜等。图腾崇拜是原始宗教的最高形式,基于类比、联想等原始思维方式和原始观念,先民往往把本部落和具有神秘特点的某种动物、植物或事物联系起来,视它们为亲人、祖先或保护神,并作为崇拜对象,即所谓“图腾”。比如牛是佤族的图腾,该族人视牛为其祖先和救命恩人;相传黄帝就率领以熊、罴、貔、貅、貙、虎为图腾的6个部落与炎帝决战;闻一多先生也指出,龙是原始夏人的图腾,凤是原始殷人的图腾[5]。图腾崇拜是“动物崇拜同人们对氏族祖先的追寻相结合的产物”[6],是人类抽象思维发展的结果,比如“龙”就是由于氏族、部落的融合而虚构出兼具蛇、兽、鱼等多个原来氏族图腾形象的一种图腾。与图腾文化相联系,原始先人就会禁止杀害、食用、触摸甚至是提到所敬重的图腾事物,如鄂伦春族人以熊为图腾,在语言中就不能直接称呼熊,而叫“阿玛哈”(即“伯父”的意思);蒙古族先人曾以狼为图腾,其部落布里亚特人就称狼为“天狗”。

原始禁忌基于趋利避害、避凶求吉的本能生存意识,以恐惧或迷信心理为起点,以神秘力量为归因,以图腾禁忌为最高形式。我们把原始禁忌的时期称为图腾时代。

(二)殷商时期:以神名避讳为主

夏代去蒙昧时代不远,有关避讳的史料阙如难考。商人最早在山东半岛一带从事游耕农业,约公元前14世纪时,第20代君王盘庚率领商人迁徙至中原一带并定都殷(河南安阳),此为历时273载、传位8代12王的殷商之始。安定的农业生产生活使商代的文明大幅提高,成熟而成体系的甲骨文字则是他们进入文明社会的标志;但他们尚未摆脱蒙昧时期的以神秘性和笼统性为特征的原始思维方式,尊鬼神,重巫术,从而体现出鲜明的神本文化特色,正如王晖先生所谓:“神权独尊、神权政治的商代是神本时代”[7]。

殷商时期的崇拜对象包括自然、祖先和神鬼,但以神鬼地位为至尊,《礼记·表记》:“殷人尊神,率民以事神”。鬼神是商人虚构出的“新图腾”或“总图腾”,适应了其时氏族社会瓦解、统一的王权社会形成之需要,这种鬼神崇拜实则是图腾崇拜的新发展。商人观念中的神以统领各种自然力和诸神、主宰人间一切事务的“帝”或“上帝”地位为最高,朱凤瀚先生就说:“上帝可以理解为是商人幻想出来的在千变万化的自然与社会现象后面,对这些现象进行操持的主宰之神,是这些现象产生与发展的本源。”[8]为听命上帝,按其旨意行事,商人凡事都向“上帝”占卜吉凶。商人以其发明的甲骨文字作为卜筮的工具,殷墟所发现的10多万片甲骨,几乎全是祭祀和占卜的记录。“中国古代的文字,不仅是人与人往来的工具,也是人与鬼神之间的媒介。……占卜时,贞人常将所贞问的事刻在龟甲或牛骨上,有时并将应验的事契刻在所卜问的事件之后”[9]。而作为最高统治者的商王掌管着通神祭祀的权力:“我其祀宾,作帝降若。我勿祀宾,作帝降不若。”(《殷墟书契前编》)

与崇拜、畏惧心理导致图腾禁忌相类似,鬼神崇拜也会产生神灵禁忌。商人对主宰万物的“上帝”是敬畏和忌讳的,(宋)张世南《游宦纪闻》卷三:“殷人以讳事神,而后有字。”经过神圣的求卜过程,那些自然物也就获得了神圣的象征意义,它们呈现出来的形状不是人为的结果,而是神灵和上苍的赋予,是神灵的启示或告诫。而商王作为唯一通神的最高祭司,商人对君权的敬畏则是现实而直接的:卜辞中,贞人或史官都直记其名,而对于商王,则有“王占曰”“王卜曰”、王田于某所等辞,均不直斥王名以避讳,并且体现出神权和君权共同主导社会生活的特征:

汝则有大疑,谋及乃心,谋及卿士,谋及庶人,谋及卜筮。汝则从,龟从,筮从,卿士从,庶民从,是之谓“大同”。身其康强,子孙其逢,吉。汝则从,龟从,筮从,卿士逆,庶民逆,吉。卿士从,龟从,筮从,汝则逆,庶民逆,吉。庶民从,龟从,筮从,汝则逆,卿士逆,吉。汝则从,龟从,筮逆,卿士逆,庶民逆,作内吉,作外凶。龟筮共违于人,用静吉,用作凶。(《尚书·洪范篇》)

上面一段记载的是商人重大事项的决策过程。由“王、龟、筮、卿士、庶民”等“五谋”组成决策集团,如若龟、筮一致同意,再加上其余任何一方的赞同,则一定可以行事;如果龟、筮一致反对,即使其余三者都赞同,也不可行事。商代的政治决策都是通过占卜来进行,体现的是神权与政治的两相结合,但神权起着决定性的作用。

商代以对神权的敬畏和忌讳占据主导地位,因此,我们把殷商避讳的时期称为神本时代。

(三)西周以迄清末:以人名避讳为主

西周及其以降,宗法制度建立,君权取代神权而具有了不二地位;《周礼·春官·占人》:“凡卜筮,君占体,大夫占色,史占墨,卜人占坼。”可见在周代,相当于龟、筮的史、卜人只掌管“墨”“坼”等占卜的前期工作,而决策权则掌握在君王手里,即所谓“君占体”。

“周”原是一个历史悠久、偏居渭水以北并长期附属于商的农业部落,强大后武王克商,入主中原,是为西周。周公摄政,其命维新,建立起以家族农业生产方式为基础、具有血缘道德制约和政治权力统治双重功能的宗法制度,从此奠定了中国文化的宗法模式和格局。这种宗法制度实行家族统治,周天子作为天下大宗,以宗族血缘的亲疏划分天子、诸侯、卿大夫、士等4个等级来封邦建国。天子的嫡长子继承天子之位为大宗,庶子则被封为诸侯为小宗;诸侯的嫡长子继承诸侯之位为大宗,庶子则被封为大夫为小宗;卿大夫的嫡长子继承卿大夫之位为大宗,庶子则被封为士为小宗。纵观中国古代史,这种制度虽然受到秦代郡县制的短暂冲击,但由于它和家族式的小农自然经济相适应,秦以后又被历代袭用并加以完善,沿垂2000余载。因此,注重血缘亲疏关系、强调伦理秩序的宗法观念也深切浸淫渗透于民族意识、民族性格和民族习惯之中。

宗法模式的特点是土地分封制和宗法制结合、政治和伦理结合,它讲求上下尊卑、长幼有序,亲疏有别;于是尊者、长者、擅权者就通过其人名禁忌来强化这种伦理秩序和等级制度,这就是人名避讳。

西周初期的人名避讳还和商代的鬼神崇拜相联系,《礼记·祭法》:“人死曰鬼。”《吕氏春秋·顺民》:“天神曰神,人神曰鬼。”只有在人死之后,出于对鬼神的尊敬,才避死人的名讳,《左传·桓公六年》:“周人以讳事神,名,终将讳之。”《礼记·檀弓下》也说:“卒哭而讳,生事毕而鬼事始也。”郑玄注:“敬鬼神之名也,讳,辟(避)也,生者不相辟(避)名。”意思是人死后变成鬼神,出于敬畏,须避其名讳;但是,随着封建集权政治的加强和封建礼制的渐趋森严,活着的尊长者、擅权者逐渐也被赋予了鬼神的地位,其名必须回避。

西周以降的避讳以基于礼制和政治的敬讳为主,其形成于西周,风行于秦汉,繁盛于唐宋,延垂至清末,历时2000余载;综观历代人名避讳,时宽时严,但总体趋势是渐趋森严(详见表1)。我们把西周以迄清末以人名避讳为主要特征的避讳时期称为人本时代。这里的“人本”,和 “以神名避讳为主”相对,指的是“以人名避讳为主”,区别于“人本主义”。

由基于巫术思维的图腾禁忌为主到以神名避讳为主,依靠的是宗教的力量;而避讳对象由以神为主到以人为主,无疑是一场革命,即革了神权的命,王国维指出:“中国政治与文化之变革,莫剧于殷、周之际。”[10]而这种革命如果没有制度的力量,肯定是无法完成的。宗法制度的强大政治能量,不在于周人其命维新的政治魄力,而是决定于小农自足经济的生产方式与宗法制度的高度适应性。

中国人名避讳的文化机理

从必也正名,再到人名避讳,其间渗透了中国政治、伦理和思维文化的诸多内涵:既有宗法政治文化的寻租,也有伦理本位文化的浸染,又有民族思维文化的根本性影响,进而使中国人名避讳呈现出特有的文化机理。

(一)宗法政治生态的人名寻租:

避讳对象由神扩大到人,为后来人名避讳的演化发展迈出了至关重要的一步。宗法专制的渐趋森严,也为名讳的演进提供了制度温床。

殷商时期仍“君权神授”,殷周之际还“敬天保民”,而随着西周宗法制度的完全建立,也实现了神权向君权的转移。宗法制度兼备政治权力和血亲道德约束的双重功能[11],政治和伦理的结合也使名讳成为权力的组成部分。肇始于西周的人名避讳也是一种权力话语,体现了特权阶层对鬼神避讳的借重。这种权力话语产生于中国特殊的政治文化:君主至上、专制主义、官本位的政治模式需要借助擅权者的人名避讳来强化权力和权威。法国哲学家米歇尔·福柯阐释了这种权力和话语的共生关系,“话语即权力,人通过话语赋予自己权力”[12](P3)。

和古希腊以商品交换为纽带的城邦制相比,以家族为单位的小农经济高度分散、自闭、羸弱,更需要大一统的君主集权:对外抗御游牧民族,对内维系既有土地制度的安定;即便是礼崩乐坏的东周时期还仍旧需要“尊王攘夷”。《孟子·梁惠王上》曾载梁惠王问政于孟子:“天下恶乎定?”答曰:“定于一。”孟子认为天下归于一统方能使之安定。“定于一尊”的现实需要使得古代中国的皇帝所拥有的是集政治、法律、军事、思想、宗教、伦理、文化等权力于一身的“普遍皇权”(universal kingship);为从深层支持以上诸多权力的合法性和合理性,必然要寻求政治话语的制高点,而借重既有的鬼神名讳以神化自身权力应当是其“正当性”水到渠成的秩序化表达。

“大一统”的政制也是宗法专制集权产生的温床,进而不断演进,自上而下,形成了延续2000多年的封建政治文化生态:皇权至上、专制主义、人治思想、官本位、宗法关系相辅相成。而国讳、官讳、家讳、圣讳等名讳正是这种生态所催生出的一种权力话语:“权力总是社会规范的叙述者,权力通过语言来叙述,并把‘他’的权力写进语言。”[13]语言符号表达社会结构,社会结构也能生产语言表达,即所谓“符号权力”(symbolic power):不仅人伦关系须借助名讳来规范,政治权力也要借重名讳来维护和强化,即“政者,正也”(《论语》)、“名以正体”(《颜氏家训》),其路径则是“夫名以制义,义以出礼,礼以体政,政以正名”(《左传·桓公二年》)。

以宗法为基础的君主专制渐趋发达也使得人名避讳愈演愈烈。先秦时名讳还较为宽松,如规定“二名不偏讳”“礼不避嫌名”“诗书不讳、临文不讳”(《礼记·曲礼上》),等等。但秦汉以降,随着皇权的强化和礼制的渐趋森严,名讳也渐为严苛。如三国时,始起避嫌名之风;而且不仅避其名,还要讳其字。唐代开始把名讳制度写进法律,而且对于二字之名也须逐字避讳。宋代名讳更为繁复,仅科考时必须避讳的文字就达数百个。明清时还利用人名避讳罗织罪名,大兴“文字狱”。文字狱是人名避讳发展的极端形式。

(二)伦理本位文化的名讳依存:

中国宗法伦理的起点是“万物本乎天,人本乎祖”(《礼记·郊特牲》)。这与农耕生产方式有关:“万物本乎天”的认知是基于上天赐予的风调雨顺使得农业五谷丰登的感恩,或是基于相反结果的畏惧;农业生产需要经验和技术的传承,而长者所积累的生产经验和农业技术让其在社会生产中具有尊贵的地位,加上早期先民的生殖崇拜传统,从而形成了中国人的孝亲尊祖观念。脱胎于古氏族社会的血缘关系由于农业生产协作的需要而得到加强,进而以之组成了新的碎片化的小农经济单位:家族。家族伦理是维护宗族内部秩序的主要工具。这种家族的伦理模式是:以血缘关系(父子、兄弟、夫妇等“六亲”,父族四、母族三、妻族二等“九族”)为基础,以孝亲尊祖为观念,以家长等级制为中心。这种适应小农经济的伦理模式由于“家国同构”的宗法格局而上升蔓延至整个社会,自西周以降延垂数千载;由于小农经济的绝对主导地位,与之相适应的宗法伦理也深深根植、渗透于数千年的社会结构之中,并被借重以维护封建统治,进而出现政治伦理化的格局。

中国文化是一种伦理型文化,而西方文化是一种宗教型文化,前者适应了农耕生产方式,后者则是航海、工商业生产方式的产物。梁漱溟认为,“宗教问题是中西文化的分水岭”[14]。观察一种文化,至少须有3个视角:宗教、伦理和政治,中西文化都是宗教、伦理和政治三者相统一的文化。中国文化的特点是宗教政治化,政治伦理化,三者统一的基础是伦理,冯友兰先生曾引述美国汉学家卜德的观点,“中国文化的精神基础是伦理(特别是儒家伦理)不是宗教(至少不是正规的、有组织的那一类宗教)”[15]。中国文化以天人合一为哲学基础,其特征是自然与人文的结合,宗教与伦理的结合,讲求人文主义;西方文化的特点是政治宗教化,伦理宗教化,三者统一的基础是宗教。西方文化以天人两分为认识论基础,主张主体、客体对立,宗教与科学两元,讲求理性精神。

中国宗法伦理以儒家礼制为基础,以“三纲五常”为框架,讲求尊卑贵贱,等级森严,即所谓“君君臣臣、父父子子”(《论语·颜渊》),或者“父父子子、兄兄弟弟、夫夫妇妇”(《易经·家人卦》);《礼记·祭统》将宗法的家国秩序概括为鬼神、君臣、父子、贵贱、亲疏、爵赏、夫妇、政事、长幼、上下等“十伦”,呈现出宗法社会结构的“差序格局”(费孝通语):和西方社会结构像“一捆一捆扎清楚的柴”的“团体格局”不同,中国传统社会结构像“石头丢在水面上所发生的一圈圈推出去的波纹”,是从自己推出去的和自己发生社会关系的那一样人里所发生的一轮轮波纹的差序。……伦是有差等的次序。……人和人往来所构成的网络中的纲纪,就是一个差序,也就是伦[16]。

中国伦理本位文化的重要表现就是儒家所提倡的“礼治”:以儒家伦理治理国家,“礼以体政”(《左传》),即所谓“半部《论语》治天下”。“礼”以别异,如《大戴礼记·哀公问》中孔子所言:“民之所由生,礼为大,非礼无以节事天地之神明也,非礼无以辨君臣、上下、长幼之位也,非礼无以别男女、父子、兄弟之亲、婚姻疏数之交也。”《礼记·乐记》亦谓:“礼,天地之序也……序,故群物有别。”因此,既以“礼治”,必然要明贵贱,定尊卑,分亲疏,别上下,序长幼,即《荀子·君子篇》所谓:“贵贱有等,则令行而不流;亲疏有分,则施行而不悖;长幼有序,则事业捷成而有所休。”而这些又要通过定“名分”来实现,《荀子》深刻揭示了定“名分”和礼治的相互关系:

制名以指实,上以明贵贱,下以辨同异。(《荀子·正名》)

礼者,贵贱有等,长幼有差,贫富轻重皆有称者也。(《荀子·富国》)

《春秋繁露》亦云:“名者,所以别物也。”“名,明也,名实使事分明也。”《国语》韦昭亦注曰:“名,为尊卑职员之名号也。”可见,宗法时代的“名”已经标签化了,承担了区分其“差序格局”的伦理功能。

“必也正名乎”(《论语·子路》),辨正名称、名分是儒家伦理和礼制的重要内容,正如胡适先生所谓“正名主义是孔子哲学的中心问题”[17],继而形成了一套成熟的维护宗法秩序的“正名”理论。人的名字作为“名”的重要组成部分,也被赋予了丰富的人伦内涵。由于尊长者、擅权者的名字和其尊卑地位相联系,从而具有了唯一性、排他性,他人擅自使用、称呼被视为大逆不道。人名避讳成为宗法“正名”体系的重要组成部分,也是尊长、擅权者抢占伦理制高点的重要手段。可见,“正名”其实是为了“正实”,即借助对名义的规定来让人们确信某种伦理秩序的合理性。

中国的人名避讳发端于宗教,伦理本位的文化使之以礼制的形式扩大到伦理、政治层面(宗教政治化、政治伦理化),进而成为社会心理的结构之一。而西方的名讳虽也源于宗教,但其宗教本位的文化将主体和客体对立,认为宗教和科学两元、人与神两分,这样就使其人名避讳一直停留在宗教层面,甚至仅限于宗教领袖的名讳;名讳也从来没有进入伦理或政治领域。

符号即意义,人名的基本属性是用以指称的语文符号;但是,符号是“被认为携带意义的感知”[18],中国伦理本位的文化和封建宗法专制使得人名的属性发生了诸多异化。

一是伦理化。如前述,宗法制度下的人名体现了远近亲疏、上下尊卑和长幼有序,成为人伦关系的载体之一。而通过尊长者的人名避讳,则可以强化这种伦理关系。

二是权威化。在社会政治领域,擅权者的名字作为权力的符号又被权威化,进而承载了诸多政治关系;通过他们名字的禁用如国讳、官讳、圣讳(所谓圣人实则是权力的代言者),则可以强化其权威和政治地位,以维护其统治。

三是工具化。宗法时代,擅权者的名字还可以用作政治斗争的工具,正如法国哲学家米歇尔·福柯所言:“话语就是人们斗争的手段和目的,话语即权力。”[12](P3)如清代雍正帝认定查嗣廷为大臣隆科多的死党,为铲除隆科多的势力,便借口查嗣廷主持江西科举考试时所出“维民所止”的题目中“维止”二字是去“雍正”之首之意,将查嗣廷革职问罪。乾隆年间,内阁学士胡中藻参与朋党之争,为乾隆帝所恶;后者遂借胡中藻所出试题“乾三爻不象龙”中有“乾龙”二字,认定是影射乾隆皇帝,胡氏也被处以极刑。

(三)民族思维方式的特殊存在:

1.补偿机制:当宏观思维遭遇宗法等级制

思维方式对文化的影响是根本性的,而一个民族的思维方式则与其早期的生产方式有关。中国所处的内陆环境、适宜的农业条件决定了其早期先民的农耕生产方式;早期农业生产靠天吃饭,周期性、季节性和地域特点都很强,因此必须首先上观天象、下察地理,宏观上对风调雨顺的把握要比微观上对土地的精耕细作来得更为稳定而高效,因为前者更能保证五谷丰登;相对封闭的大陆环境,使得先民在劳动中产生了“天圆地方”的宇宙认知,习惯以“四海之内”“普天之下”的宏观视角来思考问题;农业生产必须以基于血缘为基础的家族成员的集体参与和分工协调才能得以完成;而农作物生长的规律性和农业生产的技术性又要求直觉观察和经验积累。中国先民正是在内省保守的环境中和长期的农业生产过程中形成了“天人合一”的整体观念和直觉把握世界的思维方式。

这种思维方式偏重综合、弱于分析,所形成的概念是模糊的,所做的判断是直觉粗放的;但宗法制度的建立又需要把每个人都区分出三六九等、远近亲疏。当宏观思维遭遇微观繁杂的宗法制度,自然会显得无能为力,难以驾驭,人名避讳在一定程度上就弥补了这种思维缺陷所导致的不足。生理上的代偿是指当一个器官发生病变时由其他器官来代替、补偿其功能。与之相类似,文化生态中也有这种替代、补偿机制:当一种文化生态系统中的某个文化因素由于自身的缺陷而无法维持该系统的动态平衡时,便会衍生出其他文化现象以补偿因这种缺陷而所不具有的功能。从这种意义上看,借重并强化先人既有的人名避讳习俗来明确上下尊卑和长幼有序,也是文化生态的补偿机制在起作用。

其实,中国人的姓名结构也体现了这种补偿机制。其“姓+名”的结构模式,即宗族标志的“姓”在前、个人符号的“名”在后,体现了中国人由大到小的思维方式、重视宗族观念、轻视个人利益的价值观念。而名字中的排行字辈则强化了宗法等级:同一宗族下的辈分用不同的汉字加以区别,并在家谱中加以明确、固定,如孔子的54代孙都用“思”字做名字的辈分,55代孙则用“克”字,强化的是上下尊卑;至于同一辈分,则又多用“伯(孟)、仲、叔、季”来体现长幼有序,比如孔鲤字伯鱼,孙权字仲谋,张翰字季鹰,班固字孟坚,等等。

西方人“名+姓”的姓名结构模式,说明了他们由小到大的思维方式,强调个体利益、淡化宗族意识的价值观念。但他们的名字却没有体现尊卑长幼,这是因为与西方先民(古希腊、罗马等)的海洋环境和工商业为主的生产方式相适应,人与人之间所形成的是基于交换而形成的财产关系,这种关系培养了人们善于精打细算、长于具体分析的微观思维方式;这种精准把握的思维能力也就使他们不需要再借助人的名字甚至是人名避讳来强化人际之间本来就相对较为疏远的伦理关系或级差较小的城邦制度。

2.人名避讳:中国古人的存在方式

中国人特有的思维方式、伦理模式和宗法制度为先人的原始人名避讳提供了温床,它们互为表里,唇齿相依,致使中国的人名避讳愈演愈烈,沿垂数千载,从而形成了复杂的人名避讳系统。

(1)从避讳对象上看,包括国讳、官讳、家讳和圣讳,依次是指皇帝及其宗族的名讳,地方官吏的名讳,家族内部所遵守的父祖的名讳,孔孟等圣人、贤者的名讳。基于家国同构的制度设计,古代名讳自上而下地充斥于社会的各个方面,涉及到了每个社会成员,他们“入竟(境)而问禁,入国而问俗,入门而问讳”(《礼记·曲礼上》),从名物制度、姓氏名字、职官科举、礼仪风俗,人际交往、语言文字到日常生活,整个社会都为帝王讳、为尊者讳、为长者讳、为官者讳、为亲者讳、为贤者讳,从而使名讳内化到社会心理层面,成为人们存在的基本方式之一。

(2)从制度上看,名讳不仅是道德层面的约束,《礼记》《仪礼》《周礼》等中的相关规定已将其礼制化;民间避讳之风盛行,避家讳、官讳是最基本的社交礼仪,名讳已经礼俗化。而且还有法律层面的规定,即上升为国家意志。自唐代以降,直至清代,历朝法律如唐代《唐律疏议》、宋代《宋刑统》《淳熙重修文书式》《绍熙重修文书式》、明代《明律》、清代《大清律》等,对于哪些须要避名讳,犯了讳如何处罚,都有很多具体的条文规定。

(3)从名讳的方法上看,仅文献上的避讳方法就有省阕、代字、改称、更读、缺笔、作“某”、作“某甲”、标“讳”、变体、草书、拆字、连字、曲说、析言、倒言、填讳、覆黄、覆绛等18种。在交际层面,人们通过称氏不称姓、称字不称名、称谥不称名、改姓更名、用繁杂的亲属称谓语替代名字等多种方法以避名讳。

这种繁复完备的人名避讳系统在世界文化史上是独有的,避讳已成为中国古人的存在方式之一。相比之下,由于文化模式和社会制度等的不同,西方原始先民的名讳习俗不断淡化甚至式微;如今的西方人几乎不避名讳,无论尊卑贵贱、年龄长幼,均可直呼其名。

3.文化惯性:一种民族心理模式

生活在同一环境的族群,就会形成相似的集体无意识的文化沉淀。文化的积淀形成传统,传统具有历史性和遗传性;虽然中国名讳赖以存在的宗法制度已经消亡,但文化心理具有惯性作用,名讳心理经过千百年来积习成俗,已经成为民俗文化的一部分,即使是今天的中国人,对尊长者、为官者的名字也是讳莫如深,视直呼他们的名字为大不敬。可见,名讳已经积淀成为一种民族心理模式(或者说是一种民族思维定势)。

名实关系一直是中国古代哲学的重要范畴,先秦的诸子百家对之有着不同的理解,形成古代哲学的名辩思潮,如儒、墨、道、名、法等诸家的孔子、荀子、墨子、老子、庄子、公孙龙、惠施、管子都探讨过“名”的概念、分类以及名实之间的关系等一系列的“名学”问题。如孔子认为“名不正,则言不顺;言不顺,则事不成”;老子认为“无名万物之始,有名万物之母”;管子认为“名者,圣人之所以纪万物也”;庄子认为“名者,实之宾也”;荀子提出“制名以指实”的原则,更有“名无固宜,约之以命,约定俗成谓之宜”的经典论述;《吕氏春秋·正名》则认为“名正则治、名丧则乱”;等等。“名学”语境下作为人的名字也被赋予了很多人文内涵,如《左传·桓公六年》:“名有五:有信、有义、有象、有假、有类。以名生为信,以德名为义,以类命为象,取于物为假,取于父为类。”后来的《颜氏家训》总结说:“古者,名以正体,字以表德。”由于儒家提出的“正名”理论主张以礼为原则做到名实相符,进而“以名为治”,维系既有的礼制,其鲜明的政治倾向契合了封建统治的需要而受到独尊,“正名”理论遂光大成可以治理天下的“深察名号”,如董仲舒所谓:

治天下之端,在审辨大;辨大之端,在深察名号。名者,大理之首章也。……深察王号之大意,其中有五科:皇科、方科、匡科,黄科、往科。合此五科以一言,谓之王。王者皇也,王者方也,王者匡也,王者皇也,王者往也。(《春秋繁露·深察名号》)

由于“名”的作用被无限夸大,被赋予了太多的人文内涵和社会意义,进而抽象升华为一个决定“实”的哲学概念:名为第一性,实为第二性。这就为后来人名属性的异化提供了哲学基础,甚至可以作为名讳这种民族心理模式形成过程的重要注脚之一。

基于本能的畏惧心理和蒙昧的巫术思维催生了人名禁忌,宗法制度和封建伦理出于维护统治的需要而寻租人名避讳,使得人名发生异化:不仅承载复杂的人伦关系,而且成为古代中国政治权力的重要组成部分,进而演化为上层建筑。当民族宏观思维遭遇伦理本位文化和宗法专制,人名避讳不仅难以避免,而且由于文化的惯性作用使其逐渐内化成一种民族心理模式。

这种文化机理的阐释必须基于两个视角:跨文化和跨学科,限于篇幅,本文基于以上两个视角的有关中国人名避讳形成机制的认识仅仅是粗略勾勒。而且,思维的逻辑和人名避讳的历史是有差别的统一,这种“修正的历史”在多大程度上揭示了中国人名避讳的内在必然性和历史规律性?本文于以上两端可能尚有深入挖掘、廓清的空间。

(原载《深圳大学学报(人文社会科学版)》2020年第3期)

根据卞仁海《中国避讳学史》(中国社会科学出版社2017年版)的统计,历代研究避讳的专著约有40种,含有避讳专题研究的著作有230余种,研究论文350余篇。以上研究按其内容可分为四类:一是有关各朝讳例的罗列或考证,如宋人周密《齐东野语》、洪迈《容斋随笔》、王观国《学林》,清人顾炎武《日知录》、赵翼《陔余丛考》、钱大昕《十驾斋养新录》、黄本骥《避讳录》、刘锡信《历代讳名考》、周广业《经史避名汇考》,现代学者胡适《两汉人临文不讳考》、郭沫若《讳不始于周人辨》、李德清《中国历史地名避讳考》、陈垣《资治通鉴注表微·避讳篇》等;二是避讳辞书的编纂,如清人陆费墀《历代帝王庙谥年讳谱》,现代学者王彦坤《历代避讳字汇典》、王建《史讳辞典》等;三是避讳史的研究,如王建《中国古代避讳史》、吴良祚《太平天国避讳研究》等;四是综合研究,如陈垣《史讳举例》、陈北郊《汉语语讳学》、王新华《避讳研究》和范志新《避讳学》等。上述研究也有较少的论著谈到避讳的成因问题,如王建《中国古代避讳史》解释避讳的起源问题时认为中国避讳起源于原始人的鬼神信仰,王新华《避讳研究》简述了避讳形成的原因,但都没有具体对中国人名避讳的文化机理作深入、全面地阐释,而且较为简略,缺乏跨文化的视角。

对此,吕叔湘先生曾解释说:“语言和文字是人类自己创造的,可是在语言文字的神奇作用面前,人们又把它当做神物来崇拜起来。他们用语言来祝福,用语言来诅咒。他们选用吉利的字眼做自己的名字,做城市的名字,做器物的名字。他们甚至相信一个人的名字跟人身祸福相连。”(吕叔湘《语言和语言研究》)

《史记·五帝本纪》:“(轩辕)教熊罴貔貅貙虎,以与炎帝战于阪泉之野。”

封建政治和伦理共同以“礼”的形式对名讳施以影响,因此,我们分两端论述时,谈政治会涉及到伦理,谈伦理也会涉及到政治。

犹太教一般要避犹太教上帝的名讳(周燮藩《犹太教上帝名讳考》,载《世界宗教研究》1999年第3期),而基督教、伊斯兰教甚至都不必避其宗教领袖的名讳。

神话是早期人类把握世界的方式之一,中国早期的神话如盘古开天、共工触天、女娲补天、夸父逐日、后羿射日、羲和御日、常羲沐月、吴刚伐桂、嫦娥奔月等对于天象的过多关注也是这种思维视角的反映。

Bahamonde),前四节为个人名字,倒数第二节为父姓,最后一节为母姓,简称时,用第一节名字加父姓;阿拉伯人名如萨达姆·本·侯赛因·本·马吉德·阿尔·提克里特(Saddam bin Hussein bin Majid al'Tikrit),其中萨达姆为本人名字,侯赛因为父名,马吉德为祖父名,提克里特为姓。

没有写进法律条文之前,作为“礼制”重要内容的避讳制度同样也具有法律地位;在宗法社会,“礼”不仅是道德规范,也是政治制度,具有法律效力,所谓“礼法”是也。

早在晋代就有规定:“父祖与官职同名,皆得改选。”(《晋书·江统传》)《唐律·职制篇》也规定:“诸府号、官称犯祖父名,而冒同居之者,徒一年。”疏义云:“府有正号,官有名称。府号者,假若父名卫,不得于诸卫任官;或祖名安,不得任长安县职之类。官称者,或父名军,不得作将军;或祖名卿,不得居卿任之类。皆须自言,不得辄受。”

关于避讳之法,陈垣先生在《史讳举例》中总结为改字、空字、缺笔、改音等4种;陈北郊先生在《汉语语讳学》中总结为代词、代字、缺字、残字、作“某”、标“讳”等6种;王彦坤先生在《古代敬讳的方法》一文中考论文献避讳之法共有18种,即作“某”、作“某甲”、标“讳”、省阕、代字、改称、更读、缺笔、变体、草书、拆字、连字、曲说、析言、倒言、填讳、覆黄、覆绛。(载《古籍整理研究学刊》2001年第1期,第38-40页。)

先秦时,既有姓,又有氏,姓别婚姻,氏别贵贱。“氏”本表示同一姓下的支族,“氏者,别其子孙之所自分也。”(《通鉴外纪》);夏商周时期,氏逐渐由天子根据出生、实力和地位赏赐给诸侯,只有贵族才有氏,氏遂沦为贵族的标记,即《白虎通义》所谓:“所以有氏者何?所以贵功德、贱伎力。”称人以氏,是避其名讳的尊称。秦汉时,姓氏合二为一。

先秦时期成人在名的基础上取字,《礼记》:“男子二十冠而字,女子许嫁笄而字。”名以正体,字以表德,《仪礼》:“冠而字之,敬其名也。”古人取字的目的就是供人称呼以避其名讳,只有尊长对晚辈、上级对下级才可直呼其名。晚辈对长辈、下级对上级、平辈称对方尊长,都要称字,表示敬重;平辈之间也可以彼此称字,表示礼貌。

谥号是封建时代在帝王公卿诸侯死后根据其生前的事迹而给予的评定褒贬的一种称号。谥号起源于周代。上古有号无谥,到了周朝,生有名,死有谥,帝王死了之后,一定要避讳他的名号,所以谥号产生之初,主要是用来避其生前名讳的。

中国人于姓于名都非常重视,一般不会改易姓名,即所谓“行不更名,坐不改姓”;但在强大的避讳制度面前,因为避讳改易姓名是常有的事,比如汉元帝名刘奭,为避“奭”字,当时的“奭”氏便改为“盛”氏;晋文帝名司马昭,三国时吴国的“韦昭”遂改名为“韦曜”。

汉语主要亲属称谓词就多达230余个,是亲属称谓词最多的语言之一,它们也反映了中国古代的宗法关系和伦理本位的特色文化。

[1] 穗积陈重.实名敬避俗研究[M].东京:日本刀江书院,.

[2] J.G.弗雷泽.金枝精要[M].刘魁立编译.上海:上海文艺出版社,.

[3] 郑振铎.汤祷篇[M].上海:上海古典文学出版社,1957. 66.

[4] 西格蒙德·弗洛伊德.图腾与禁忌[M].北京:中央编译出版社,2009.34.

[5] 闻一多.龙凤[A].闻一多全集(第一卷)[M].北京:三联书店,1983.69.

[6] 李宗桂.中国文化导论[M].广州:广东人民出版社,2002. 41.

[7] 王晖.商周文化比较研究[M].北京:人民出版社,.

[8] 朱凤瀚.商人诸神之权能以及类型[A].尽心集[C].北京:中国社会科学出版社,.

[9] 钱存训.书于竹帛:中国古代的文字记录[M].上海:上海世纪出版集团,.

[10] 王国维.观堂集林[M].北京:中华书局,.

[11] 冯天瑜.中国文化生成史[M].武汉:武汉大学出版社,.

[12] 米歇尔·福柯.话语的秩序[A].语言与翻译政治[M].北京:中央编译出版社,2001.

[13] 王燕.宗教及性詈语的文化阐释[J].宁夏大学学报(人文社会科学版),2005,(2):37-39.

[14] 梁漱溟.中国文化要义[M].上海:上海人民出版社,2011.50.

[15] 冯友兰.中国哲学简史[M].北京:北京大学出版社,.

[16] 费孝通.乡土中国[M].北京:北京大学出版社,.

[17] 胡适.中国哲学史大纲[M].北京:北京理工大学出版社,2016.98.

[18] 赵毅衡.重新定义符号与符号学[J].国际新闻界,2013,(6):6-14.

转载自公众号“深大社科学报”

卞仁海,文学博士,深圳大学师范学院特聘研究员,硕士生导师。

书院中国文化发展基金会

北京师范大学章太炎黄侃学术研究中心

北京师范大学汉字研究与现代应用实验室

北京师范大学文学院古代汉语研究所

北京师范大学文学院古代文学研究所

文章原创丨版权所有丨转发请注出处

公众号主编:孟琢 谢琰 董京尘

Encoding)是计算机显示文本的基础,是每一位IT从业者必知的计算机基础知识点,如同数值在计算中如何存储表示,那么基础,那么重要。然因字符编码历史久远,变更频繁,地域差别,参考文献内容不全,质量参差不齐等原因,让不少读者望而却步,坚持刨根究底的读者,最终也难免云里雾里,不知所以然。鉴于此,本文将尝试带领大家弄清楚字符编码相关术语的概念,各自间的联系和区别,不足之处,请读者批评指正,不甚感激。

关于字符编码的介绍,网上已经有很多前人留下了值得参考的文章,这里推荐几篇,建议在阅读本篇博文前,请大家研读以下几篇文章,阅读顺序不作要求。 (1)字符编码笔记:ASCII,Unicode和UTF-8 (2)各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解 (3)闲谈字符和字符集以及编码(上) (4)闲谈字符和字符集以及编码(下) (5)字节那些事儿

我们知道计算机存储数据都是以二进制形式存储的,以字节(Byte)为最小存储单位,以比特(Bit)为最小状态。每一个Bit取值为0或1两种状态,每一个字节有8个Bit位,也就是一个字节可以表示256种状态。那计算机是如何存储和识别0和1这两种状态的呢?计算机中0和1分别由低电平(低电压)和高电平(高电压)表示,实现的硬件基础就是晶体二极管,原理就是利用了晶体二极管的单向导电性。

Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。上个世纪60年代,由美国制定的一套字符编码,将英语字符与二进制位之间做了统一规定。主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统。它已被国际标准化组织(ISO)定为国际标准,称为。

ASCII编码一共规定了128个字符的编码,比如空格(Space)码值是32(二进制),大写字母A码值是65(二进制)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。

Latin1是国际标准编码的别名。Latin1也是单字节编码,在ASCII编码的基础上,利用了ASCII未利用的最高位,扩充了128个字符,因此Latin1可以表示256个字符,并向下兼容ASCII。Latin1收录的字符除ASCII收录的字符外,还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号。欧元符号出现的比较晚,没有被收录在ISO-8859-1当中,在后来的修订版加入了欧元符号。Latin1的编码范围是0x00-0xFF,ASCII的编码范围是0x00-0x7F。

Latin1相对ASCII而言,较少被提及,其实Latin1的使用还是比较广泛的,比如MySQL的数据表存储默认编码就是Latin1。

每个国家和地区为了表示自己的文字字符,各自制定了不同的编码标准,由此产生了GB2312、GBK、GB18030、Big5、Shift_JIS等不同的编码。ANSI编码不是单一明确的字符编码,是对不同国家和地区不同编码的一个统称,根据当前系统的语言环境采用相应的编码方式。比如,Windows环境下通过代码页(Code Page)来区分具体编码,将代码页设置为936,那么ANSI代表GBK(简体中文);代码页设置为950,ANSI代表Big5(繁体中文);代码页设置为932,ANSI 代表 Shift_JIS(日文)。可见,代码页是具体字符编码的代号。

ANSI编码最常见的应用就是在Windows当中的记事本程序中,当新建一个记事本,默认的保存编码格式就是ANSI。不同 ANSI编码之间互不兼容,当信息在国际间交流时,就时常会出现令人头痛的乱码问题。要想查看Windows系统使用的代码页,在命令行输入chcp命令后回车查看。

本节讨论的内容主要围绕中文编码的发展以及各自编码之间的关系。计算机史上,中国大陆以及中国台湾、中国香港等地区自行研发的中文编码方案主要有GB2312,GBK,GB18030,BIG5,下面将一一讲解其大致的发展和特点。

GB2312。 GB2312(又名GB2312–1980)是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集》,由中国国家标准总局1980年发布,1981年5月1日实施。GB2312通行于中国大陆,新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。

GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个。同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字,GB2312不能处理,因此后来GBK以及GB18030汉字字符集的相继出现解决了这些问题。

GB2312中,如果一个字节是0~127,那么这个字节的含义同ASCII编码,否则,这个字节和下一个字节共同组成汉字(或是GB编码定义的其他字符)。所以GB2312对ASCII编码是兼容的。也就是说,如果一段用GB2312编码的文本里所有字符都在ASCII中有定义,那么这段编码和ASCII编码完全一样。

GB13000、GBK及GB18030的由来。 GB编码早期收录的汉字不足一万个,基本满足日常使用需求,但不包含一些生僻的字,后来在一个个新版本中加进去。最早的GB编码是GB2312,由于GB2312-80只收录6763个汉字,根本不够用。1993年,随着Unicode 1.1版本推出,收录中国大陆、中国台湾、日本及韩国通用字符集的汉字,总共有20,902个。同年,我国按捺不住,制定了等同于Unicode 1.1版本的国家中文编码标准GB13000(全称:GB),采用双字节编码,但因其与GB2312不兼容,没有照顾到市场上软件厂商的感情,因为大部分中文软件都是采用了GB2312,所以一时间,GB13000并没有得到广泛的应用,现如今已是废弃的标准,这也是我们很少听到这个编码标准的原因。

GB13000虽然没有得到应用,但是收录了很多GB2312没有收录的汉字,还是起到了一定的作用。如部分在GB2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),中国台湾及中国香港使用的繁体字,日语及朝鲜语汉字等。参考GB13000收录的汉字,微软利用GB2312未使用的编码空间,与中国合作制订了GBK。GBK全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼音的首字母,英文名称:Chinese Internal Code Specification)。因为微软的介入,GBK只被中华人民共和国国家有关部门作为技术规范,并非国家正式标准,只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然 GBK收录了所有Unicode 1.1及GB13000之中的汉字,但是编码方式与Unicode 1.1及GB13000不同。仅仅是GB2312到GB13000之间的过渡方案。但因为其在Windows95简体中文版开始使用,得到了广泛的推广,成为了事实上不争的中文编码标准。GBK是在GB2312标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从0x8140至0xFEFE,排除部分码位,共23940个码位,共收录了21003个汉字和883个图形符号,完全兼容GB2312,支持国际标准ISO/IEC10646-1和国家标准GB13000收录的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年10月制定,

最新的中文编码是GB18030,国家质量技术监督局于2000年3月17日推出了GB标准,以取代GBK,加入了一些国内少数民族的文字,一些生僻字被编到4个字节,每扩展一次都完全保留之前版本的编码,所以每个新版本都向下兼容。

20世纪80年代初期,中国大陆制订了GB2312,可能因为改革开放搞得热火朝天,无暇顾及,没有考虑到中国台湾,中国香港,中国澳门同胞的使用繁体中文的情况,没有帮他们制定繁体中文编码(主要原因是还没回归),但是台湾同胞怎么能够容忍这种情况,于是自己搞了个Big5繁体中文编码。Big5又称为大五码或五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字符集标准,共收录13,060个汉字。Big5虽普及于港澳台地区等繁体中文通行区,但长期以来并非当地的国家/地区标准或官方标准,而只是业界标准。倚天中文系统、Windows繁体中文版等主要系统的字符集都是以Big5为基准,但厂商又各自增加不同的造字与造字区,派生成多种不同版本。2003年,Big5被收录到CNS11643中文标准交换码的附录当中,获取了较正式的地位。这个最新版本被称为Big5-2003。

除了中文本土的编码方案,同样,日文、韩文、世界各国文字都有它们各自的编码(如果ASCII不能满足使用要求的话)。这些编码都和GB编码相似,兼容ASCII并用两个字节表示一个字。所有这些各国文字编码,微软统称为ANSI 。所以即使知道是ANSI,我们还需要知道这是哪国文字才能解码,因为这些编码都互相冲突。另外,你无法用一段ANSI编码表示既有汉字、又有韩字的文本。ANSI根据代码页来确定代表的具体编码,例如简体中文GB2312的代码页是936。

说了那么多,简单的梳理一下中文相关编码之间的关系。从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。其中,GBK包含了BIG5编码中的所有汉字,但是GBK不兼容BIG5。GB13000码值与Unicode中文字符码值相同,与其它中文GB编码均不兼容。它们的关系如下图所示:

我们知道英语用128个符号编码ASCII就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制)。这样一来,这些欧洲国家使用编码Latin1,就可以表示最多256个符号。

但是对于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。单字节编码方案最多只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。这里不详细展开,后面会具体讨论GB2312。每个国家或地区都有自己的一套编码方案,于是当信息在国际间间流是就会出现乱码问题,好比世界上每个国家都有自己的语言,相互交流时就会出现障碍。于是,就需要一个国际语言,让每个国家和地区的人之间可以正常的交流,对于计算机也是同样的道理,需要一个统一的字符编码方案,让每一台电脑都能正确的识别字符。铺垫了那么多,就是想说明一个叫Unicode的字符编码横空出世的必要性和意义。

Unicode俗称万国码,是由在1991年首次发布,请注意,并非由ISO发布。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以跨语言环境来呈现和处理文字。需要注意的是,Unicode虽然称为万国码,但是目前也不能涵盖世界上所有的文字字符,因为Unicode自发布以来,至今仍在不断增修,每个新版本都加入更多新的字符。目前最新的版本为2016年6月21日公布的Unicode9.0.0,已经收入超过十万个字符(我们华夏民族的字符也不止十万个啊,Uinicode仍需努力啊)。

BMP),或称第零平面(Plane 0)。其他平面称为辅助平面(Supplementary Planes)。基本多语言平面内,从U+D800到U+DFFF之间的码位区块是永久保留不映射到Unicode字符。实际使用中,目前只用了少数平面内编码的字符。

表意文字第三平面(未正式使用[1])

保留作为私人使用区(A区)

保留作为私人使用区(B区)

其中,中国由GB2312编码表示的常用的6763个汉字就被收录在Unicode的0号平面内U+4E00-U+9FFF码值之间,该区间的码值也包含也很多非常用的中文汉字,共收录了2W多个汉字。Unicode对各国语言文字的编码情况具体可参见。

说到字符编码,大家肯定听过UCS-2和UCS-4,在说完Unicode,好学的大家肯定心存疑惑,UCS-2和UCS-4和Unicode之间的关系和区别到底是什么?我曾经也为此痛苦不已,但是下面我将努力尝试捋清楚UCS-2与Unicode之间千丝万缕的关系,为大家答疑解惑。

10646(UCS)项目,后者开发了统一码(Unicode)项目。因此最初制定了不同的标准。1991年前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。1991年,不包含CJK统一汉字集的Unicode 1.0发布。随后,CJK统一汉字集的制定于1993年完成,发布了ISO 3,即Unicode 1.1。从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码。ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。两个项目仍都独立存在,并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。也就是说,我们可以简单的理解Unicode和UCS是两个不同机构发布的对全球文字字符进行统一编码的相同方案,更为简单粗暴的理解就是“Unicode=UCS”。

UCS与Unicode的区别。 UCS和Unicode毕竟是两个不同机构研发的编码方案,它们之间还是存在着一些区别。Unicode和UCS虽然对全球字符编码的码值相同,ISO/IEC 10646标准,就像ISO/IEC 8859标准一样,只不过是一个简单的字符集表,但Unicode标准,额外定义了许多与字符有关的语义符号学。Unicode详细说明了绘制某些语言(如阿拉伯语)表达形式的算法,处理双向文字(比如拉丁文和希伯来文的混合文字)的算法,排序与字符串比较所需的算法,等等。此外两者部分样例字形有显著的区别。ISO/IEC 10646-1标准同样使用四种不同的风格变体来显示表意文字如中文、日文、韩文(即CJK),但Unicode 2.0的表里只有中文的变体。甚至存在“Unicode对日本用户来说不可接受”的不实传说。

Set,两字节通用字符集)是一个实际使用的字符编码方案,是UTF-16的前身。还记得前面说到的Unicode的BMP吗,就是Unicode使用两字节来编码全球大部分文字字符的一个编码区间,号称0号平面,UCS-2是一个固定两字节长度的编码,每一个字符都采用一个单一的16位值来表示,因此只能表示Unicode的BMP范围的码值从U+0000到U+FFFF的字符。那么UCS-2和Unicode的0好平面又是啥关系呢?其实UCS-2编码的字符和Unicode的BMP编码的字符是相同的,因此UCS-2就是Unicode的BMP。那么UCS-2是那个机构颁发的呢,很显然是ISO。那么UCS-2和UCS有时什么关系呢?UCS-2是UCS的子集,UCS-2是UCS的编码方式之一。其中,中文范围

UCS-4又是什么呢? UCS-2采用两个字节编码字符,只能标识65536个字符,对于Unicode编码的字符已经超过了十万个,很显然UCS-2只能标识了Unicode的0号平面字符,对于其它辅助平面字符,UCS-2就无能为力,心有余而力不足了。于是ISO 10646标准定义了一个4字节31位的编码形式,称作UCS-4,来标识的Unicode其它辅助平面编码的字符。UCS-4对所有的字符均采用四字节31位编码形式,码值范围是0xx7FFFFFFF。

大概来说,Unicode编码系统可分为编码方式和实现方式两个层次。上面关于Unicode编码系统的解释,主要叙述了其的编码方式,即Uinicode每一个字符赋予了确切的不同的码值,但是实际使用当中,其实现方式是不同于编码方式的。一个字符的Unicode编码是确定的,但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同,这就是为何已经存在了UCS-2和UCS-4,仍提出UTF-8、UTF-16和UTF-32。Unicode的实现方式称为Unicode转换格式(Unicode

3629。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部分修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或发送文字的应用中,优先采用的编码。

UTF-8的编码方式。 UTF-8就是以8位为单元对UCS进行编码,而UTF-8不使用大尾序(大端字节序)和小尾序(小端字节序)的形式,每个使用UTF-8存储的字符,除了第一个字节外,其余字节的头两个比特都是以”10”开始,使文字处理器能够较快地找出每个字符的开始位置。但为了与以前的ASCII码兼容(ASCII为一个字节),因此UTF-8选择了使用可变长度字节来存储Unicode:

必须要注意的是,2003年十一月,UTF-8被RFC 3629限制了长度,因为Unicode码值0xx10FFFF,只有21位被编码,所以使用4个字节的就可以编码现有的Unicode字符,所以UTF-8被缩减为四字节,码值由原来的1~6字节缩减为1-4字节,新的UTF-8编码方式与Unicode编码的对应关系如下:

10xxxxxx”。然后,从“严”的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,“严”的UTF-8编码是“01”,转换成十六进制就是E4B8A5。我们以Notepad++(需要安装插件HEX-Editor,)查看中文”严”字的UTF-8编码。

UTF-16类似于UTF-8,都是变长字符编码,都是Unicode的实现方式之一。但是与UTF-8的区别主要有UTF-16最短编码长度是2个字节,UTF-8最短是1个字节,还有就是UTF-8不存在字节序的问题,UTF-16存在字节序的问题。与此同时,UTF-16还利用了Unicode保留下来的0xD800-0xDFFF区段的码位来对辅助平面的字符的码位进行编码。这里我想问,有了应用广泛的UTF-8,为何还要搞个UTF-16呢?还记得前面因为UCS-2的双字节码位不够,IEEE提出的UCS-4编码吗,因为UCS-4规定了每一个字符需要4个字节,31bits来表示,这样太浪费存储空间了,为了解决这个问题,于是IETF(The

UTF-16编码方式。 UTF16使用1个或2个16位长的码元来表示,是一个变长编码方案,实现方式如下:

UTF-16比起UTF-8,好处在于大部分字符都以固定长度的字节(2字节)存储,但UTF-16却无法兼容于ASCII编码,因UTF-8兼容 ASCII,能适应许多 C 库中的 ‘

参考文献是在学术研究过程中,对某一著作或论文的整体的参考或借鉴。征引过的文献在注释中已注明,不再出现于文后参考文献中。按照字面的意思,参考文献是文章或著作等写作过程中参考过的文献。很多刊物对参考文献和注释作出区分,将注释规定为“对正文中某一内容作进一步解释或补充说明的文字”,列于文末并与参考文献分列或置于当页脚地。

  一、参考文献是对期刊论文引文进行统计和分析的重要信息源之一 ,在本规范中采用 GB 7714推荐的顺序编码制编排。

  二、参考文献著录项目?

  [12]万锦坤.中国大学学报论文文摘().英文版[DB/CD].北京:中国大百科全书出版社,1996.

  h.各种未定义类型的文献

  [序号]作者1,作者2,作者3,等.文献题名[Z].出版地:出版者,出版年.

我要回帖

更多关于 英文文献没有期号 的文章

 

随机推荐