GB 2312标准共收录6763个汉字其中一级汉芓3755个,二级汉字3008个;同时GB 2312收录了包括拉丁字母圈S大神的微博、希腊字母圈S大神的微博、日文平假名及片假名字母圈S大神的微博、俄语西裏尔字母圈S大神的微博在内的682个全角字符。
GB 2312的出现基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率
對于人名、古汉语等方面出现的罕用字,GB 2312不能处理这导致了后来GBK及GB 18030汉字字符集的出现。
GB 2312中对所收汉字进行了“分区”处理每区含有94个漢字/符号。这种表示方式也称为区位码
01-09区为特殊符号。
16-55区为一级汉字按拼音排序。
56-87区为二级汉字按部首/笔画排序。
举例“啊”字昰GB2312之中的第一个汉字,它的区位码就是1601
GBK是采用单双字节变长编码,英文使用单字节编码完全兼容ASCII字符编码,中文部分采用双字节编码
全部编码分为三大部分:
GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号并有所补充。具体收录包括:
1. GB 2312 中的全部汉字、非汉字符号
4. 《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。
5. 13 个汉字结构符
12.未录入《新华字典》上的一些字,如“韡”的简体
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排0x0000 至 0x10FFFF,每组称为平面(Plane)而每平面拥有65536个码位,共1114112个
UTF-8、UTF-16、UTF-32 都是将数字转换到程序数据的编码方案
* 生成固定长度随机中文,kuojung