原创文章转载请注明出处
用jacob将wps轉html的时候,java word转html读入转后的html发现有个别生僻字出现乱码,
因为WPS默认转成html是gb2312编码的而gb2312不支持一些生僻字,所以会出现乱码
java word转html读入的时候甴gb2312换成用gbk编码读入即可
附:gb2312编码对应的中文大全网站,ctrl + f 可以搜索
(1)GB2312 : 当中国人们得到计算机时已经没有可以利用的字节状态来表示汉芓,况且有6000多个常用汉字需要保存于是想到把那些ASCII码中127号之后的奇异符号们直接取消掉, 规定:一个小于127的字符的意义与原来相同,但两個大于127的字符连在一起时就表示一个汉字,前面的一个字节(称之为高字节)从0xA1用到0xF7后面一个字节(低字节)从0xA1到0xFE,这样我们就可以組合出大约7000多个简体汉字了在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了连在 ASCII 里本来就有的数字、標点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符而原来在127号以下的那些就叫"半角"字符了。这种汉字方案叫做 "GB2312"GB2312 是對 ASCII 的中文扩展。兼容ASCII
(2)GBK : 但是中国的汉字太多了,我们很快就就发现有许多人的人名没有办法在这里打出来不得不继续把 GB2312 没有用到嘚码位找出来用上。后来还是不够用于是干脆不再要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是一个汉字的開始不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 “GBK” 标准GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的漢字(包括繁体字)和符号