当前位置:网站首页 > 古籍整理

GBK、CJK、Unicode 代码集与方正超大字符集定义表

郑永晓
内容提要 像笔者这样的文字工作者经常遇到冷僻字难以输入,在某些情况下,明明知道系统字库中收有该字,但即使是“全拼”输入法也难以找出此字。在这种情况下,就只好到GBK 字符集中去寻找,如果GBK字符集中仍找不到,就应该到“方正超大字符集”中寻找,该字符集中收录汉字65,531个。涵盖GB18030 (以及ISO10646-2000或Unicode 4.0) 中编入的汉字。虽然编制方法不甚科学,但该字符集仍能帮助我们输入绝大部分汉字。如果该字符集仍然没有你需要的字符,就只好造字或到日本“文字镜”中查询了。因而,只要我们能细心查询,一般情况下极少会遇到不能输入的汉字。此处整理的《GBK 代码集字符定义表》和《方正超大字符集》所收汉字有六万之多,根据笔者的使用体会,应该能够解决绝大部分汉字的录入问题。

     GBK字符定义表使用说明:①在windows中安装区位输入法。②点击输入法的工具条,使其变成GBK内码输入状态。③在相关页码中找到所需字符后,按照左上角(两位数字)—下方(一位)—上方(一位)之顺序组成的四位数字键入即可完成输入。当然,最简单的方法即直接复制到word 中。


     方正超大字符集使用说明:用户可以通过输入汉字的Unicode(或Surrogate)码来输入汉字。如在Word 2003 中,可以直接键入Unicode码,然后按Alt+X 转换成汉字。对于扩展B的汉字,请将前面两个“0”去掉。比如,针对Unicode 是00020000的一个冷僻字,在word中输入020000 ,然后按Alt+X即可,即可出现相应的汉字。要想知道每个字符的Unicode,也可以将光标定位在汉字后面,然后按ALT+X,相应的Unicode码则会显示出来。

       为便于用户使用,笔者提供的此表包含了每个字符在《康熙字典》或《汉语大辞典》的页码。先查这其中的一部字典,找到该字所在页码,而后根据该页码在“超大字符集”中利用word 提供的搜索功能搜索此字,如果页码不足4位,请在前面加零。找到所需文字后复制到相应的编辑器如Word中。

       注:“GBK”是继 简体中文Windows3.2 之后的简体中文 Windows 所使用的代码页,它涵盖了 Unicode 所有 20902 个中文字符以及中国国家标准化组织添加的大约 80 个中文字符。此前之“GB-2312”是简体中文 Windows 3.2 的代码页,仅含有 6763 个汉字。“GBK” 包含了“Big5”的繁体中文字符和“GB2312”中的简体中文字符。国际标准化组织在 ISO10646-2000 的基本平面(BMP 或者 Unicode 3.0, 下简称 Unicode)编入了27,564 汉字(U+4E00~U+9FFF以及U+3400~U+4DFF),即2000年3月在GB18030颁布时所建议支持的字汇。其中U+3400~U+4DFF部分的6582个汉字又称为扩展A。该组织还在ISO10646-2000 的第二平面扩展了42,711汉字(又称为扩展B)。由于这42,711汉字编排在ISO10646-2000 的第二平面,所以编码需要4个字节。为了能够存取处理这些4字节字符,在Unicode 中引入了Surrogate 机制(在ISO10646-2000中命名为UTF-16)。根据这样一种机制, 在Unicode中用两个16位编码就可以对ISO10646-2000 第二平面中的汉字进行存取。
        可以使用 Alt+X 来显示特殊字符的 Unicode 字符代码。将插入点置于字符右侧,然后按 Alt+X。字符代码将取代字符,再按 Alt+X 将切换为字符。
如果字符当前使用系统代码页进行编码,您可将其转换为 Unicode 编码。若要执行该操作,请在字符前键入“x”,将插入点置于字符后,按 Alt+X,然后再按 Alt+X。
       Windows 98 、Winme 等微软早期操作系统不能支持超大字符集。自Windows 2000始可使用该字符集,但需安装相关补丁(该补丁程序本站“软件下载”一栏中提供下载)。在WindowsXP 、Windwos 2003 server 等操作系统中,配合安装Office 2003 ,使用方正超大字符集最为方便。

       要安装宋体-方正超大字符集,请在安装界面上选择Office共享功能 –> 中文字体->中文超大字符集字体。如果您是从多语言包进行安装,请在安装界面上选择Office Shared Features- >Chinese fonts->Chinese Extended font。

       宋体-方正超大字符集字体包括了上面提到的全部27,564个汉字以及在第二平面中(42,711)选出的36,862个在中国大陆,香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括65,531个字符。

 

有关本文档的几个文件,可全部在“中国文学网”下载,无毒、无插件,读者可放心使用:
①GBK 汉字内码扩展规范编码表:
   中国文学网下载地址:http://www.literature.org.cn/007/GBK.txt
②超大字符集第1部分,3.45MB
    中国文学网下载地址:http://www.literature.org.cn/007/1.doc
③超大字符集第2部分,2.93MB
    中国文学网下载地址:http://www.literature.org.cn/007/2.doc
以上均为不加密Word 或文本文档,使用方便。

 

④CJK基本字符集(CJK Unified Ideographs),5166KB,20901字
    中国文学网下载地址:http://www.literature.org.cn/007/U4E00.pdf

⑤CJK扩充集A(CJK Unified Ideographs Extension A),1682KB,6581字
    中国文学网下载地址:http://www.literature.org.cn/007/CJKA.pdf

⑥CJK扩充集B(CJK Unified Ideographs Extension B),12,442KB, 42710字。
     中国文学网下载地址:http://www.literature.org.cn/007/CJKB.pdf

⑦CJK扩充集C(CJK Extension C),2536KB
     中国文学网下载地址:http://www.literature.org.cn/007/CJKC.pdf

⑧ CJK Compatibility Ideographs ,504KB;
    中国文学网下载地址:http://www.literature.org.cn/007/CJKCo.pdf

⑨ CJK Compability Ideographs Supplement ;324 KB;
     中国文学网下载地址:http://www.literature.org.cn/007/CJKCS.pdf

      以上文件为PDF文档,需要Adobe pdf Reader 等软件打开。

⑩海峰五笔开发的超大字符集安装程序,适用各种版本的Windows。
      中国文学网下载地址:http://www.literature.org.cn/007/UniFonts.exe

      安装此程序后,电脑中即具备处理約7万汉字的能力,包括中国大陆和台湾地区的字库均已具备。在选择相应字体的前提下,可以在office 2003中正确显示。在office 2007以上版本中,显示效果最好。

?逍遥笔4.0,为逍遥笔经典版本,无使用限制,无需任何设置,在电脑本身安装有相应字库(如已安装UniFonts.exe)的前提下,即可轻松用鼠标手写冷僻汉字。
      中国文学网下载地址:  http://www.literature.org.cn/007/xiaoyaobi40.rar

?逍遥笔6.5,版本提高,功能当然也增加不少。
    中国文学网下载地址: http://www.literature.org.cn/007/xiaoyakobi6.5.exe

 

附:
关于带圈数字的输入
    字符集中已经有40余个带圈字符,但多数输入法没有提供这种功能,致使文字工作者多不会录入,为文章脚注等符号的标注造成诸多不便。兹将笔者所知带圈符号罗列于此,便于大家复制。
    ①②③④⑤⑥⑦⑧⑨⑩⑪ ⑫ ⑬ ⑭ ⑮ ⑯ ⑰ ⑱ ⑲ ⑳㉑㉒㉓㉔㉕㉖㉗㉘㉙㉚㉛㉜㉝㉞㉟㊱㊲㊳㊴㊵㊶㊷

 

 

CJK为中日韩之缩写;

1993年中国发布GB13000.1-1993标准,收录CJK基本集和CJK扩充集A,替代原有GB2312-1980标准。该标准俗称GBK。
2000年中国发布GB18030-2000标准,开始收录CJK扩充集B,替代原有的GB13000.1-1993标准

Windows 3.x及Windows95只支持GB2312-1980
Windows 98开始支持GBK
Windows 2000开始支持Unicode 3.0
Windows XP开始支持GB18030-2000。

windows 2000系统需要安装补丁方可使用超大字符集,请点击此处下载补丁:http://www.literature.org.cn/software/surreg.exe (微软提供,无病毒)。

如有疑问请与笔者联系:

     literature@@cass.org.cn

 

    (如有赐教,请将两个@@删除一个。谢谢!)


发言者:??发表时间:2011-12-23 16:58:00??IP地址:61.134.235.*
如何输入 “王乐” 这个字 只能打出来 瓅 读音 li
发言者:??发表时间:2011-11-12 12:06:00??IP地址:218.241.202.*
太感谢你了!
发言者:??发表时间:2011-9-8 8:41:00??IP地址:117.86.202.*
鄭先生: 您此舉是學惠士林,功德無量。不辭辛勞,不計酬報。如此高風,當世罕見。應當推薦為感動中國人物。 只是説《康熙字典》的頁碼,不才從網上下載的頁碼與字符的頁碼對不上,不知是那一年版的《康熙字典》。 xnw-1024@163.com 南通大學 徐乃為
发言者:??发表时间:2010-11-3 15:32:00??IP地址:124.160.42.*
阿斯顿发
发言者:??发表时间:2010-10-5 3:52:00??IP地址:220.168.79.*
辛苦辛苦,多谢了
发言者:??发表时间:2010-7-21 23:17:00??IP地址:124.114.33.*
我简直服了你了,你的贡献好大啊!!
发言者:??发表时间:2009-4-22 19:11:00??IP地址:222.66.117.*
非常感謝鄭先生,幫助很大。
发言者:??发表时间:2008-12-3 7:38:00??IP地址:222.188.10.*
辛苦辛苦,这个要费大功夫。
发言者:??发表时间:2008-10-10 18:40:00??IP地址:219.142.99.*
haodehen
收藏文章

阅读数[43597]
百年·红楼梦 网络文化与文学研究
网友评论 更多评论
如果您已经注册并经审核成为“中国文学网”会员,请 登录 后发表评论; 或者您现在 注册成为新会员

诸位网友,敬请谨慎网上言行,切莫对他人造成伤害。
验证码: