当前位置:网站首页 > 书目文献

古籍数字资源述略

杨朝霞
内容提要 以个人计算机技术、电子数字传媒为代表的信息技术的发展已服务于许多学科领域,我国文史学界尝试的古典文献数字化工作,也取得了初步成果。文章向读者简要介绍了台湾、香港、大陆三地所开发的古籍数字资源。
关键词 古籍 数字化 信息资源

1 古籍数字化势在必行

古籍古书的雅称,传统的古籍是指以纸为载体抄写或印刷的图书。在我国,上起先秦、下迄辛亥革命前后的古籍,绝大多数是用汉文撰写的[1],故本文所论及的主要是汉文古籍。我国现存世的古籍约有10万余种,1000万册以上,它们分布在全国各地图书馆和研究单位,还有一部分收藏在私人手中,国外也有部分收藏。由于古籍文献跨地区、跨国分散收藏,所藏种类、数量、版本、特色等也不同,所以学者们为了查阅古籍而奔波各地、穿梭各馆的情景屡见不鲜,有的甚至远涉重洋寻找所需资料[2]

古籍获之不易,保管困难,普遍受到各收藏单位的重视,随之也产生了重藏轻用的偏向,读者去借阅时受到许多限制,尤其面对外单位的读者,提阅手续更为严格。善本书库长年紧锁,佳刻罕传秘不示人。如要拍照、复制,须交纳可观的底本磨损费。凡此种种,严重影响了古籍的利用。

文史工作者的首要任务是进行创造性思维,但查阅文献、摘抄卡片等资料工作往往要花费学者们一半以上的时间与精力,大大缩短了其学术生命,这是学术研究中的巨大浪费。自古就有人试图解决这一问题,编制了不少类书,但类书的作用非常有限。近代产生索引引得之类的工具书,虽为学术研究创造了相当便利,但其编纂非常艰辛,使用仍很麻烦。

计算机技术的发展,社会信息化进程的加快,为从根本上改变以上状况创造了条件。只有利用计算机在资料的储存、整理、检索、数据统计以及索引编制等方面的优越性,加快古籍文献数字化进程,才能改变传统的手工作坊式的研究模式,使更多、更有价值的古籍文献焕发出新的生命力。对古籍文献进行有计划、有组织的发掘、整理,并加以数字化、网络化,这不仅是我们义不容辞的责任,也是大势所趋。

 

2 已开发的古籍数字资源

古籍不仅浩瀚无垠,又涉及版本、断句、校对、造字等特殊问题,加深了其数字化处理的难度,不过,古籍数量的不再增多,内容及形式的不再变化,也给古籍文献数字资源的开发带来了便利。另外,国外的一些做法亦可借鉴。美国借助先进的技术,率先建立起古籍数据库,如著名的联机系统OCLCRLIN,使不少流传海外的古籍,被许多研究中国的学者广泛利用[3]P·J·Ivanhoe等人早在1978年就利用计算机编制了《朱熹大学章句索引》、《朱熹中庸章句索引》、《王阳明大学问索引》、《王阳明传习录索引》、《戴震原善索引》、《戴震孟子字义疏证索引》等[4]。日本1980开始研制本国古籍综合目录自动化系统,1990年建成的数据库正式运行,为检索古籍提供了方便[5]

我国从20世纪80年代中期开始尝试古籍文献数字化工作,尽管初始建设工作非常艰辛,但台湾、香港、大陆三地的文史工作者克服种种技术障碍,使古籍数字化进程迈出了可喜的步伐。

2.1 台湾地区的主要成果

台湾地区早在19847月就开始启动汉籍计算机数据库规划的实施,经过十余年的持续努力,已取得了相当成果,主要有:

中央研究院汉籍全文资料库 1985年,中研院(http://www.sinica.edu.tw)研究员谢清俊提出通过电脑处理将古籍资料保存下来。十多年来中研院史语所、台史所、资讯所、文哲所、计算中心及国史馆共同参与完成了包括二十五史、十三经、古籍十八种、诸子、古籍三十四种、大正新修大藏经、台湾方志、文心雕龙、佛经三论、新清史——本纪、古汉语文献、台湾文献、水经注疏、台湾档案等在内的上亿字资料的数据库古籍中一些罕见字也能输入是全球品质优良的中文资料库。目前中央研究院的瀚典全文检索系统已经在国际互联网上提供一亿六千三百余万字古籍资料的计算机检索服务。检索结果可以用资料卡片的形式输出,1998年上半年,就有近7万人次上网使用这套系统查询,受到海内外汉学界高度肯定。

简帛金石资料库(http://satum.ihp.sinica.edu.tw/~wenwu/search.htm) 近年来,台湾中研院史语所文物图像资料室在著名秦汉史专家开义田的主持下,建立了简帛金石资料库,收集了大陆、台湾和日本的《睡虎地秦墓竹简》、《两汉镜铭集录》、《汉代石刻集成》等40余种全文资料,包括了已经整理出版的先秦至魏晋的简牍、帛书、碑刻、官印等,还收录了相关的书目、索引等,总计约340多万字,内容极为丰富,使用台湾BIG5内码,可进行复合检索,输出方式包括释文、编号、所在图书页码等。台湾简帛金石资料库所采用大部分资料的底本,选择了大陆学者的研究成果,从这个意义上讲,这一资料库是海峡两岸学人共同心血的结晶,也体现了学术公器的原则[5]

古文书数据检索系统(http://pegasus.csie.ntu.edu.tw ) 台湾大学计划建立一个含有台湾居民、台湾历史和台湾文化遗产等数字化的历史资料、文献和研究成果,以浏览方式使用的数字图书馆与博物馆,共有九项研究主题。其中的古文书Metadata Format数据库已于199710月上网,具备了基本检索和浏览功能。收藏品数字化完成约3400件,其中2400件已输入Metadata,数字照相1800件,还完成了人类学系240件典藏古契书的Metadata输入及全文建档,并已进行数字照相处理。

佛学数据库国际网络(http://ccbs.ntu.edu.tw/misc/cbs--cxp.htm) 由台湾大学佛学研究中心开通。它提供佛教书籍、期刊论文书目和全文资料信息的书目检索,另有梵文、藏文、巴利文字母、文法和原典的教学系统,并建有佛学造字字库,方便佛学资料的流通。

元智大学多媒体网络教学系统 元智大学计划将一些古籍的全文数字化,以满足学者研究需要,已录入了诗经、宋元明清曲等,楚辞、汉魏六朝诗歌等正在进行中。1994~1997年先后完成了红楼梦多媒体系统全唐诗网络系统唐宋词系统宋代名家诗系统等。除提供全文外,还提供诗题检索、关键字检索、诗句检索、人物检索、地名检索、全文检索、模糊诗句检索等功能。目前,部分成果已上网。[6]

古典文献全文检索资料库(http://www.lib.tku.edu.tw/online/intro/oldbook.htm) 此资料库主机由国立故宫博物院提供,可直接连线查询,内容涵盖十三经、二十五史、先秦诸子、朱子语类、明儒学案、红楼梦、全唐诗、四库总目等。

中医古籍文献全文检索系统(http://www.tcmet.com.tw/) 1989年至1990年,台湾高雄市立中医医院苏贯中完成了《黄帝内经》及《金元四大家》索引系统,近年又增加了《景岳全书》、《类证治裁》等中医名著全文,并制作了资料库管理系统。

中药本草古籍善本光碟 此光碟包含了17本中药本草古籍,喜欢收藏中药古书的朋友,可以把有关的章节打印出来。

网上可浏览的古籍电子书还有:

中国诗词选读 台湾中央大学数学系完成,含诗经、古诗十九首、汉乐府、唐诗宋词、元杂剧等。

中国文学选读 台湾中央大学数学系完成,含楚辞、三字经、千家诗、四书五经及古文名篇等。

2.2 香港的主要成果

1988年起,香港中文大学中国文化研究所(http://www.chant.org)依靠香港研究资助局等机构的拨款,开始从事中国古代文献资料库的建立,迄今已经完成了近3500万字的建库工作,出版了汉达古籍资料库光盘,并已提供约1100万字的古籍网络检索服务。其古籍全文资料库资源有:

先秦两汉一切传世文献电脑化资料库 将《战国策》、《礼记》等103部、约900万字的先秦两汉传世典籍,于1991年全部输入了电脑,1992年以光盘和书刊两种形式出版。资料库输入文献所据版本,均为旧刻善本,并经过研究人员重新点校,有助于学者全面探讨中国上古文化特质。

魏晋南北朝一切传世文献电脑化资料库 自1991年至1995年共输入文献近1000种,计约2400万字。其中经部文献149(20万字)、史部正史类文献5种和子部释家类文献127(1000万字)、集部别集类文献64(80万字)及《文心雕龙》、《曹植集》都上了互联网。资料库有助于学者探讨魏晋南北朝时期之文学、哲学、历史及语言面貌。

竹简帛书出土文献电脑资料库 1994年至1996年,将已发表的12种、约140万字的竹简帛书出土文献,全部输入了电脑,并以光盘形式出版。资料库采用北京文物出版社提供的释文,经研究人员重新点校,在视窗系统上,可以同时显示简帛图片和对照释文。饶宗颐、李学勤、曾宪通等专家教授参与了领导及文献审定工作,是一高水准的简帛研究工具。

甲骨文全文资料库 1996年中国文化研究所在北京中国社会科学院历史所协助下,将胡厚宣先生主持编纂的《甲骨文合集》13册释文(86万字)输入电脑。

《文渊阁四库全书》电子版 迄今世界上规模最大的中文电子出版工程《文渊阁四库全书》电子版近日面世,它分为原文及标题检索版”(167张光盘)原文及全文检索版”(183张光盘)两种版本,是由香港迪志文化出版有限公司投资5000余万元开发及制作,与上海世纪出版集团上海人民出版社联合出版。

《文渊阁四库全书》电子版采用了先进的信息技术,在保持原书真迹的基础上,将书中具有检索意义的书名、作者、类目、标题以至全文中的字、词语全部数字化,从而给读者提供了快捷有效的检索、统计、整理和编辑的功能。这种古籍文献的数字化,为系统的、大规模的中华文化电子资源信息进入全球网络、实现信息共享奠定了良好的基础[7]

2.3 大陆的主要成果

大陆的古籍数字化工作起步不算晚,但建设初期由于经费、技术等原因,成果不明显。近年来,古籍文献类型日趋多样,尤其是古籍光盘数据库异军突起,使古籍文献利用进入了网络时代[8]。计算机编制古籍索引已取得不少成果,如李晓光等编制的《史记索引》软件,中国社会科学院的《论语》逐字索引、《寒山子诗》逐字索引,广州中山大学于曼玲的《高适诗集》逐字索引,湘潭大学的《宋词别集索引三种》,兰州大学的《老乞大朴通事索引》,东北师大古籍整理研究所的《贞观政要》综合检索系统,武汉大学与山东省社会科学院的《论衡》检索系统,深圳大学的《红楼梦》全文数据库,上海博物馆的商周青铜器铭文选索引系统等,中国社会科学院还开发了《全唐诗》、《先秦汉魏晋南北朝诗》、《十三经》、《诸子集成》、《红楼梦》、《明儒学案》等大型古典文献数据库[9]。北京大学中文系李铎博士主持开发的全唐诗电子检索系统,可以按原书顺序、作者、体裁等方式浏览,可以检索唐诗及与唐诗相关的海量数据。其它古籍电子出版物还有:宋词三百首、唐诗三百首、趣味唐诗选、中国词曲精华、中国古典文学名著系列(《水浒传》、《三国演义》、《西游记》、《红楼梦》)等等。

这里主要介绍以下几种成果:

中国古籍善本查阅系统 上海图书馆主持开发制作。1997年上海图书馆开始计划用五年时间,将馆藏的17.8万册、500多万页的古籍善本书全文制作成光盘。该系统是首期工程所完成的目标。上图于19986月底,将760种、25万页一、二级藏品全文数字化,制成了38张光盘,总容量23000兆。该系统将属于国家一、二级文物古籍善本书(其中不少是海内外极为珍贵的孤本)的全文以图像形式录入计算机,保留古籍原有形式。目前,该项目的二期工程已经开始,上海图书馆准备将这些古籍善本全文有计划地逐步上到国际互联网,让中国的优秀传统文化传播到全世界。

中华医典 九五国家重点出版物规划项目,介绍中医古籍的电子图书。由长沙市宏宇科技开发有限公司策划制作,湖南电子音像出版社出版发行。它荟萃几千年中华医学理论和临场经验文献精华,无遗珠之憾。首次将中华医学全面系统、分门别类地加以编辑整理,重新录入,具有强大的检索功能,可对任意关键字、词、句进行检索。

中国基本用典电子文库·国学宝典 是一套面向文史专业研究人员、以古籍文献为主要内容的全文检索数据库系统,由北京瀚海电子文献处理中心尹小林研制,1999年投入使用。该文库共有8000多万字的各种中外重要典籍,其中中国经典名著约占80%,适用于各种家用计算机和便携式计算机,具有全文逐字检索、统计、摘录、打印输出、生成卡片、浏览等功能。中国典籍库收入十三经、前四史、诸子、全上古文、明清小说、佛典、道典等280多部古籍文献。新版全宋词列词牌1486个、词人1364名,是有关宋词的全文多条件检索系统。国学宝典UCDOS为中文平台,使用国标字库6763个汉字,并造字1200多个、部首100个,《尔雅》、《穆天子传》等用字生僻的文献在该系统下也可正常使用,解决了从先秦到明清各种典籍中99%以上的汉字正常显示和打印。

《二十五史》全文检索系统 陕西师范大学历史系教师、古籍整理研究所研究人员袁林博士研制。1995年下半年,他组织人力,开始着手《二十五史》全文检索系统的建设,于19996月终告完成。台湾等地的古籍数字资源,因受汉字编码不同、网络速度过慢等问题的限制,在大陆的利用非常有限。《二十五史》全文检索系统的开发成功,对于众多的大陆文史工作者来说,无疑是一个喜讯,这是大陆第一个较大规模的古籍全文数据库,在国际同类中文电子古籍系统中,就有些技术问题的解决和对文史研究的适用性而言,处于领先地位。

《四库全书》原文电子版(http://www.zg169.net/skqs/) 济南汇文科技开发中心历时三年多研制推出。该系统囊括了《四库全书》经、史、子、集四部的所有文献,共计3万余册,200余万页。使用者不仅可以通过电脑阅读到原汁原味的文献资料,而且能够方便地按书名、作者、盘号、书号和指定卷、册、页检索,还可以放大或缩小打印输出,并装订成册。《四库全书》原文电子版,获国家新闻出版署及国家信息中心联合举办的全国多媒体光盘评测优等奖及特别奖,并被国家博物馆收藏。

中华古籍 这是湖南百花园和上海网胜提供的网上中文古籍文献,只要进入http://www.oldbook.126.com就可看到诸子百家、小说传奇、佛学佛经、诗词曲赋等中华古籍另外还辟有三国专题、水浒专题及红学研究专题。

北京大学古籍拓片样本收藏 北京大学图书馆收藏拓片5万余份,居全国高等院校收藏之首,且以石刻品种丰富、收藏系统齐全见长。在新西兰数字化图书馆项目的支持下,利用全文检索机制建立了北京大学古籍拓片样本收藏,收藏包含了《元定墓志》、《元羽墓志》、《元怀墓志》等北大20个木制和石制古籍拓片的书目信息和照片。可按拓片名称、拓片内容等,选全部部分两种查询类型进行检索。包括典藏号、原题名、责任者、纪年、公元年、出土与所在、拓影特征、拓本形态、钤印及题跋、文献记载、附注、原文及低分辨率影象。进入北京大学图书馆主页http://www.lib.pku.edu.cn再点击数字图书馆,便可浏览这些古籍类特藏。

 

3 古籍数字化方兴未艾

古籍数字化工作虽然取得一定成果,但还没有发展到系列化、成龙配套的程度,与浩瀚的传统古籍相比,新型的古籍数字资源只是少数,远远不能满足人们的需要,因此,实现古籍全部数字化,是一项长期而艰巨的任务。有关机构正在探索新技术,统一新标准,研制和开发更多更好的古籍管理软件,以提高古籍数字化的质量。

香港迪威多媒体公司与北京书同文公司制作的文渊阁四库全书电子版即将全部完成,可实现全文检索,亦可调阅原书图形(http://skqs.unihan.com.cn/)。该数字化古籍全面采用汉字编码国际标准系统并在检索中采用汉字关联检索一字时同时检索相关异体字大大降低了漏检的可能性[9]

台湾中央图书馆正着手建立古籍善本扫描图像资料库,现已完成数十种明代文集善本的建库工作,并在网上开放。该馆珍藏古籍善本书计12351部,多达125916册,多年前即编有善本书目四册,1983年委托王安电脑公司开发完成善本书编目系统,开始建立善本书书目资料库,1992年进行第二期自动化系统开发工作,还在实施善本丛刊影像先导系统的计划,以使善本古籍发挥最大效用。

1998年,台湾中研院汉籍电子文献协调委员会拟定了一项更为宏伟的计划———主持开发电子版新四库全书。因为乾隆版四库全书只收录儒家经典史册,并且还修改、删除许多边疆民族的文献。新四库全书不仅要复原史料,还搜罗《楚辞》、诗词小说、医疗、堪舆、卜筮等非儒家的作品,以及乾隆之后的文献、台湾研究素材等,其涵盖的范围比旧四库全书更多更广,总字数超过20亿字,是现存四库全书的三倍,总经费达新台币10亿元,预计在21世纪初完成。

北京大学拥有丰富的古籍善本书,其中包含很多珍贵的孤本资料。1996年曾与台湾元智大学合作开发《宋代名家诗网络系统》,199851日,元智大学校长王国明教授等应北大邀请,参加北京大学百年校庆,又签订两校学术合作计划,合作开发北大善本书数字资料库,以提高古籍善本书的利用率。陕西师大袁林博士进行的《十三经》、《全唐诗》、《全宋词》、《马克思主义经典著作》等全文检索系统,也将在近期内完工。相信会有更多的古籍数字资源涌现。古籍文献的数字化,将再现传统文化的生命,使古籍整理与研究工作走上新台阶,开创新局面。

 

参考文献

1 黄永年.古籍整理概论.西安.陕西人民出版社,1985

2 朱赛虹.古籍文献资源共享的障碍及前期准备.中国图书馆学报,1999(1)

3 周秦.古籍书目数据库建设浅议.图书馆工作与研究,1997(2)

4 陈东辉.二十世纪古籍索引编制概述.文献,1998(2)

5 陈爽.利用国际互联网络检索简帛金石资料.中国史研究动态,1999(1)

6 吕宜男.数字图书馆在台湾.计算机世界报,1999(20)

7 李晓林.文渊阁四库全书电子版出版.图书馆,1999(6)

8 陈建华.拓宽古籍参考咨询工作.图书馆杂志,1999(9)

9 张小也.数字化中文古籍知多少.光明日报,2000.2.18

 

杨朝霞:陕西师范大学古籍研究所,西安,710062

原载:《大学图书馆学报》2000年第3期
收藏文章

阅读数[11520]
百年·红楼梦 网络文化与文学研究
网友评论 更多评论
如果您已经注册并经审核成为“中国文学网”会员,请 登录 后发表评论; 或者您现在 注册成为新会员

诸位网友,敬请谨慎网上言行,切莫对他人造成伤害。
验证码: