当前位置:网站首页 > 书目文献

古籍数字化研究的回顾与思考

毛建军
内容提要 近几年来国内的古籍数字化研究在技术上获得了较多的突破,但理论研究则相对滞后。古籍数字化研究的回顾有利于古籍数字化工作的进一步开展,也有利于古籍数字化理论研究的深入。
关键词 古籍 古籍数字化 古籍整理

古籍数字化属于古籍整理的范畴,代表着古籍整理的未来方向。因此,古籍数字化从其产生就受到有关部门和部分学者的关注。1988年,曹书杰在《古籍整理研究学刊》第1期发表了“古籍整理与电子计算机应用研究的思考”,第一次以论文的形式探讨了将计算机应用到古籍整理的可能性和有效性。在台湾,计算机应用于古籍整理也开始了真正的实践尝试,学术界也首次提出了古籍电脑化这一概念。20世纪90年代以来,大量古籍数字化资源的开发实践推动了古籍数字化的理论研究和思考。

 

1汉字字符集研究

汉字输入是古籍数字化首先要面临的问题。由于古籍中含有大量生僻字、异体字、通假字以手写字和避讳字,而已公布的汉字通用字符集均不能完全处理古籍中汉字的复杂性,因此,解决汉字字符缺失问题就成为古籍数字化的首要任务。早期古籍数宇化汉字输入主要集中在新旧字形和异体字问题上。这方面广西大学林仲湘等在开发“古今图书集成”时取得了一定的经验,同时在《广西大学学报》(哲社版)1996年第2期发表“论古籍整理用计算机字库中的字形处理”和“如何解决古籍整理用计算机字库中的异体字问题”等一批论文。

由于GBK的编码体系不能通用于国际标准,如果采用它作为古籍数字化的字符集,会导致由于字符集的壁垒而使数字化古籍产品无法走向世界。因此,经过探索和实践,目前国内学术界在字符集的采用上已有主流看法:坚定不移地采用国际标准ISO/IEC10646[2]。《四库全书》电子版工程的开发结合了GBK的编码体系与ISO/IEC10646/Unicode各自的优势,解决了大型古籍数字化汉字字符集的难题。

另外,一些致力于古籍数字化汉字处理的数字化企业也积极参与到汉字输入的研发当中,开发出许多有效解决汉字输入的软件。“中易汉神e-超大型中文网络国际应用平台”被列为“国家973信息技术与高性能软件规划项目”,支持ISO/IEC106462003国际标准编码的7万个汉字的输入、编辑排版和打印输出。四字节汉字处理系统——龙语瀚堂典籍数据库系统,彻底突破了古籍整理和研究中生僻汉字数字化的瓶颈,开创性地实现了对所有汉字通用的典籍文献数字化,这标志着汉学研究进人四字节典籍研究的数字时代。

 

2系统功能研究

支持系统主要运用于书目数据库以及具有智能分析和检索功能的数字化古籍中,主要包括古籍机读目录的链接技术、全文数据库技术、全文检索以及超文本标注等智能化支持系统。

传统的古籍目录检索是通过分类卡片和书目检索手工方式进行的。随着计算机数据库技术的发展,古籍机读目录格式逐步应用于古籍文献检索服务当中。古籍书目数据库的建设也成为古籍数字化建设的一个重要内容。1999年,林兴国、杨怡开始就机读目录的优点以及古籍机读目录格式的设计原则、设计步骤作了描述[1]。鲍国强在实践基础上,对机读目录格式古籍文献检索应用和文献连接技术及其应用作了详细阐释[2]。范俊红结合实际,就古籍书目数据库建设过程中有关的汉字平台、著录标准、分类标准以及通用的编目软件和人员素质问题进行了阐述[3]。随着信息技术的发展,古籍全文数据库建设成为图书馆数字化过程中的一项迫切任务。李璐阐述了古籍全文数据库的开发方式,并结合《四库全书》电子版的开发过程,深人分析了图文结合方式建立古籍全文数据库的系统流程与原理,同时指出当前我国古籍全文数据库建设进一步努力的方向[4]。古籍善本是图书馆中使用与保管矛盾最为突出的文献,而解决矛盾的最佳途径是实现数字化。陈秉仁结合上海图书馆中国古籍善本查阅系统的研制过程介绍了古籍善本数字化开发的经验[5]

20世纪90年代后期,古籍数字化开发逐渐朝着智能化方向发展。这个时期开发的数字化资源在智能支持系统的开发方面做出了有益的探索,比如字频词频统计、超文本标注、实用工具等,表明人们对数字化古籍产品基本特点认识的深化。北京大学计算语言研究所和古文献研究所合作开发的“唐宋诗计算机辅助研究系统”是这个时期的代表作品。该系统在对唐宋诗进行词汇提取和词语自动切分的基础上,实现了词汇的共现关系、对仗关系以及词汇的作者分布特征信息的系统挖掘,可提供全文检索和字频统计分析以及诗句相似性检索等功能。2005116日,由北京大学中文系李铎博士承担的国家“十五——211工程”项目子项目“《全宋诗》分析系统”通过教育部主持的技术鉴定,该系统具有重出诗提取、格律诗标注、字频统计、格律分析等智能化功能。

 

3古籍元数据研究

元数据(Metadata)是关于数据的数据,可以用来查找、存取、使用和管理信息资源以及描述与某一对象有关的属性信息。由COLC1994年开始倡导并提供经费支持的都柏林核心元数据(Dublin Core Metadata,简称DC)是目前最具影响的元数据形式,已发展成为国际标准。

国内古籍元数据研究始于1997年上海图书馆启动的第一个数字化项目——善本古籍的数字化。在上海图书馆的数字图书馆项目实施中,元数据方案的选择是其中的一个关键所在。上图采用的元数据方案是以DC为核心、多种对应于不同资源类型元数据并存的元数据集,以RDF为基础的资源描述体系将它们封装在一起。总体来说,上海图书馆对将元数据作为其数字化图书馆项目已经有了比较具体的实践性研究。北京大学数字图书馆自1999年研发以来,在元数据研究方面成果显著,有《中文元数据标准框架及其应用》、《古籍描述元数据著录规范》等研究成果,这些项目均为国家科技部重大基础课题“我国数字图书馆标准规范建设”的子项目。《中文元数据标准框架及其应用》针对具有中国特色和在我国广泛应用的数字对象,分别建立了相应的数字规范,包括格式定义、语义定义、开放标记规范、内容编码体系、扩展规则以及各种专门元数据与基本元数据的标准转换关系和转换模板;编制了各个专门元数据的应用指南、元数据定义信息、应用协议和转换工具的等级机制[9]。《古籍描述元数据著录规范》解决了古籍著录的对象范围,古籍的著录级别、古籍的基本著录单位、以及著录对象之间不同关系等有关元数据标准确立的基本性问题[6]

台湾地区的古籍元数据研究源于1999年“国家图书馆古籍文献典藏数位化计划”的实施。2001年中央研究院正式成立“后设资料工作组”(MAATMetadata Architecture and Application),进行“中文典藏品Metadata之规划与实施”计划。该计划在实施过程中制定了《诠释资料格式(Meta data)规范》。该规范除了以DC为不同诠释资料间的交换语意外,也建议以XML作为诠释资料之交换语法,并以UTF-8作为XML记录之交换字码,内容主要包括:DC诠释资料核心集、DC诠释资料核心集之XML编码格式、DC诠释资料核心集范例三部份[7]

 

4理论研究

与古籍数字化技术研究相比,古籍数字化理论的研究则相对薄弱。尽管此间发表的古籍数字化理论研究的论文数量较多,但多集中在对古籍数字化资源的调查和利用方面,深层次理论探讨的论文则很少,主要体现在古籍数字化资源的理想(评价)标准研究和古籍数字化的影响研究上。

从已开发的数字化古籍来看,还存在着质量参差不齐、标准不一等缺撼。存在这些问题的根本原因是没有一个统一的共识即没有一个可遵循的古籍数字化评价标准。因此,在大量数字化资源被用户使用之后,尤其是经过学术界的检验之后,学者们提出了数字化古籍的理想标准,即对古籍数字化规范控制与评价标准的思考。李运富主张文物存储性的电子图形版应坚持保真为主的原则,而资料应用性的全文版则应坚持整理为主的原则[8]。史睿认为古籍数字化属于古籍整理和学术研究的范畴,必须遵循古籍整理的基本原则,懂得学术研究的基本思维过程;古籍数字化,必须以应用为指针的原则,必须建立在深人标引和严格规范控制的基础上[9]。张尚英从数字化古籍的具体文本模式和功能需求上提出古籍数字化的理想模式,认为电子化古籍没能充分体现其优势,要改变这种现状,须努力使电子化古籍在形式上不缺字、不错字、图文对照,功能上达到通用性好、检索方便、输出灵活、传输通畅、辅助研究的要求[10]

数字化古籍作为一种全新的文献存在形式,必然给人文学术研究带来研究手段的变化和研究思维模式的转换。同时,计算机强大的储存空间和自动检索功能也将彻底改变人脑记忆的限度,这必将使人脑解放出来用于更多的抽象思维活动。因此,古籍数字化从出现以来,就引起了广大学界的思考和关注。史睿从人文研究角度出发讨论古籍数字化意义及解决方案,认为古籍数字化能为人文研究提供便捷、准确的查询工具,但要实现这一目标,必须对传统古籍整理工作进行变革[11]。蒋宗福认为随着文献载体的改变,传统文化研究的手段也应该有一个大的现代转换。在此基础上,他提出应充分利用计算机进行资料搜集、数据分析和统计等辅助研究充分利用互联网提供的资源共享[12]

值得一提的是,20049月《光明日报》理论周刊与国学网联合主办了“国学与现代化”征文活动。这次活动旨在探讨现代信息技术对传统文化和学术研究带来的新的影响,征文引起了社会各界的关注。2005年《文学遗产》第1期和第5期先后刊登了《关于古代文献信息化工程与古典文学研究之间互动关系的对话》(李铎、王毅)和《古籍数字化与古典文学研究的未来》(郑永晓),专门就古籍数字化与古典文学研究之间的关系进行了讨论。

 

5结论与思考

通过以上的研究回顾,我们可以发现古籍数字化研究的两个特点:

一是图书馆学界、信息管理学界参与的多,古籍整理学界参与的少。从古籍数字化资源开发主体和发表论文的作者来看,参与开发和研究的单位与人员以及目前活跃在古籍数字化研究中的专家,绝大多数属于图书馆界和信息管理界,而真正从事古籍整理的单位和人员则很少参与。另外,目前部分院校的信息管理学专业已开设了古籍数字化课程,如南京农业大学信息管理系侯汉清教授为硕士生开设的《古籍的数字化整理》、台湾国立中山大学开设的《中文典籍数位化》、台北大学开设的《中文古籍自动化与利用》。这些课程都不是针对古籍整理专业的学生而开设,而是面向人文学科学生的信息基础素质教育,主要是为了指导学生了解并能够检索和利用古籍中的文献信息。而令人遗憾的是,国内古典文献学专业至今未见开设这类课程。这与国内的学科分工过细有关。由于专业分工过细,文理不通,古典文献学专业从本科阶段就与计算机信息技术产生了阻隔。而必须指出的是,古籍数字化决不是单纯的计算机技术工程,必须要有古籍整理专业人员的参与才会有比较良好的发展前景。

二是技术实践进展迅速,理论研究相对滞后,尤其是系统理论缺乏。古籍数字化只是古籍整理手段的革新,这种变化仅仅是外在技术发生了改变,而本质上仍然属于古籍整理。古籍数字化在资源开发时必须注意版本选择、文字校勘、文献辨伪和考证,从事古籍数字化工作的人员也必须要有古典文献学的基本知识。由于古籍数字化还处在早期阶段,技术问题仍然是古籍数字化关注的焦点,加之古籍整理学界极少参与,因此对于古籍数字化的理论思考,尤其是从古籍整理学角度的思考,显得十分薄弱。尽管国内已有部分学者对古籍数字化的相关理论做出了阶段性的思考,如潘树广等《文献学纲要》第八章“计算机与文献的生产和检索”、刘琳、吴洪泽《古籍整理学》第九章“古籍整理手段的现代化”以及苏州大学陈诚和东北师范大学王冠中的硕士论文《论古典文献数字化》(2004)、(中文古籍数字化成果与展望)(2005),但多集中在古籍数字化资源的利用与检索、古籍数字化面临的问题及解决对策和古籍数字化所带来的冲击和影响等方面的探讨。我们必须明确,古籍数字化本质上属于古籍整理学的范畴,必须遵循古籍整理学的规律。“古籍数字化的理论问题比技术问题更为重要,因为一旦理论发生了偏差,技术越高明,则解决方案越是难以成功。”正是因为缺乏古籍数字化理论的指导,才造成了目前古籍数字化理念上千差万别、质量上参差不齐和标准上各自为阵的局面。因此,建立古籍数字化的系统理论就显得十分迫切。

 

注释:

[1] 林兴国,杨怡:古籍机读目录格式设计[J].四川图书馆学报,19992.

[2]鲍国强:古籍机读目录的文献连接技术及其应用[J]国家图书馆学刊20022.

[3]范俊红:浅议古籍书目数据库的建设[J].图书馆学刊,20036.

[4]李璐:古籍全文数据库建设的技术与实践[J].图书馆学研究,200411

[5]陈秉仁:古籍善本数字化的尝试——中国古籍善本查阅系统述略[J].现代图书情报技术,19981.

[6]http://www.idl.pku.edu.cn/pdf/metadate4.pdf [2005-12-10]

[7]以上见参见http://www.ncl.edu.tw/bulletin/regulations/12-1诠释资料.doc

[8]李运富:谈电子版古籍的保真原则和整理原则[J].古籍整理研究学刊.2000l

[9]史睿:古籍数字化的基本问题(论纲)[J].文津流觞,第8期。

[10]张尚英:古籍电子化问题探析[J].安徽师范大学学报(社科版),20022

[11]史睿:论中国古籍的数字化与人文学术研究[J].国家图书馆学刊,19992

[12]蒋宗福:中国传统文献与研究的现代转换[J].四川大学学报(哲社版),20013

 

参考文献:

1陈郁夫等:科技新贵与古籍佳人的结合——中国古籍电脑化[J].国文天地,19909

2李国新:中国古籍资源数字化的进展与任务[J].大学图书馆学报,20021

3张轴材:《四库全书》电子出版工程与中文信息技术[J].电子出版,l9993

4北京中易郑码新技术有限公司.历史文献全文数字化——难点与解决方案[J].数字与缩微影像,20051

5赵燕波:汉学研究进人“四字节时代”.人民日报.2005-12-06:14

6胡俊峰,俞士汶:唐宋诗之计算机辅助深层研究.[J].北京大学学报(自然科学版),20015

7刘炜,赵亮:上海图书馆数字图书馆元数据方案.e线图情 http://www.chinalibs.net [2003-8-28]

8高柳宾:我国元数据研究发展状况分析研究[J].大学图书馆学报,20013

9肖珑等:中文元数据标准框架及其应用[J].大学图书馆学报,20015

10史睿:论中国古籍的数字化与人文学术研究[J].国家图书馆学刊,19992

 

毛建军:南京大学中文系文献学专业05级博士生。

 

原载:《国家图书馆学刊》2007年第3期(总第61期)
收藏文章

阅读数[10950]
百年·红楼梦 网络文化与文学研究
网友评论 更多评论
如果您已经注册并经审核成为“中国文学网”会员,请 登录 后发表评论; 或者您现在 注册成为新会员

诸位网友,敬请谨慎网上言行,切莫对他人造成伤害。
验证码: