飞扬范文网
当前位置 首页 >发言稿 >

我国数字图书馆资源数字化建设研究

发布时间:2022-03-09 15:14:52 浏览数:

(国家图书馆,北京 100081)
摘 要:文章介绍了我国数字图书馆资源数字化方面的现 状,说明了资源数字化的方法,指出了在数字资源建设过程中的问题,并对资源数字化建设 提出了建议。
关键词:数字图书馆;数字资源;数字资源建设;数字化
中图分类号:G250.7  文献标识码:A  文章编号:1007—6921(2009)14—0131—02

数字图书馆建设是一项十分复杂、庞大的系统工程,融入了计算机、网络、通讯、多媒体等 多项技术。在1997年,“中国试验型数字图书馆项目”的启动,标志着我国数字图书馆建设 的开始,随之而来就是1998年提出立项申请,实施数字图书馆工程。1999年5月,国家863计 划智能计算机系统主题专家组成立了中国数字图书馆发展战略研究组,专门对数字图书馆系 统涉及的技术、管理、运营、法律等问题展开研究。2000年4月,由国务院批准的中国数字图 书馆有限责任公司正式宣布成立。2000年6月中国数字图书馆网站开通。2001年“国家科学 数字图书馆”等工程相继启动。现在,国家计委已将国家图书馆二期工程暨中国数字图书馆 工程项目列为国民经济和社会发展第十个五年计划的重点建设项目,联合国内一批有条件的 图书馆共同建设,实现数字文献资源的共建共享。历经了10多年时间,我国在对数字图书馆 的认识、理论研究、体系结构、关键技术等方面都取得了较大进展,但与国外发达国家相比 ,还是存在着较大的差距。文章主要就资源数字化方面出现的问题进行分析并提出建议。
1 资源数字化建设的概述
1.1 资源数字化的必要性

数字化是信息资源接受计算机处理的过程, 是信息资源进入信息网络的前提条件。图书馆信 息资源数字化是指:把原用纸张形式存储的文献信息转化为用计算机存贮设备中的电、磁、 光电信号存贮的信息,并实现对形式转换后的信息的计算机管理、网络传输和数字化存取[2]。其数字化不仅涉及文字信息,还涉及声音、图像等多媒体信息。
1.1.1 资源数字化是数字时代的要求。随着计算机的普及、网络技术以及信息技术的飞速发 展, 任何信息都可以用文字、图像、声音、动画等媒体形式在计算机网络中进行传输,大大 提高人们获取信息的方便性。同时,社会经济已进入以知识为基础的增长模式,社会和经济 的发展需要人们有效地利用知识,因此形成一种数字化的知识环境可以提高收集和使用知识 的效率。
1.1.2 资源数字化是数字图书馆发展的要求。数字图书馆是指对有价值的图像、文本、语音、音响 、影像、影视、软件和科学数据等多媒体信息进行收集,组织规范性的加工,进行高质量保 存和管理,实现知识增值,并提供在网上高速横向跨库连接的电子存取服务[4]。数字图书馆是在传统图书馆的基础上发展起来的,数字图书馆建设的一切工作都是围绕着数 字化信息资源建设这个核心展开的,没有数字化信息资源, 就不会有数字图书馆。

1.1.3  资源数字化是对信息资源保护、开发、利用的要求。对于珍贵的文献资料,蕴藏着极 为丰富的知识信息,需要长期保存并加以开发利用。以我国古籍文献为例,出于对古籍的保 护使得古籍的使用受到严格的限制,而通过古籍的数字化,既可以使文化知识得以方便的利 用,又使得古籍文献得到了妥善保存。
1.2 资源数字化建设的方法

文献资源数字化主要采用手工录入和扫描的方法。手工录入主要是通过人工把文献信息录入 到计算机中,不需要很高的技术含量,但工作量巨大且耗费时间,效率低。而随着扫描仪的 普及,实现了原始文献资源的快速录入,节约了时间和成本,增加了录入的准确程度。扫描的 方法是利用扫描仪和数码相机等输入设备,将各种形式的文字、图像等信息输入到计算机中, 产生以像素为单位的数字图像文件存储到计算机中,也就是说将文献或图书资料按原貌逐页 存贮为图像文件。扫描录入法的制作技术简单,可以展现文献的原貌,但不足是占据存贮空 间较大,且标引工作量大并且检索很不方便。为了改善这种扫描方式的缺点,资源数字化采 用扫描录入与文本方式相结合的图文混排的方法。其主要是应用OCR1技术,保存为所需要的 文件。并为其编制诸如,题名、主题、关键词等索引。通过索引可以检索到该页面的文件。
2 资源数字化建设中存在的问题

目前,我国主流的文献数字化加工系统主要有清华同方的TPI数字资源加工系统、北京国图 数字技术有限公司的文献数字化加工系统、北京拓尔司(TRS)信息技术有限公司数字化加工 系统和书生公司等。虽然它们在资源数字化方面取得了不错的成绩,但我国数字化信息资源 建设起步较晚,与发达国家相比,还存在着较大的差距。主要存在如下问题:
2.1 资金方面

一方面数字化资源建设之所以取得很大的研究成果,资金的大力投入是一个重要因素。如199 5年,美国国会图书馆开始实施投资6 000万美元的“美国记忆”,开发包括美国历史,文化,科 研成就的数字式资源库,将收藏于各大图书馆的多达500万页的文字、图片、音像等资料数字 化;日本以关西电子图书馆为契机,拟投入4亿美元,将其建设为日本最大数字图书馆及亚洲 地区文献提供中心。而在1998年我国公共图书馆国家财政拨款为人民币10.75亿元。另一方 面我国资源数字化建设缺少整体规划,欠缺协作性,重复建设问题严重,浪费人力物力。国 外已将总体规划,分工协作以及开发特藏作为建设数字图书馆的指导性原则。而我国各个图 书馆都热衷于引进新的设备和技术,加快本馆资源数字化,增强本馆的竞争优势。但却把与其 他机构的合作放在了次要的位置上,这种无序竞争造成了资源的浪费。
2.2 技术方面

图书馆数字信息的标准不统一,文献信息无序的状态大大阻碍了数字图书馆的资源共享、信 息互换。数字图书馆文献信息资源建设中的数据格式、描述、标引语言的标准化是关键问题 , 这直接关系到数字图书馆的信息产品是否可以共享。在我国很多公司的产品格式是不能兼  容的,都必须通过自带的浏览器进行阅读。如:方正的电子图书需要方正Apabi reader浏览 器来观看;书生公司有专门的SureReader 书生阅读器等等。
2.3 法律方面

在纸质文献的数字化过程中必然涉及版权问题。在国外已有专门的立法来处理版权的问题 。如美国在1998年10月通过的美国《数字化千年版权法》和欧盟的《数据库法律保护指令》 都对版权问题做出了说明。在我国数字复制权受到限制,我国法律认定作品数字化属于对作 品的复制,复制权是著作权人的一项专有权利,未经权利人允许擅自对他人作品进行数字化处 理,要承担侵权责任。因此数字资源的加工仅限于法律允许的“公共领域”范畴内的资料和 一些古籍,这对于数字图书馆资源建设的要求来说只是“杯水车薪”,而要取得其他信息资 源的授权就要支付报酬,这对于资金有限的图书馆来说是个巨大的问题,也是阻碍数字图书 馆发展的瓶颈。
3 资源数字化建设的建议
3.1 总体规划、加强协作、共建共享

我国在进行数字图书馆建设时,必须认识到数字资源建设是一项浩大的工程,它需要政府和 相关各界的支持,仅依靠政府投入或图书馆自身的资金和技术力量是难以完成的。因此,要 避免重复建设、浪费资金的情况, 必须打破相关各界系统之间内在的标准,建立信息资源数 字化这一全行业协调管理的机构,加强各机构合作并且制定出一整套信息资源加工制作的统 一标准。构建成为具有整体性和互联互通能力的数字化文献资源服务体系,使图书馆之间数 字化文献信息资源达到互联和共享。
3.2 认真选取、增强技术、节约成本

①由于资源数字化需要大量资金,且文献众多,就需要对进行数字化的文献进行选择。 主要遵循必要性原则、特色性原则、可行性原则。也就是说,资源的数字化的出发点是以读 者需要和对文献的保护需求来选择;要对本馆的特色资源进行数字化;是否有技术能力对文 献进行数字化。②数字化技术是图书馆资源数字化建设的关键。一方面对于先进技术的 引进(包括软件和硬件)。西方先进的技术将给我国数字化建设带来飞速发展,但在引进的 同时要有针对性地选择,选择比较成熟、兼容性强、适合我国国情的技术,以免产生技术性 风险。如先进电子设备、软件不但成本高而且更新较快,且相关标准、规则受制于这些技术 ,不利于我国的数字化建设发展。另一方面要根据文献的用途选用技术。对一般文献资料应 该选择转化速度快,存储空间小,准确率高,支持全文检索,可以网上传输等比较成熟的技 术。如OCR技术,HTML超文本标记语言、PDF2格式等。但对于善本等那些珍贵文献的数字化 ,既要保持原貌又要能推广利用,就必须采取两套数字化技术。如采用TIFF3格式文件来保 持善本的原貌,同时可以再用PDF格式文件来进行传播利用。所以资源数字化要有科学规划 、准确定位、使有限的人力、财力资源和硬件条件在建设信息资源中发挥的效能达到最大化 。
3.3 合理使用、保护版权、加强立法

版权问题是数字图书馆发展的关键问题。因此,数字图书馆建设需要法律在权利人利益和社 会公众利益之间寻找一个平衡点,以推动社会科学和先进文化的传播。①要在法律的许可范 围内,对资源进行合理使用。②处理好授权问题,合法利用。图书馆可以通过与出版社合作 ,或是采取集中授权的方式来处理版权问题。借鉴国外数字版权补偿金制度,一方面极大地 制约了权利人的权力形式, 使其绝对权利限制成为一种获得合理报酬的权利;另一方面又使 公众利用作品的行为受到限制, 使法律原本认同的许多合理使用行为变成立法许可[12 ]。③要建立和完善配套的知识产权法律法规。应参考国际惯例,吸取成功经验,并结合 我国国情,制定出图书馆行业的相关法律,并对现行的著作权法进行修订,以明确图书馆对 数字化资源版权方面的处理规定。
3.4 培养人才、开拓思路、持续发展

人才是图书馆发展的关键因素。在资源数字化过程中的方方面面都需要人才。要加大高级 专业人才的比重, 如引进计算机技术、网络技术、通讯技术等专业人才来加强数字资源建设 中的技术保障。同时还要引进既懂图书馆、信息情报等专业又懂管理的复合型人才,为数字 资源建设规划、管理、经营上指明方向。要注重对现有人员的信息素质培养,加强图书馆信 息技术、网络技术的继续教育。努力培养和造就一支能够适应数字化建设和发展要求的队伍 。
[注释]
[1] 马明霞.OCR技术在数字图书馆文档加工中的应用[J].晋图学刊,2003,(1);3 0.OCR (optical character recognition) 技术是光学字符识别的缩写,是一种 文字自动输入方式。它通过光学技术对文字进行识别,即通过扫描和摄像,获取纸张上的图像 信息,利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储 在文文章件中。 
[2] 黄晨,龚景兴.数字化资源压缩格式比较研究[J].大学图书馆学报,2004,(3): 26.PDF(Portable Document Format便携式文件格式)是Adobe公司开发的电子文档 格式。它可以保留原有文档的字体、格式、颜色、图形、图像等信息。PDF格式可以反映原 书的原貌,阅读方便,但由于OCR在对表格和混排等情况 时识别率低,增加了人工校对的工作,使得识别成本上升。为解决成本问题,又推出了双PDF, 通过双层PDF技术在第一层容纳图像信息,在第二层隐藏文本信息。这样,在浏览原文图像时, 又支持检索要求。
[3] TIFF( Tagged Image File Format 标记图像文件格式) 以任何颜色深度存储 单个光栅图像。TIFF可以被认为是印刷行业中受到支持最广的图形文件格式。对图像大小 无限制,存贮质量高,但占用的存储空间很大,可支持多种操作系统。
[参考文献]
[1] 陈晋.我国虚拟图书馆研究综述[J].图书馆建设,2002,(5).
[2] 陈光柞,雷燕.中外信息资源数字化比较研究[J].情报科学,2001,(8). 
[3] 施蓓.数字图书馆的资源建设和服务[J].图书馆工作与研究,2004,(1). 
[4] 徐文伯.建设中国数字图书馆工程 开创中华文化光辉的未来[J].中国图书馆 学报,1999,(5).
[5] 黄晨,龚景兴.数字化资源压缩格式比较研究[J].大学图书馆学报,2004,(3) .
[6] 刘薇.馆藏文献数字化及其方法[J].宝鸡文理学院学报,2003,(5).
[7] 马明霞.OCR技术在数字图书馆文档加工中的应用[J].晋图学刊,2003,(1).
[8] 黄永跃.数字图书馆中图像文件的处理[J].情报杂志,2003,(3).
[9] 刘安琴.我国图书馆古籍数字化的发展现状及其思考[J].当代图书馆,2006,( 1).
[10] 江彬.中外图书馆信息资源数字化建设比较研究[J].广东工业大学学报,200 5,(3).
[11] 郑永田,全万.数字图书馆信息资源建设研究[J].图书馆学刊,2005,(4).
[12] 杜西红.关于数字图书馆建设中知识产权的几个问题[J].理论导刊,2007,(2 ).

相关热词搜索: 数字化 数字图书馆 我国 建设 研究

相关文章: