浅谈网络环境下数字图书馆资源的检索
(新乡学院 图书馆,河北 新乡 453007)
摘 要:文章阐述了网络环境下数字图书馆信息的检索技 术,分析了在此技术上对信息检索结果的排序、分类、总结等作出处理,提出了今后网络环 境下数字图书馆信息的检索技术发展方向。
关键词:搜索引擎;布尔逻辑;数字资源;图书馆
中图分类号:G250.7 文献标识码:A 文章编号:1007—6921(2009)13—0138—02
随着信息技术的发展和数字化时代的到来,特别是网络技术、数码存储与传输技术等的全面 普及,使得人们对文献信息的加工、存储、查询、利用等方面有了新的要求,因此,数字图书 馆也就应运而生。数字图书馆以组织数字化信息及其技术并提供有效服务,将分散于不同载 体、不同地域的数字化信息资源以网络化方式互相联结,提供利用,实现资源共享,用户可以 通过网络高效方便地查询、检索信息以获得信息服务,它作为一个海量宽带多媒体网络系统 ,将是未来社会人们工作、学习、生活的重要平台和前提性条件。因此,如何做好数字图书馆 的资源检索并对检索结果进行分类整理将是一项重要工作。
1 主要的检索技术
1.1 字段限定检索技术
字段(field)是组成记录的基本信息单元。每一个字段都描述文献的某一方面的特征,包括外 表特征和内容特征。各种文献型数据库虽然字段数量、字段名称等可能不一样,但文献的基 本特征都会包括在内。综合各个数字图书馆的数据库字段,主要有:题名、作者、出版社、出 版地、出版时间、关键词、分类号、目次、全文等。各个数字图书馆提供了限定检索技术字 段。大多数数字图书馆均提供了题名、作者、出版社三个字段的检索,而其他字段则各有所 侧重;而少数的数字图书馆只提供了关键词字段检索,其他字段差别很大。
1.2 索引浏览检索技术
检索完成后分析发现,通常会出现因为检索词的错误输入而产生的明显错误,这个问题可通过 允许检索者从数据库中按字母排列的索引表中浏览和选择条目来解决。这对于人名检索尤其 有用,因为会出现大量拼写和形式不同的名字。索引浏览检索对于不熟悉数字图书馆内部结 构、资源组成的用户提供了一种直观方便的检索方法。大多数数字图书馆只提供分类目录检 索,而少数数字图书馆常提供主题、字顺浏览检索。
1.3 截词检索技术
所谓截词(truncation),是指检索者将检索词在他认为合适的地方截断。截词符(又称通配符 )的形式一般有两种,“*”和“?”,采用这种方法可以在某种程度上检索出非确定的信息, 以及在检索结果较少的情况下扩大检索范围。按照截词字符的个数,可分为无限截断和有限 截断;按照截词的位置,可分为左截断(后方一致)、右截断(前方一致)、左右截断(中间一致) 、中间截断(前后一致),以右截断和中间截断比较常见。在西方语言文字中,一个词可能 有多种形态,而这些不同的形态,多半只具有语法上的意义,从用户的角度看,它们是相同的。 在中文文献中,如果两个词的某一部分相同,其内在概念上应有必然的联系,检索时不可忽视 。因此,大多数检索系统都采用将检索词截断来进行检索匹配,从而在一定程度上避免漏检。
1.4 布尔逻辑检索技术
布尔逻辑检索技术是检索系统中应用最广泛、专业检索人员最常用的检索技术之一,同时也 是最早建立的检索理论。信息专业人员在检索服务中运用布尔逻辑算符已有很长的历史,对 无经验的用户来说,使用布尔逻辑算符比较生疏。它是最简单、最基本的匹配模式,其理论基 础是集合论与布尔逻辑。逻辑运算有与、或、非三种。逻辑与一般用“and”、“&”、“+ ”、或空格表示;逻辑或一般表示为“or”、“|”、“,”;逻辑非的表示方式通常有“not ”、“!”、“—”。数字图书馆一般能提供这个功能。大多数数字图书馆均支 持布尔逻辑检索, 但是运用的逻辑算符较少。
1.5 词组检索(phrase)技术
词组检索也称为短语检索,或字符串检索。它是将一个词组或短语用双引号“”括起作为一 个独立运算单元,进行严格匹配,以提高检索准确度的一种方法。当用户输入一个短语时,检 索系统根据禁用词表过滤掉禁用词,将有检索意义的词保留下来重新构筑检索式,提供高级检索界面,支持布尔逻辑运算,支持特征字段检索、权重检索和相邻检 索,例如,以“热点新闻”作为提问关键词检索时,检索结果则仅
反馈热点新闻的内容。几乎所有的数字图书馆都支持词组检索。
1.6 基本/高级检索技术
基本的检索界面通常是提供给初学者使用的,它不提供复杂的查询指令,但是对于有经验的用 户来说,如果想要得到最相关的结果,那么就必须使用高级检索界面来支持所要输入的复杂的 查询指令。因此,一个高效的数字图书馆检索系统既要提供基本检索,还应提供高级检索,以 满足不同用户的检索需要。
2 检索结果的输出
数字图书馆以其海量存储而著称,且支持全文检索,因此输入任一关键词,检出结果动辄成千 上万,如果数字图书馆不能实现检出结果的多种排序,那么要在检索结果找到所需信息,犹如 大海捞针。因此,检出结果排序是评判数字图书馆检索技术优势的一个重要技术之一。各数 字图书馆输出检索结果显示功能主要有以下几方面,人们可根据这些功能,在实际操作中加 以恰当应用。
2.1 支持检索结果排序
在检索结果排序方面,数字图书馆检索工具不仅能按时间排序,而且用户可以选择相关性排 序。所谓相关性排序,是指进行自然语言检索时,其检索结果集由包含提问式中任意词的记 录组成,以包含提问式中检索词的多少作为相关性指标对检索结果进行排序,提问式中的词 在文章中出现的次数越多,则表明它与检索要求越相符,越接近检索者的要求,在显示结果 时就排在最前面。
2.2 提供统一的显示格式
数字图书馆系统使用统一检索界面,对检索结果实行按类别、分层次显示方式。所以,尽管 数字图书馆系统对用户选定的数据库采用跨库检索方式,但在结果显示时还是分出数据库的 类型,并分别列出匹配记录的题录或摘要信息,用户在浏览题录后,再进一步选择是否需要 全文。
2.3 实现超文本链接
在显示检索结果中,对摘要或全文中出现的某些主题词提供链接点,具体工作原理是:利 用自动搜索机自动收集网页上的元数据。具体讲,包括以下两方面:①搜索与链接。输 入起始网址,并输入一定的限制条件来限制搜索范围。整个网络有成千上万个网址,如果不 加任何约束,搜索几乎是没有尽头的,并会耗尽机器资源。所以,要通过IP过滤、限定从起 始网址出发向下搜索的层次等方法来加以限制。如只在图书馆的内部网、某一专业网站上等 进行搜索。工作时,先从起始网址读入此网页的源文件,搜索标签内的元数据,如果发现有 符合要求的定义和格式,则再检查该网页的元数据是否已在前次搜索中存入数据库,如此反 复,用新的元数据覆盖现在的元数据,否则需要在数据库中加入新的网址和元数据。接着, 找出该网页上所有的链接地址,将它们按顺序存入一个地址队列的末尾。下一个循环开始后 ,从地址队列前头取出一个网址,如它符合限制条件,且和已搜索过的网址不重复,则再次 开始搜索该网页的元数据和链接地址。反之,则跳过此网址,从地址队列中取出下一个网址 。整个过程周而复始,直到地址队列中所有的网址都被搜索一遍。网址的收集和处理由机器 自动完成,但必须由人工最后审定。为此必须有一个明确的选择标准和策略,以便使任何可 以访问的可靠数据源都在选择范围之内。发现标题有所改动,就应该进行更新。最终建立一 个以学术信息为主的检索工具。②索引和检索。因特网的所有网页都在符合检索内容的 索引范围之内,应用搜索引擎技术分析网页中所有句子以确定关键词,这些关键词将与某一 词相兼容,并形成一个后控词表。摘要将由关键词所涉及的网页内容组成。同时,索引人员 将对记录进行审查,以确定其是否符合选择标准,所有关键词和所做摘要是否恰当,后控词 是否得到正确应用。然后这条记录才被增加到网络信息资源库中去。在检索过程中,检索工 具对符合检索策略的命中记录做出标记,显示检索结。
3 结束语
当前,大多数数字图书馆检索技术是采用20多年前发明的基于文本的数据库检索技术,吸取 了传统书目检索、联机检索的检索技术,如布尔逻辑检索、字段限定检索、截词检索等,并且 在其他检索技术上有所创新,如字段限定检索,增加了一些新的检索技术如全文检索等,基本 上满足了读者对文本信息的检索需求;而基于内容的数字图书馆检索技术尚处于研究开发阶 段,目前大多数数字图书馆未见基于内容的图像图形检索。数字图书馆检索的信息不仅是文 本的,更是多媒体的,因此,基于内容的图像图形检索技术是今后数字图书馆发展的重点和方 向。
[参考文献]
[1] 吴校连,夏旭,黄开颜,等.生物医学搜索引擎与网络信息资源建设[M].上海: 第二军医大学出版社, 2002.
[2] 朱铁稳,黄菊香,唐波,等.数字图书馆和多媒体数据库的检索技术[J].计算机 工程与应用, 2002,(9).
[3] Smith, AlastairG. Search features of digital libraries[J].Informat ion Research, 2000, 5(3).
[4] 段其宪,时永梅.网络检索工具的比较研究[J].情报科学,2001,(6).
[5] 黄海.中文搜索引擎核心技术之争[J].图书馆杂志,2001,(3).
[6] 胡晓峰,刘 毅. QIBC:一个典型的基于内容的检索系统[J].微型计算机,1996 ,(6).
热门文章:
- 2024研究思考:探索开展村(...2023-12-26
- 2024年心得感悟:强担当抓落...2023-12-26
- 主题教育心得:新时代思想政...2023-12-26
- 在共青团第x次代表大会开幕式...2023-12-26
- 2024年度常委宣传部长在主题...2023-12-26
- 2024年xx队伍安全管理集中排...2023-12-25
- 2024年党课:习近平大历史观2023-12-25
- 本科毕业自我鉴定范文通用版...2023-12-05
- 党员代表在党支部成立大会上...2023-12-05
- 党委领导班子民主生活会剖析...2023-12-05
相关文章:
- 浅谈煤矿安全生产评价体系构建2021-08-27
- 浅谈农村有线电视网络故障维修2021-08-27
- 浅谈医院成本核算精细化管理2021-08-27
- 浅谈生态建筑建筑设计应用2021-08-27
- 浅谈WiFi智能灯光控制系统设计2021-08-27
- 浅谈初中历史教学德育渗透2021-08-27
- 浅谈计算机教育教学创新2021-08-27
- 浅谈历史教学学生责任意识培养2021-08-27
- 浅谈临床医学检验重要环节质...2021-08-27
- 浅谈初中德育教育工作论文2021-08-27
- 基于手机移动技术的数字图书...2022-03-07
- 数字图书馆的特点与问题探讨2022-03-09
- 有关数字图书馆及相关技术问题2022-03-09
- 谈数字图书馆的建设与发展2022-03-09
- 数据挖掘技术在数字图书馆中...2022-03-11
- 论数字图书馆的个性化服务2022-03-11
- 浅议数字图书馆建设2022-03-11
- 论数字图书馆发展中的人才开发2022-03-12
- 高校数字图书馆资源积累模式...2022-03-12
- Web服务与数字图书馆的开放模...2022-03-12
- 乡镇年环境保护突发事件应急预案2021-08-27
- 市领导环境保护工作会议上讲...2021-08-27
- 全市城乡环境卫生综合整治工...2021-08-27
- 谈高校校园景观环境设计2021-08-27
- 艺术设计心理学下环境设计2021-08-27
- 谈国际经济贸易对环境影响2021-08-27
- 环境设计专业教学中对分课堂应用2021-08-27
- 内河水运航道船闸扩容改造工...2021-08-27
- 浅谈城市老年建筑环境设计2021-08-27
- 现代环境设计中民俗艺术特性...2021-08-27
- 依托三江资源优势发展县域特...2021-09-13
- 对X镇立足资源优势发展镇域经...2021-09-20
- 强化资源管理,坚持依法兴林2021-09-20
- 依托资源优势 打造特色水产...2021-09-21
- 扬人文资源优势做旅游经济文章2021-09-22
- 建设资源节约型单位通知2021-09-22
- 课程资源开发和利用2021-09-28
- 小学语文课程资源开发与利用2021-09-28
- 论小学语文课程资源开发与利用2021-09-28
- 矿产资源开发秩序治理整顿工...2021-09-29