飞扬范文网
当前位置 首页 >心得体会 >

Web信息检索工具的检索功能述略

发布时间:2022-03-08 15:16:05 浏览数:

(郑州大学信息管理系,河南 郑州 450052)
摘 要: 在阐述Web信息检索发展背景的基础上,详细介绍了当前应用广泛的Web信息检索功能 ,并对其作了简单的评价。
关键词:Web信息检索工具;检索工具;检索功能
中图分类号:G252.7  文献标识码:A  文章编 号:1007—6921(2008)18—0046—03

Internet的诞生与发展一直是众所瞩目的焦点,网络技术的日新月异为人们共享和交流信息 提供了越来越便捷的途径,网络已经成为人们获取信息的重要渠道,根据CNNIC〔1〕调查报告 显示,我国上网用户中有46.1%的用户上网最主要的目的是获取信息,搜索引擎占用户常用 网络服务的62.7%,信息检索和信息获取服务充分利用网络跨越时空传递信息的优势,是web 服务的一个至关重要的部分。现在,Web发展为一个动态交互的多媒体资源融合的平台,促 使Web信息检索发展为Internet上主流的检索方式,虽然它的发展时间并不长,但是已由功 能单一、种类稀少进入到了功能多元化、种类多样的发展阶段。
1 Web信息检索的两类检索功能
1.1 分类浏览检索功能

分类搜索引擎的分类方法是一种以主体对象为中心的实用分类体系,在类目体系纵向展开上 ,使用了多维划分和多元展开的形式,利用超文本链接,往往有针对性地同时用多个引用次 序,使用类似多表列类的方法,同时设置多个类目体系,建立多维的系统,使得用户可以从 不同的角度进行检索。在横向关系的揭示上,通过重复反映的方式充分揭示相关主题,包括 多属性主题和相关主题。

分类搜索引擎可以清晰方便地查找到某一大类信息 比较符合传统的信息查找方式尤其适合 那些希望了解某一方面或范围信息,并不严格限于查询关键字的用户,但分类搜索引擎的搜 索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,有可能遗漏某些重要的信 息源。
1.2 关键词检索功能 

检索时直接在搜索引擎提供的检索对话框中输入要检索的关键词进行的检索,输入的关键词 可以是单个词汇,也可以是多个词汇,通过组配的方法进行比较复杂的检索。

关键词检索技术实质是人工或计算机对数据库信息内容预先进行加工,即对文献内容全面地 分析,将那些出现在文献的标题、文摘、正文中能反映文献主题概念具有实质意义的词语抽 取出来进行标引,通过文献标引来揭示文献内容,进行信息资源定位。用户根据自己的信息 需求,利用系统提供的关键词检索入口,输入自己选定的关键词,系统按照用户的查询指令 查找符合条件的对应内容,并把检索结果组织起来提供给用户的一种检索方式。
2 目前比较常用的两类检索功能
2.1 布尔检索

布尔检索是指通过标准的布尔逻辑关系词来表达检索词与检索词的逻辑关系的检索方法,主 要关系词有And、Or、Not。①And关系,称为逻辑与(逻辑乘),用关系词And表示,表示它 所连接的检索词必须同时出现在结果中才能满足检索条件。②Or关系,称为逻辑或(逻辑加 ),用关系词Or表示,表示它所连接的两个检索词中任意一个出现在结果中就能满足检索条 件。③Not关系,称为逻辑非(逻辑减),用关系词Not表示,表示它所连接的两个检索词中 应从第一个概念中排除第二个概念。如果说,使用多个关键词进行检索可改善关键词的检索 性能,那么,布尔检索是保证多关键词检索正确操作的基本规则。布尔检索对关键词检索效 率的改进是多功能的,即它既可用于提高检准率的目的,也可用于提高检全率的目的。不过 ,两者之间存在着互逆相关性,即使用And何Not运算符会影响检全率,使用Or运算符会影响 检准率。
2.2 限定桂索 

这是在网络信息检索工具中使用得相当广泛的检索方法,一般可缩小检索范围,从而减少不 需要信息的输出。限定检索均属选项,限定条件多种多样,包括:①限定字段,也称字段检 索,即限定关键词必须是处于页面中的某个位置的。如限定在标题、统一资源定位器(url) 、链接文字、网页文字 、特定站点等部分;②限定网页深度(即网页层次);③限定在某一 专题内检索。如果网络信息检索工具设有某些检索专题,则关键词可限定必须出现在某个专 题内,如新闻组、黄页、白页、电子邮件地址、广告、道路地图、股票行情,热点商业新闻 等等;④限定检索对象(站点类型 )。如新闻站点、个人同页、商业站点、非盈利站点、教 育站点、军事站点、政府站点等等(根据域名后轻);⑤限定网络资源类型。公司信息、指南 和名录、活动公告信息、拍卖信息、学习信息、新闻发布信息等等;⑥限定数据类型。如文 件、声音、图像、音像、HTML 的成分、内含编程语句等等;⑦限定日期。如特定日期之前 或之后的网页,最近某段时问内建立或修改的网页等等;⑧限定地区或域名。可以看出,某 些限定条件检索对减少不需要信息的输出具有重要意义。
2.3 截词检索 

截词检索,是使用截词符(通配符“*”),表示作为检索用词的关键词的某部分允许有词 形变化。截词检索包括右截词(后端截词、前方一致)、左截词(前端截词、后方一致)、中 间截词(前后方一致)和左右截词(中间一致)。

截词检索有字面成族的作用,而字面成族的词中有一部分或大部分甚至全部又是概念成族的 ,所以利用截词检索可提高检全率,但会带出一些误检的网络资源。绝大部分网络信息检索 工具都具有截词检索功能,在网络信息检索工具中使用的主要是右截词,部分支持中间截词 ,左截词则极为罕见。截词必须适可而止,截去部分过多会太大增加误检率。与截词检索基 本相同的是自动添加语法变化词。这种方法没有带出误检资源的副作用,但必须有一个词形 变化对应表作为条件。
2.4 加权检索

它是对布尔检索的改进,可在既保障检全率又保障检准率的前提下,按相关性排序输出检索 结果。即相关度最高的信息资源排在最前,相关度最低的信息资源排在最后。加权检索方法 在网络信息检索工具中使用时,大多是采用简化的方式,即使用“+”号或选择“must cont ain”表示某个关键词“一定要出现”在检索结果中或某项内容“必须包含”在检索结果中 ;使用“一”号或选择“must not contain”表示某个关键词“一定不能出现”在检索结果 中或某项内容“一定不能包含”在检索结果中;不加符号或选择“should contain”表示某 个关键词“可以出现”在检索结果中或某项内容“可包含在”检索结果中。
2.5 自然语言检索

自然语言检索大体可分为:①基于关键词的检索:②自动标引:③自动分类。其基本原理是检 索工具在受理检索提问时,利用禁用词表剔除那些没有实质主题意义的词如介词、副词、常 用请求词 (如 please、 would you、may等)及表达检索指令的动词 (如find、look— up、 search)等,然后将其余的词自动转换成关键词进行检索。由于自然语言表达概念的自由度 很大,又存在着大量的同义和近义现象,再加上自然语言标引不用词表,无法对有属分关系 和相关关系的概念进行显示,因而会造成一定程度上的漏检。目前解决这一问题的方法一般 是采用后控词表。后控词表类似于入口词表,是一种转换工具和扩检工具,实现了自然语言 和受控语言的结合。但是,即便如此,自然语言仍然存在着一定的局限性:首先,解决大量 的同义现象必须依赖于利用受控词表进行逻辑“或”的运算,需要不断重复操作,降低了检 索效率;另外,选定受控词要符合文献保证与用户保证原则,而词表又具有一定的凝固性, 因此又会影响查全率。
2.6 概念检索

概念检索即通过对文献中的原文信息进行语义上的自然语言处理,析取各种概念信息,并由 此形成一个知识库,然后根据对用户提问的理解检索知识库中的相关信息以提供直接的回答 。概念检索主要有两种:同义扩展检索和相关概念联想。

当用户输入一个关键词后,检索工具不仅能够检索出包含有这个具体词的结果,还能检索出 那些包含有与该检索词属于同一概念的其它词的结果。概念检索实现了受控语言的一部分功 用,即考虑到了同义词、广义词和狭义词的使用。例如,运用概念检索,如果输入检索词  “automobile”,不仅可以得到包含“automobile”的结果,还可以得到包含有“truck” 、“van”、“bus”甚至于包含“Crysler”、“Gen—eral Motors”等词的结果。Excite 的“智能概念提取”技术在这方面做得比较成功。
2.7 相似检索

相似检索指用户在得出某一检索结果后,还需要得到与该结果类似的更多的信息而采取的进 一步的检索方法。其检索原理是检索工具对选定的结果网页进行关键词的词频统计和位置分 析,以确定某一关键词在该网页中的相关度,然后把相关度值较大的那些关键词作为下一轮 检索的检索词。例如,在Excite中,就可以点击“More Like This”链接进行相似检索,而 Lvc0s和Webcrawler的相似检索则是通过点击其结果页面的“similar pages”实现的。
2.8 专题检索

题检索大多是围绕用户所关注的热点问题而设置其内容的,不同检索工具都有自己各具特色 的专题检索栏目。例如Excite就提供了电话簿(Yellow Pages)、人物(People Finder)、地 图(Maps& Direction)、电子邮件(E—mail Look—up)、股市行情(Stock Quotes)、气象(We ather)等的检索;HotBot则提供了对新闻组(News)、白页(White Pages)、黄页(Yellow Pag es)、域名 (Domain Names)、广告(Classifieds)、道路地图(Road Maps)等的检索;OpenTe xt提供了金融检索(Finance)、就业检索(Employment)、商业新闻(News)、公司与人名检索( Companies/People)、旅游检索(Trave1)等内容的专题检索。
2.9 智能化检索

智能化检索的核心是网络信息检索工具必须具有智能化的人机接口和系统推理能力,要能够 准确判定用户检索提问与数据库文档之间的关系,并能对用户的潜在需求做出比较准确的分 析与判断。对用户检索需求的智能化理解需要检索系统从概念层次上来理解用户的提问,已 有的做法有基于同义词表、蕴含词表等入口词表辅助进行领域和概念的扩充。除了词表方式 ,还可利用自然语言处理技术,对提问加以分析。这一功能可通过三种途径实现:①对用户 的检索行为进行观察和搜集,将所有输入同样检索词的用户选择浏览网页的情况累计统计, 从而就能够分析出对应于该检索问题的最有用的网页,HotBot的“my HotBot”和Infosee的 超精度检索(Extra Search lh"ecision)就在一定程度上实现了这种功能;②是采用基于检 索结果中某网页出现频率统计的智能化软件(如popularity engine),它能区分相似的网页 ,并综合考察网页的名次、声望和可用性等因素,从中选出并显示与检索提问最匹配的检索 结果;③是以网址的权威性(authorities)为排序原则来选择网址,这实际上相当于传统检 索中的引文分析方法,被引用得最多最频繁的文献往往是具有权威性的。
2.10 检索提问的修改与限制

大致有三种情况:①网络检索工具对用户输入的检索提问进行分析并提供若干相关词供用户 选择。比如Alat Vista可在结果页面点击 “Refme your search”进入修改检索界面,在修 改检索界面中,用户可以选择要求纳入 (Require)某些真正相关的词汇或排除 (Exclude)那 些实际不相关的词而重新进行检索,这种方法有助于提高查全率。②用户可以在键入检索提 问之前或获得检索结果之后,从语种、类别、日期、地理范围、域名范围、数据类型等方面 进行限制,以检得确切的信息。例如 Infoseek提供的“类别检索方式”可将检索限制在某 个类别中进行,用户既可以在高级检索界面的“search by collection”中定义所要求的类 别,也可以在简单检索中用管道方式进行类别检索。③可以在检索结果的基础上进行二次检 索,即把新一轮检索限制在已检得的结果范围之内。infoseek就提供一种“在结果内检索”  (search within these results)的方式,这种方法有利于提高检索速度和检索的精确度。 
2.11 按相关度排列检索结果

每个网络信息检索工具都有按相关度排列检索结果的功能,这项功能可在大量的检索结果中 ,使用户首先阅读内容可能是最相关、最有用的网络资源。按相关度排列检索结果,一般采 取把全部包含所输人的若干个关键词的网页排在最前面,把只包含一个关键词的网页排在最 后面的方法。有的检索工具则提供多种检索结果排列方案,如:所有关键词是否都出现在页 面中;按照关键词在页面中的密集程度(出现频率)排序;按照关键词是否出现在页面开头部 分排序:按照关键词是否出现在页面标题中排序等。用户可选择若干种排序方案,每种分级 打分,然后计算总分。
[参考文献]
[1] 马张华.分类搜索引擎对分类法发展的贡献及相关问题讨论[J].中国索引,2 005,(3).
[2] 潘瑞冰.论网络信息的自然语言检索[J].图书馆学刊,2006,(5).
[3] [美]弗莱茨·施奈德,等.Internet第一搜索引擎——google[J].检索指 南,2005,(1).
[4] 陈杰.主体搜索引擎中的网络蜘蛛搜索策略研究[D].硕士论文杭州:浙江 大学,2006.
[5] 储荷婷.Interaet网络信息检索——原理、工具、技巧[M].北京:清华大学 出版社,1999.
[6] 宛文红.WWW信息检索工具的类型分析与有效利用[J].现代情报,2006,(6 ).
[7] 张琪玉.网络信息检索工具增强关键词检索功能的措施[J].图书馆杂志,200 1,(1).
[8] 张喜年.网络信息检索工具的检索功能述略[J].图书馆理论与实践,2003, (2).
[9] 张秋霞,闫秀萍.网络信息检索[J].长安大学学报,2001,(12).
[10] 朱小平.关键词检索技术及应用技巧[J].咸宁学院学报,2006,(4)

相关热词搜索: 信息检索 检索 功能 工具 Web