Web信息自动标引方法比较
(西安科技大学 图书馆,陕西 西安 710054)
摘 要: 文章介绍了自动标引的基本原理和方法。讨论了基于知识库的网页自动标引、基于UCL的网 页自动标引和基于遗传算法的网页自动标引方法,并对这三种网页自动标引方法进行了分析 和比较。
关键词:网页;Web;自动标引;知识库;UCL;遗传算法
中图分类号:G252.7 文献标识码:A 文章编 号:1007—6921(2009)07—0250—02
随着Internet的快速发展,Web已经成为跨全球的信息源。由于Internet信息量巨大且大量 的信息为半结构化的,因此网页信息的标引有着非常重要的意义。目前虽然人工标引准确、 检索效率高,但标引速度慢、成本高、标引一致性差,远远不能满足网络信息加工的需求, 因而借助于计算机对网页进行自动标引,全面、准确、高效的自动提取网页的信息是十分必 要的。本文在介绍自动标引基本原理和方法的基础上对目前已研究的三种web信息自动标引 方法进行比较分析。
1 自动标引基本原理和方法
自从1957年,美国IBM公司的H.P.Luhn首次将计算机技术引入文献标引领域,开创以 自动标引为特征的现代标引方法以来,人们试用了各种各样的方法,取得了不同程度的成功 ,我们可以将这些方法大致的归纳为五类,即:统计标引法、概率标引法、句法分析法、语 义分析法和人工智能法。
1.1 统计标引法
这种标引方法是最早使用的一种自动标引方法,它根据Zipf的“省力法则”(Principle of least effort)。统计标引法依据某词在文献中的出现频率与该词的文献区分功能有密切关 系假设来选择标引词。一个词(实词)在文献中使用越频繁,就越有可能是一个指示主题的 词。该方法包括:词频统计标引法、加权统计标引法、N-Gram法等。
1.2 概率标引法
概率标引法所依据的概率主要有相关概率、决策概率和出现概率。基于相关概率的标 引法一是根据包含相同标引词的提问与文献的相关概率来标引划分文献;一是根据具有一定 联系的文献之间的相关概率来标引特定的文献。
1.3 句法分析法
句法分析法利用计算机自动分析文本的句法结构,鉴别词在句子中的语法作用和词间 句法关系。它们一般都借助词典来制定词的语法范畴,以此作为句法分析的基础,最终抽出 可做标引词的词语。
1.4 语义分析法
语义分析标引法通过分析文本或话语的语义结构来识别文献中那些与主题相关的词。 诸如:潜在语义分析标引法、相信函数模型和语义矢量空间模型等。
1.5 人工智能法
此方法实现自动标引的目的是让机器从事标引工作中的脑力劳动,即让计算机模拟标 引员完成标引文献的工作。
2 3种网页自动标引方法和技术介绍
2.1 基于知识库的网页自动标引〔1〕
中文网页的自动标引思想主要基于知识库原理。基于知识库的网页自动标引也是目前最成熟 和最常用的一种方法。
2.1.1 设计思路。任何标引——检索语言本质上都是一种主题概念的标识系统。基于知识库的网页自动标引即 是基于情报语言学的原理,实施用分类号类目词控制主题词,用主题词控制关键词,构建以 概念语义网络——《中图法》为基础的知识库。在此知识库的基础上可以实现分类语言、主 题语言和自然语言标引和检索的一体化,实现自动标引和自动分类。
2.1.2 实施步骤。基于知识库的网页自动标引主要分主题标引和分类标引。无论是主题标引还是分类标引首先 要建立知识库。人工采集训练用网页,用计算机预制一个多达几十万至几百万条的分类号— 主题词对照数据库,即知识库。下面分别是主题标引和分类标引的步骤:
2.1.2.1 主题标引。文本信息提取;停用词切分;关键词切分;主题词规范;主题词权值 计算及排序。
2.1.2.2 分类标引。词典从网页文本信息中抽取关键词,完成主题受控标引,经权值计算 、汇总、排序后形成该网页的标引主题词(串);将标引主题词(串)与分类号—主题词对应库 所形成的矢量空间模式利用一定程序算法进行相似性匹配,找出该标引主题词(串)所属若干 类号;所有类号经归并、整理得出每个类号的相似值,相似值最大的类即为该网页的分类号〔2〕。
2.2 基于UCL的网页自动标引〔3〕
2.2.1 基本思路。基于UCL的网页自动标引技术主要将基于信息内容语义理解和智能实现的URL技术应用到网页 自动标引中。UCL 技术能够在信源制作阶段对资源内容按照预先设定的标准进行自动归类并 贴上标签,用语言表达对内容的要求,建立以人为本的网络空间信息模型,通过内容筛选机 制,主动送来有用网页。它根据用户访问某类信息的频度或用户的定制自动向用户提供相关 的信息内容,从而改变用户找网页的信息获取方式,实现个性化的服务,并极大地节省用户 用于查找网页内容的时间。UCL 通常是对资源内容的类别、主题、出处、作者、关键词等做 出多维度的标引。
2.2.2 实施步骤。①HTML/XML转换:由于HTML语法不严谨,所以要实现自动标引,就必须先将信息内容规范化。XML是一种可扩 展的标记语言,其形式与内容是完全分离的,故对信息的检索比HTML更为方便。所以选择了 XML作为中间环节,将HTML转化为XML,再提取有用的UCL信息。②提取UCL信息:分析网页文档结构:
一般HTML文档由3个部分组成:HTML版本信息行、文档头部分(HEAD元素)、文档体部分(B ODY元素)。文档头包含的是一些描述性资料,如标题、关键词以及其他非文档实质内容的 数据;文档体部分给出了网页的资源内容的文本描述,这都是UCL信息需要提取的。
XML的UCL提取:HTML转化为XML,只是将资源内容的表现形式更改了,其内容是没有变化的。因此以上的网 页结构分析在XML中同样适用。
2.3 基于遗传算法的网页自动标引〔4〕
2.3.1 基本思路。基于遗传算法的网页自动标引主要是针对Web信息自动标引系统或搜索引擎索引库的建立大 多采用加权词频统计法,权值的大小较难确定,不一定符合网页内容有价值信息的分布而提 出来的一种自动标引方法,属于人工智能方法,提出利用特别适合于优化组合的遗传算法, 进行标引源权重分配的优化选择。
基于遗传算法的网页信息自动标引对Web信息自动标引提出了一种简单有效的标引源方案, 即主要考虑词语的频率(TFIDF)、词串的长度、词语首次出现的位置及词语是否出现在HTML 控制标识符〈TI-TLE〉标题中。标引源的权值设置由遗传算法设计分配,然后用这个标引源 的权值设置进行Web信息自动标引工作。
2.3.2 实施步骤。①群体规模及初始群体的选取。群体规模取为个体编码长度的一个线性倍数,是实际应用时经常采用的方法之一。②适应度函数的确定。二进制字符串的适应度测量措施定义为基于整个训练集的平均精度乘以一个因子。对于每篇 训练网页,定义匹配数是由机器输出的标引词同人工标引给出的标引词之间相符合的个数。 总匹配数是对每类网页所有网页的匹配数的总和。那么精度就是每类网页的总匹配数除以每 类网页由机器输出的总标引词数。③遗传策略的选择。遗传策略的选择是基于遗传算法的网页自动标引的一个非常重要的环节,文献4采用Genitor 遗传算法,这是一种稳定状态的(steady-state)遗传算法。④算法的终止。
终止准则一般有两种:一种是经过对特征群体进行遗传操作,得到下一代特征群体,再计算 每个个体的适应度,返回到遗传操作,直到运算到指定的最大代数;另一种是当相邻代的平 均适应度差值很小时终止遗传操作,也就是找到了最优特征组合。
3 3种网页自动标引技术比较
3.1 基于知识库的网页自动标引
基于知识库的网页自动标引是目前最成熟也是使用最多的一种网页信息自动标引技术,他主 要采用统计标引法。
网页文本信息自动标引和分类系统是基于知识库设计的,综合采用了多种计算机主题标引技 术和分类技术。系统具有下列主要特点:①以《中图法》分类体系为核心,构建了由多 种词库整合而成的概念语义网络,即知识库,为自动标引和自动分类的实现提供了强有力的 保证。②根据对网页语法特征的抽样统计和分析,确定了网页文本信息的标引源和加权 方案,并具有一定的通用性和适应性。③在主题标引方面,系统采用“统计分析法”改 进了词典切分标引法,进一步增加了对网页新词的识别和标引能力采用“关键词最长组配法 ”提高了标引词的先组度。④在分类标引方面,系统采用“词面相似度”算法实现主题 词串的归类问题,较好地克服了用单个词定类的缺陷,而且能够实现多层详细分类。
3.2 基于UCL的网页自动标引技术
基于UCL的网页自动标引技术主要是基于语义分析法,语义分析标引法通过分析文本或话语 的语义结构来识别文献中那些与主题相关的词,是目前研究的热点,也是一个难点。
基于UCL的网页自动标引技术的系统已经通过了程序的调试,在网页资源中可以提取一些基 本的UCL字段,比如:网站名、文本的分类、文档标题、使用的语言以及发布日期等等。同 时通过对XML文档树的遍历可以方便、快捷地实现对网页的自动标引。随着互联网的发展, 更多的网页和数据库都将使用XML,这将大大地提高UCL自动标引的效率,使UCL的个性化服 务在网络飞速发展的社会中更具竞争力。
3.3 基于遗传算法的网页自动标引
基于遗传算法的网页自动标引主要是基于人工智能方法。也是目前研究的一个热点。
基于遗传算法的网页自动标引从标引词应反映文献主题内容这一原则出发,对加权词频统计 法的标引源权值的设置进行了基于遗传算法的Web信息自动标引的改进,利用遗传算
法在训 练文档集上寻优得到网页标引源的最优权值设置,然后将最优权值设置的模型应用于Web信 息自动标引。
文献4经过对雅虎新闻网页的实验证明,基于遗传算法的Web信息自动标引方案达到了较好的 自动标引效果,有效地提高了标引源的权值设置的合理性、准确性,验证了理论方案的正确 性和有效性,自动标引结果准确率较高,基本达到了Web信息自动标引的要求,具有较高的 实用性。
4 存在的问题和发展方向
4.1 加权抽词标引系统存在的问题
4.1.1 没有对非文本型数据进行标引处理,尚无法适应非语法格式的网页处理。
4.1.2 尚未考虑和处理网页中的大量超链接信息。若能充分揭示这些内容及其相关性,对 网页的主题标引是非常有用的。
4.1.3 网页文本内容的处理有异于传统文本的处理,对网页文本信息标引源以及词位置 权重的确定等,有待进一步的调查和统计。
4.1.4 本标引系统仅考虑到术语中的新词识别,尚不能识别网页中出现的中外人名和团 体机构名,有待于人名、机构名的自动切分和词性标注技术的运用。
4.2 需要改进的问题
在基于UCL的网页自动标引中,由于目前对网络信息的理解与主动服务技术的研究并不 深入,基于UCL的网页信息自动标引与主动服务的研究才刚刚开始,尽管对网络信息资源的 研究在理论和实验上取得了一定的成果,但是仍然存在许多问题有待进一步研究和探索。
4.2.1 UCL的规范化问题是UCL研究和应用的关键问题。尽快建立相应的国家标准或行业 标准是UCL成功应用的关键所在。
4.2.2 网络信息资源的本体结构研究相对的滞后对信息的主动服务和智能信息网的发展 是相当的不利,需要权威部门尽快制定适合网络信息资源的本体分类标准。
4.3 展望
基于人工智能方法的研究在目前虽说是研究的热点也取得了一些成绩,但是这还仅仅是 初步的,随着Internet的发展,更多的Web网页需要进行自动标引、自动提取摘要以及自动 分类等工作,对于标引源的选择还需要继续探讨,需要在实践中进一步检验和深化。
[参考文献]
[1] 侯汉清,薛鹏军.基于知识库的网页自动标引和自动分类系统的设计[J].大学 图书馆学报,2004,(1):50~55.
[2] 仲云云,侯汉清,薛鹏军.网页自动标引方案的优选及标引性能的测评[J].情 报科学,2002,(10):1108~1110.
[3] 邢玲,史杏荣. 基于UCL的网页自动标引技术[J].计算机工程与应用,2004,(1 7):148~151.
[4] 田苗苗,许建潮,汪津,丁桂英. 基于遗传算法的Web信息自动标引研究[J].吉 林大学学报(信息科学版),2006,(9):542~547.
热门文章:
- 关于某县森林防火宣传“五进...2023-12-26
- 2024年xx市主题教育动员会上讲话2023-12-26
- 2024年度有关市人大在市直机...2023-12-26
- XX市发改委领导关于“修六心...2023-12-26
- 2024年经验做法:三大举措精...2023-12-26
- 2024年XX区长在区委主题教育...2023-12-26
- (合集)关于纪检监察干部教...2023-12-25
- 2024年度石油化工企业消防安...2023-12-25
- 加强和改进农村消防安全工作...2023-12-25
- (24篇)办公厅、办公室“三...2023-12-25
相关文章:
- 如何做好公文处理中的主题词标引2021-09-09
- 例析CALIS联合目录中文文献书...2022-03-08
- 双语教学类文献的标引与著录探讨2022-03-08
- 军内期刊论文标引中的常见问题2022-03-09
- 中文图书在版编目(CIP)分类标...2022-03-11
- 学习《掌握马克思主义思想方...2021-08-27
- 保持健康方法,The,Way,to,Keep,Fit2021-08-27
- 保持健康方法,Suggestions,to...2021-08-27
- 体育场地建设与管理方法2021-10-05
- 把握品德新课程教材目标方法论2021-10-20
- 学习习近平总书记思想方法和...2021-10-24
- 树立和落实科学发展观的方法...2021-11-05
- 现代应用文实用写作方法论2021-11-11
- 管理学发展及其方法论问题2021-11-28
- 案件审核的基本方法(第一节...2021-12-20
- 国家对于工商加快信息化建设研究2021-08-27
- 年国家开放大学电大《物流信...2021-08-27
- 年国家开放大学电大《信息技...2021-08-27
- 年国家开放大学电大《信息技...2021-08-27
- 年国家开放大学电大《信息技...2021-08-27
- 信息技术下学生英语自主学习...2021-08-27
- 信息技术与历史教学融合思考分析2021-08-27
- 音乐课堂与信息技术融合分析2021-08-27
- 信息技术教学论文六篇2021-08-27
- 中学信息技术教学论文六篇2021-08-27