论文部分内容阅读
随着因特网的迅速发展和广泛应用,它逐渐成为目前最大的信息资源宝库和最主要的信息交流渠道。而因特网信息资源的显著特点是量大而无序,故随之出现了“数据丰富,知识贫乏”的现象。所以要建立计算机的主动服务机制,必须采用自动化、智能化的技术,实行计算机自动标引,以全面、准确、高效地自动提取网页的主题信息。对Web信息进行自动标引可以使作者、编者和读者进行语义沟通,是进行信息快速选择、智能代理和Web信息分类的基础。
为此,论文针对Web信息资源自动标引展开了研究,其主要目的是为处理因特网信息资源提供技术支持,为普通用户检索因特网信息资源提供便利。
本文研究了计算机自动标引技术存在的若干亟待解决的问题,发现现在试验中的Web信息自动标引系统或搜索引擎的索引库的建立大多采用加权词频统计法,但在实践中,权值的大小较难确定。标引源权值的设置大多采用定性分析或主观设定,因而差异很大,而且不一定符合网页内容的有价值信息的分布。由于标引内容类型不同,很难设计出一套广泛适用的权值体系。因此有必要找到一种方法,能根据不同文章的不同特点调整权值,使这样一种“静态不变”的权值变为“动态可变”的权值。
针对这一点,论文提出了一种新的基于遗传算法的Web信息自动标引的设计方案。基于遗传算法的Web信息自动标引方案的思想就是利用遗传算法能获得全局最优解并且具有高的寻优效率的特性,在训练集上采用遗传算法对标引源的权值进行优化设置后,再使用这个标引源的权值设置进行Web信息的自动标引工作。具体来讲就是把各个标引源的权值的特征组合看作一个染色体,对其进行二进制编码,引入整个训练集的平均精度作为适应度函数,进行特征个体适应度的评价。通过选择、交叉和变异的遗传操作,求出最优特征集,即得到标引源权值的最优设置。另外,论文对现有的算法没有考虑到词语首次出现的位置对自动标引的影响,提出了词频统计、位置加权及词语首次出现位置加权三者相结合确定自动标引结果的方案。
论文完成了对Web信息自动标引方案的设计、对网页内容的格式转换、网页内容的分词处理,最后应用此方案对Web网页信息进行自动主题标引。通过对雅虎新闻网页所进行的实验表明,基于遗传算法的Web信息自动标引方案可以有效地提高标引源的权值设置的合理性、准确性,实验验证了理论方案的正确性和有效性,自动标引结果准确率较高,基本达到了Web信息自动标引的要求,具有较高的实用性。