Web信息自动标引研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:binhaiwz_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的迅速发展和广泛应用,它逐渐成为目前最大的信息资源宝库和最主要的信息交流渠道。而因特网信息资源的显著特点是量大而无序,故随之出现了“数据丰富,知识贫乏”的现象。所以要建立计算机的主动服务机制,必须采用自动化、智能化的技术,实行计算机自动标引,以全面、准确、高效地自动提取网页的主题信息。对Web信息进行自动标引可以使作者、编者和读者进行语义沟通,是进行信息快速选择、智能代理和Web信息分类的基础。 为此,论文针对Web信息资源自动标引展开了研究,其主要目的是为处理因特网信息资源提供技术支持,为普通用户检索因特网信息资源提供便利。 本文研究了计算机自动标引技术存在的若干亟待解决的问题,发现现在试验中的Web信息自动标引系统或搜索引擎的索引库的建立大多采用加权词频统计法,但在实践中,权值的大小较难确定。标引源权值的设置大多采用定性分析或主观设定,因而差异很大,而且不一定符合网页内容的有价值信息的分布。由于标引内容类型不同,很难设计出一套广泛适用的权值体系。因此有必要找到一种方法,能根据不同文章的不同特点调整权值,使这样一种“静态不变”的权值变为“动态可变”的权值。 针对这一点,论文提出了一种新的基于遗传算法的Web信息自动标引的设计方案。基于遗传算法的Web信息自动标引方案的思想就是利用遗传算法能获得全局最优解并且具有高的寻优效率的特性,在训练集上采用遗传算法对标引源的权值进行优化设置后,再使用这个标引源的权值设置进行Web信息的自动标引工作。具体来讲就是把各个标引源的权值的特征组合看作一个染色体,对其进行二进制编码,引入整个训练集的平均精度作为适应度函数,进行特征个体适应度的评价。通过选择、交叉和变异的遗传操作,求出最优特征集,即得到标引源权值的最优设置。另外,论文对现有的算法没有考虑到词语首次出现的位置对自动标引的影响,提出了词频统计、位置加权及词语首次出现位置加权三者相结合确定自动标引结果的方案。 论文完成了对Web信息自动标引方案的设计、对网页内容的格式转换、网页内容的分词处理,最后应用此方案对Web网页信息进行自动主题标引。通过对雅虎新闻网页所进行的实验表明,基于遗传算法的Web信息自动标引方案可以有效地提高标引源的权值设置的合理性、准确性,实验验证了理论方案的正确性和有效性,自动标引结果准确率较高,基本达到了Web信息自动标引的要求,具有较高的实用性。
其他文献
随着计算机技术和网络应用的迅猛发展,人们的日常生活与工作越来越趋于数字化和网络化。大量数据在网络上的传播、网络交易的日益风行,使传统的版权保护手段和数据安全技术面
随着媒体数字化技术和网络技术的发展,人们在日常生活中所接触到的数字视频越来越多。相应的,对数字视频进行分析和查找的需求也越来越迫切。因此,基于内容的视频处理和检索已成
逆向工程指的是从可运行的程序系统出发,生成对应源程序的系统结构以及相关的设计逻辑等等。它具有重大现实意义和经济价值,可以将大量的遗产系统转化为易于演化的系统,从而充分
随着计算机和网络技术在世界范围内的飞速发展,由过去的人适应机器逐渐向机器适应人发展。在计算机功能越来越强大的同时,计算机使用界面越来越简单、越来越易用。人机界面的
近年来随着数据管理,数据挖掘的需求日益增多,数据仓库的使用日渐频繁。数据仓库的核心要求是数据的正确性、完整性、准确性。数据从源数据库中抽取出来、经过清洗、加载到数据
随着信息技术的发展和Internet的全球普及,信息共享己经成为当今社会经济发展的主要潮流。它改变了企业的竞争方式、竞争基础和竞争模式;缩短了生产厂商和最终客户之间供应链上
工作流管理系统(WfMS)的出现,提高了企事业单位的生产效率。但在实际应用中,由于社会生产的复杂性和多变性,现有工作流管理系统的技术不能完全地满足设计要求。智能代理Agent是
元胞自动机提供了分布并行计算系统的数学模型,它在新一代计算机结构设计中有重要意义。元胞自动机在模式识别、图像处理及人工智能中有着重要应用。斑图是元胞自动机的一个重
随着信息技术的飞速发展和计算机应用水平的不断提高,面向医疗的新一代信息系统已由过去单纯的医院信息系统HIS(HospitalInformationSystem)、放射信息系统RIS(RadiologicalIn
近年来,伴随着超高精度的输入设备如三维扫描仪、CT/MRI等的飞速发展,从现实世界中获得的三维模型的规模出现爆炸性增长,甚至远远超出了当前的通用计算机的内存容量,使得运算时无