Web信息自动标引研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户：binhaiwz_2009

【摘要】

：

随着因特网的迅速发展和广泛应用，它逐渐成为目前最大的信息资源宝库和最主要的信息交流渠道。而因特网信息资源的显著特点是量大而无序，故随之出现了“数据丰富，知识贫乏”的现

【作者】

：

田苗苗

【机构】

：

长春工业大学

【出处】

：

长春工业大学

【发表日期】

：

2006年期

【关键词】

：

自动标引权值遗传算法因特网 Web信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着因特网的迅速发展和广泛应用，它逐渐成为目前最大的信息资源宝库和最主要的信息交流渠道。而因特网信息资源的显著特点是量大而无序，故随之出现了“数据丰富，知识贫乏”的现象。所以要建立计算机的主动服务机制，必须采用自动化、智能化的技术，实行计算机自动标引，以全面、准确、高效地自动提取网页的主题信息。对Web信息进行自动标引可以使作者、编者和读者进行语义沟通，是进行信息快速选择、智能代理和Web信息分类的基础。为此，论文针对Web信息资源自动标引展开了研究，其主要目的是为处理因特网信息资源提供技术支持，为普通用户检索因特网信息资源提供便利。本文研究了计算机自动标引技术存在的若干亟待解决的问题，发现现在试验中的Web信息自动标引系统或搜索引擎的索引库的建立大多采用加权词频统计法，但在实践中，权值的大小较难确定。标引源权值的设置大多采用定性分析或主观设定，因而差异很大，而且不一定符合网页内容的有价值信息的分布。由于标引内容类型不同，很难设计出一套广泛适用的权值体系。因此有必要找到一种方法，能根据不同文章的不同特点调整权值，使这样一种“静态不变”的权值变为“动态可变”的权值。针对这一点，论文提出了一种新的基于遗传算法的Web信息自动标引的设计方案。基于遗传算法的Web信息自动标引方案的思想就是利用遗传算法能获得全局最优解并且具有高的寻优效率的特性，在训练集上采用遗传算法对标引源的权值进行优化设置后，再使用这个标引源的权值设置进行Web信息的自动标引工作。具体来讲就是把各个标引源的权值的特征组合看作一个染色体，对其进行二进制编码，引入整个训练集的平均精度作为适应度函数，进行特征个体适应度的评价。通过选择、交叉和变异的遗传操作，求出最优特征集，即得到标引源权值的最优设置。另外，论文对现有的算法没有考虑到词语首次出现的位置对自动标引的影响，提出了词频统计、位置加权及词语首次出现位置加权三者相结合确定自动标引结果的方案。论文完成了对Web信息自动标引方案的设计、对网页内容的格式转换、网页内容的分词处理，最后应用此方案对Web网页信息进行自动主题标引。通过对雅虎新闻网页所进行的实验表明，基于遗传算法的Web信息自动标引方案可以有效地提高标引源的权值设置的合理性、准确性，实验验证了理论方案的正确性和有效性，自动标引结果准确率较高，基本达到了Web信息自动标引的要求，具有较高的实用性。

其他文献

基于DCT与SVD的数字图像水印算法的研究

随着计算机技术和网络应用的迅猛发展,人们的日常生活与工作越来越趋于数字化和网络化。大量数据在网络上的传播、网络交易的日益风行,使传统的版权保护手段和数据安全技术面

学位

版权保护数字水印奇异值分解离散余弦变换混沌加密鲁棒性

基于语音识别技术的视频检索方法研究

随着媒体数字化技术和网络技术的发展，人们在日常生活中所接触到的数字视频越来越多。相应的，对数字视频进行分析和查找的需求也越来越迫切。因此，基于内容的视频处理和检索已成

学位

语音识别语音特征语音分割视频检索

基于Java的逆向工程在软件测试中的应用

逆向工程指的是从可运行的程序系统出发，生成对应源程序的系统结构以及相关的设计逻辑等等。它具有重大现实意义和经济价值，可以将大量的遗产系统转化为易于演化的系统，从而充分

学位

逆向工程统一建模语言测试用例软件测试逆向变换

国际化文本竖排机制研究和实现

随着计算机和网络技术在世界范围内的飞速发展,由过去的人适应机器逐渐向机器适应人发展。在计算机功能越来越强大的同时,计算机使用界面越来越简单、越来越易用。人机界面的

学位

竖排垂直显示CTL复杂文字显示蒙古文QTKDEKate

智能导库工具研究与实现

近年来随着数据管理，数据挖掘的需求日益增多，数据仓库的使用日渐频繁。数据仓库的核心要求是数据的正确性、完整性、准确性。数据从源数据库中抽取出来、经过清洗、加载到数据

学位

数据抽取网页抽取结构化数据非结构化数据智能导库工具数据挖掘数据仓库

基于移动Agent技术的协作信息共享的研究

随着信息技术的发展和Internet的全球普及，信息共享己经成为当今社会经济发展的主要潮流。它改变了企业的竞争方式、竞争基础和竞争模式；缩短了生产厂商和最终客户之间供应链上

学位

Agent移动Agent协作信息中间件Web应用

基于Agent的工作流执行系统的研究

工作流管理系统(WfMS)的出现，提高了企事业单位的生产效率。但在实际应用中，由于社会生产的复杂性和多变性，现有工作流管理系统的技术不能完全地满足设计要求。智能代理Agent是

学位

工作流多Agent系统ACLKQML工作流引擎

复杂元胞自动机中自我复制斑图的判定

元胞自动机提供了分布并行计算系统的数学模型，它在新一代计算机结构设计中有重要意义。元胞自动机在模式识别、图像处理及人工智能中有着重要应用。斑图是元胞自动机的一个重

学位

元胞自动机自我复制斑图Fredkin规则并行计算模式识别图像处理

PACS中图像处理的研究

随着信息技术的飞速发展和计算机应用水平的不断提高，面向医疗的新一代信息系统已由过去单纯的医院信息系统HIS(HospitalInformationSystem)、放射信息系统RIS(RadiologicalIn

学位

医学图像图像处理DICOMPACS

海量三维模型外存处理技术的研究

近年来，伴随着超高精度的输入设备如三维扫描仪、CT/MRI等的飞速发展，从现实世界中获得的三维模型的规模出现爆炸性增长，甚至远远超出了当前的通用计算机的内存容量，使得运算时无

学位

外存处理海量三维模型空间聚类算法数据处理

Web信息自动标引研究

其他学术论文