半监督网页分类及其在目录式搜索引擎中的应用研究

来源 :江苏大学 | 被引量 : 10次 | 上传用户:down222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的迅猛发展,包括目录式搜索引擎在内的搜索引擎已成为信息检索的重要工具之一,正成为计算机工业界和学术界争相研究和开发的对象。然而,目录式搜索引擎需要人工介入,依靠编辑员来实现目录式搜索引擎中所需要完成的网页自动分类,导致出现了训练效率低、信息量少和信息更新不及时等缺陷。另外,在目录式搜索引擎所搜索的网页信息中,存在着大量的无标签样本和少量的有标签样本,因此,如何利用这些样本来构建分类器已成为网页自动分类研究中一个关键问题,研究目录式搜索引擎中网页的半监督自动分类具有较高的学术价值和十分重要的现实意义。论文分析了半监督网页分类技术的优缺点以及国内外研究现状,介绍了论文的研究目的和意义,针对网页分类中数据集偏斜以及TSVM方法无法确定无标签样本中类别比例等问题,结合数据融合理论和模糊聚类思想,提出了一种基于模糊聚类的半监督网页分类方法。论文主要工作包括以下几个方面:1.系统回顾了传统文本特征提取方法,分析并实现了几种典型的特征提取方法。2.针对所提取的Web文本特征容易出现数据集偏移和维数过高等问题,结合数据融合思想,提出一种基于自适应数据融合的Web文本特征提取方法。3.针对TSVM分类方法无法确定无标签样本中的类别比例等问题,深入研究模糊聚类思想,将该思想运用到TSVM方法中,提出一种基于模糊聚类的半监督分类方法FC TSVM,并将网页超链接信息作为网页分类的一个重要依据。4.设计并实现了一个基于半监督网页分类的目录式搜索引擎原型系统,在系统中实现了本文所提出的基于自适应数据融合的Web文本特征提取方法和基于模糊聚类的半监督分类方法。
其他文献
随着互联网的迅速发展和普及,现代人们越来越偏向于使用E-learning系统进行学习。但是越来越多的学习资源充斥在整个网络中,学习者面对如此庞大的学习资源感到迷茫,不能准确
目前的计算机网络规模不断扩大,复杂性不断增加,异构程度以及对灵活性和可扩展性的要求也越来越高。在这种情况下,传统的SNMP网络管理逐步暴露出其基于管理者/代理者(Manager
机会网络的概念是在延迟容忍网络和移动自组织网络的基础上提出的一种不需要源节点和目的节点存在完整路径,依赖于节点间的相遇机会,实现通信的间断性网络。这种“存储-携带-转
汇编器有着悠久的历史,最早的汇编器诞生于1940年。作为计算机编译工具链中不可或缺的一部分,汇编器经历了长期的发展。汇编器的编写理论也随着汇编器的日益完善而逐步形成,
数据库系统存储的信息越来越重要,然而现代数据库系统不能避免所有针对数据库的攻击,怎样恢复遭受恶意攻击的数据库系统一直是数据库领域的一个重要研究课题。尽管数据库恢复
本文针对异构数据集成过程中的模式转换问题,提出一种XML模式与关系库模式的转化方法,通过定义XML Schema与关系模式之间的转换规则,以XML Schema文档树生成的结点树为基础,
信息技术的发展和Internet的全球普及,大大加快人们生活节奏,同时也增加了工作的流动性,传统的“固定办公桌”式的工作模式已不能满足人们的需要,移动办公的需求就越来越强烈。本
虚拟化技术的出现与实用化,不仅为提高服务器利用率、整合异构资源带来了新的解决方案,也为个人用户便捷、高效的使用桌面服务带来了新的机遇。桌面应用往往有较高的实时需求
当前各学科的虚拟教学实验系统的开发没有统一的标准,存在实现方法各异,扩展性差的问题。多领域统一建模方法为解决这个问题提供了很好的思路。然而,目前传统的多领域统一建
在自然语言处理中,语义分析一直是研究的难点。它需要语法分析、知识表示等方面的技术支持,同时需要考虑到语言学、心理学、哲学等方面的理论指导。它的研究成果对于自然语言