基于Web多层次分类的分类方法研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:fly884531973
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web文本的数量随着Internet的飞速发展正在日益增加,从而使文本信息数据的分析变得越来越重要。文本分类技术(TC),是对文本信息数据分析中的一个主要技术。文本分类从训练文本中计算归纳出分类规则,根据该规则来给未知类别文本进行分类。文本分类在信息时代有很多应用,比如网页分类导航、网络图书馆、电子邮件过滤等领域。但是分布式Internet中传播的文本信息有很多独特的特征,比如种类多样、数据分布偏斜、关系复杂、更新频繁、标注困难等。这些特征使传统文本分类方法效率降低,扩展性减弱,缺乏语料,因此对互联网海量信息的Web文本分类研究非常重要。   本文分析了互联网Web文本信息的特征,研究了文本特征选择方法和多类文本分类算法。文本特征选择方法的研究包括文档频率、信息增益、互信息、CHI统计量、期望交叉熵和文本证据权等。文本分类算法的研究包括k最近邻法、决策树、朴素贝叶斯、Rocchio、支持向量机等。多类文本分类算法的研究包括一对多方法、成对分类法、决策导向非循环图等。通过对文本特征选择方法的实验对比研究,本文对文本特征选择方法提出了改进,结合对文本分类算法及分类策略的研究和改进,有效地提高了文本分类的查询精度以及用户针对性。实验证明,本文提出的方法应用于工程中效果显著,改进的文本分类算法和文本分类策略能够胜任海量Web文本信息的分类工作,并成功应用于现行工程中。
其他文献
图像分割是计算机视觉与模式识别领域的一个重要研究方向。轮廓的提取在各个方面的作用越来越重要,因此这方面的研究也逐渐增多。主动轮廓模型(Active Contour Model,也称为S
工作流技术是一个新型的研究领域,它使计算机上的业务处理流程自动化,能缩短企业的主要业务过程的处理时间,提高对市场的响应能力,给企业带来巨大的效益。随着计算机与网络技
学位
随着网络及其应用的快速发展,人们越来越关注网络数据的传输状态。现有网络分析系统主要针对大型网络,可在一定程度上满足大型网络中数据传输分析的实时性和可扩展性要求。但
粗糙集理论自上世纪80年代初被提出以来,发展十分迅速.它作为处理知识模糊性和不确定性的一种重要的数学工具,受到越来越多研究人员的重视,已经在数据挖掘、机器学习、模式识
在企业信息化建设的过程中,随着企业业务的不断发展,企业需要不断开发部署新的IT系统以适应企业的业务发展,我们将这些IT系统称为企业的IT资产。随着信息化程度越来越高,企业
ANN和SVM分类知识是通过ANN和SVM自学习获得的隐性分类规则。本系统应用BP神经网络和二叉树支持向量机的方法提供一种构建分类的平台工具,方便用户定制、维护、管理特定类型
学位
随着电子信息技术和计算机网络的飞速发展,系统安全问题受到越来越多的重视。网络攻击、蠕虫病毒和黑客等名词已经频繁地出现在各种杂志和视频中。由于程序设计语言本身的缺陷
学位
随着互联网的日益普及和高速宽带接入的广泛使用,交互式流媒体服务已经在互联网上广泛部署,为诸多新兴的、流行的互联网应用(如网络电视、在线电影、远程教育等等)提供基础的服