中文Web文本分类新技术的研究和应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:169
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的高速发展,Internel上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成了一个亟待解决的问题。其中,Web文本分类技术是信息检索和数据挖掘的核心内容,基于机器学习的文本分类方法已经取得了较好效果,但是它仍然存在如何提高分类精度和分类速度两大难题。 本文研究的对象是中文Web本文,针对中文文本的特殊性,首先研究了中文分词方法,并提出了一种基于二元语法的N-最大概率中文粗分模型,该模型能够较好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,进而提高后续分词质量。然后针对中文Web本文的信息量巨大且内容更新速度快等特点,提出了一种新的Web文本表示方法,即基于新词发现的表示方法:用词和新词共同来表示Web文本,理论和实验表明该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,最终提高Web文本分类效果。 在现有分类算法中,KNN算法是一种简单、有效、非参数的分类算法,在Web文本分类中得到广泛的应用并取得较好的分类效果;但是该算法存在两个显著不足,其一:计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到K个最近邻样本;其二:当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对KNN这两个问题,本文提出了一种改进的KNN分类算法,即先通过Rocchio算法快速得到k0个候选类别,然后在k0个类别中采用改进的相似度计算方法来提高分类精度。由于Web文本资源通常采用层次结构来组织,因此本文也探讨了层次分类,提出了层次结构和KNN算法相结合的Web文本分类算法,利用层次结构来提高分类速度,而KNN算法弥补层次分类中的精度问题。实验表明,以上两种改进的KNN分类算法都能很大程度地提高分类效率,同时也一定程度上提高了分类精度。
其他文献
随着计算机网络的深入应用,计算机终端与网络安全面临的问题仍然是信息安全处理技术。目前,Windows作为使用最广泛的终端系统,对计算机上的敏感信息的保护比较薄弱。Windows
三维城市的建设和应用,已经成为信息技术发展的必然趋势,虚拟城市环境的模拟也是“数字城市”建设的重要组成部分。虚拟城市的构建需要大量的模拟城市地物景观的三维模型数据
三维地震勘探已成为当今的油气勘探开发的主要技术。利用三维数据场的可视化技术显示三维地震数据,可以提高油气勘探的效率和成功率。本文主要研究了三维地震数据场的基于纹
量子密码学是建立在量子计算基础上,是量子力学与密码通信相结合的一门新兴学科。目前,量子密码学的研究引起了人们的广泛兴趣,并且在理论和实践方面都取得了重要的进展。本
AVS(Audio Video coding Standard),由中国音视频专家组研制开发,是中国第一个具有自主知识产权的国家音视频编码标准。该标准适用于高分辨率数字广播、高密度DVD播放器、流
本文提出了分层的分布式防火墙模型,它采用了与机构组织层次相同的层次结构来组织整个分布式防火墙,使之前分布式防火墙模型中的任一主机结点均可以扩展为一个小的分布式防火
随着机械制造业的发展,振动时效技术越来越被广泛应用起来。它来源于当工件加工出来后,其内部会存在一种内应力,这种内应力对工件本身是有害的,它会使工件发生塑性变形、降低工件
近年来,无线网络发展迅速,应用日益广泛,无线宽带接入互联网成为下一代互联网的一个发展方向。然而,同有线网络相比,无线网络在性能和服务质量方面还有很大差距,其中提供高性能的无
声纹识别是一项重要的生物认证技术,应用场景广泛。声纹识别的主流方法包括SVM, JFA和i - vector等,它们均以GMM-UBM为基础。除了搜集语料训练目标说话人模型,GMM-UBM方法还
随着计算机网络技术的迅猛发展,信息资源的开发利用已经深入社会发展的各个领域,给人们的日常生活带来了极大的方便;然而,计算机网络所具有的开放性与共享性,使得信息安全问