论文部分内容阅读
随着网络信息技术的高速发展,Internel上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成了一个亟待解决的问题。其中,Web文本分类技术是信息检索和数据挖掘的核心内容,基于机器学习的文本分类方法已经取得了较好效果,但是它仍然存在如何提高分类精度和分类速度两大难题。
本文研究的对象是中文Web本文,针对中文文本的特殊性,首先研究了中文分词方法,并提出了一种基于二元语法的N-最大概率中文粗分模型,该模型能够较好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,进而提高后续分词质量。然后针对中文Web本文的信息量巨大且内容更新速度快等特点,提出了一种新的Web文本表示方法,即基于新词发现的表示方法:用词和新词共同来表示Web文本,理论和实验表明该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,最终提高Web文本分类效果。
在现有分类算法中,KNN算法是一种简单、有效、非参数的分类算法,在Web文本分类中得到广泛的应用并取得较好的分类效果;但是该算法存在两个显著不足,其一:计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到K个最近邻样本;其二:当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对KNN这两个问题,本文提出了一种改进的KNN分类算法,即先通过Rocchio算法快速得到k0个候选类别,然后在k0个类别中采用改进的相似度计算方法来提高分类精度。由于Web文本资源通常采用层次结构来组织,因此本文也探讨了层次分类,提出了层次结构和KNN算法相结合的Web文本分类算法,利用层次结构来提高分类速度,而KNN算法弥补层次分类中的精度问题。实验表明,以上两种改进的KNN分类算法都能很大程度地提高分类效率,同时也一定程度上提高了分类精度。