论文部分内容阅读
Web文本的数量随着Internet的飞速发展正在日益增加,从而使文本信息数据的分析变得越来越重要。文本分类技术(TC),是对文本信息数据分析中的一个主要技术。文本分类从训练文本中计算归纳出分类规则,根据该规则来给未知类别文本进行分类。文本分类在信息时代有很多应用,比如网页分类导航、网络图书馆、电子邮件过滤等领域。但是分布式Internet中传播的文本信息有很多独特的特征,比如种类多样、数据分布偏斜、关系复杂、更新频繁、标注困难等。这些特征使传统文本分类方法效率降低,扩展性减弱,缺乏语料,因此对互联网海量信息的Web文本分类研究非常重要。
本文分析了互联网Web文本信息的特征,研究了文本特征选择方法和多类文本分类算法。文本特征选择方法的研究包括文档频率、信息增益、互信息、CHI统计量、期望交叉熵和文本证据权等。文本分类算法的研究包括k最近邻法、决策树、朴素贝叶斯、Rocchio、支持向量机等。多类文本分类算法的研究包括一对多方法、成对分类法、决策导向非循环图等。通过对文本特征选择方法的实验对比研究,本文对文本特征选择方法提出了改进,结合对文本分类算法及分类策略的研究和改进,有效地提高了文本分类的查询精度以及用户针对性。实验证明,本文提出的方法应用于工程中效果显著,改进的文本分类算法和文本分类策略能够胜任海量Web文本信息的分类工作,并成功应用于现行工程中。