论文部分内容阅读
互联网的飞速发展导致了网络中的文本数据也随之迅速增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而文本自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。文本分类能够处理大量的文本,可以在较大程度上解决信息紊乱的现状,方便用户准确地定位所需要的信息。文本分类作为信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。
文本分类的首要问题是文本数据的数学表示模型。目前多数文本分类方法都是以向量空间模型为基础的。这种文本表示方法比较简单,但却引发了向量空间的高维性和稀疏性问题,这使得文本分类具有相当高的时间复杂度;同时向量空间模型忽略了特征项之间的语义相关性,这就导致大量语义信息的丢失,使得到的特征向量不能很好地代表文本内容;最后,基于向量空间模型的文本分类方法都没有很好地解决文本数据所特有的两个自然语言问题:同义词和相关词。所有这些问题都极大地干扰了文本分类的效率和准确性,使文本分类的性能下降。
为了解决上述问题,本文提出一个基于概念的自然语言文本自动分类模型,该模型以《知网》为主要的概念知识源,以词所表示的概念为分类基础,把概念继续分解至义原,并在义原组成的向量空间上进行文本分类。该模型概述如下:文本分类模型分为训练模块和分类模块,文本在经过预处理后,按一定规则提取出关键词,对有歧义的关键词,根据其词性和上下文对对其进行概念排歧。根据关键词所表示的概念在《知网》中的定义,把关键词分解成义原,从而把文本表示成义原向量空间中的一个向量。对于将要进行分类的文本,亦按上述的方法将其表示为一向量,并在改进的KNN方法为该文本分类。实验表明,基于语义概念的向量空间模型能够有效地解决向量空间的高维稀疏性和同义词、相关词问题。该模型相对于基于关键词的文本分类方法有更好的召回率和精确率,进行分类时所需的空间较少,计算时间也相对较短。
本文在三个方面提出了三点改进思想:第一,提出基于语义概念的隐含语义层分类的原则和方法。这种分类方式可以实现在进行文本分类时,获取概念中最重要的领域特性。第二,把概念排歧引入到文本分类中,并提出一种概念排歧算法。第三,提出改进KNN方法对文本进行分类,提高了分类准确率和分类性能。