基于语义概念的中文文本分类研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:litao343243581
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展导致了网络中的文本数据也随之迅速增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而文本自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。文本分类能够处理大量的文本,可以在较大程度上解决信息紊乱的现状,方便用户准确地定位所需要的信息。文本分类作为信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。   文本分类的首要问题是文本数据的数学表示模型。目前多数文本分类方法都是以向量空间模型为基础的。这种文本表示方法比较简单,但却引发了向量空间的高维性和稀疏性问题,这使得文本分类具有相当高的时间复杂度;同时向量空间模型忽略了特征项之间的语义相关性,这就导致大量语义信息的丢失,使得到的特征向量不能很好地代表文本内容;最后,基于向量空间模型的文本分类方法都没有很好地解决文本数据所特有的两个自然语言问题:同义词和相关词。所有这些问题都极大地干扰了文本分类的效率和准确性,使文本分类的性能下降。   为了解决上述问题,本文提出一个基于概念的自然语言文本自动分类模型,该模型以《知网》为主要的概念知识源,以词所表示的概念为分类基础,把概念继续分解至义原,并在义原组成的向量空间上进行文本分类。该模型概述如下:文本分类模型分为训练模块和分类模块,文本在经过预处理后,按一定规则提取出关键词,对有歧义的关键词,根据其词性和上下文对对其进行概念排歧。根据关键词所表示的概念在《知网》中的定义,把关键词分解成义原,从而把文本表示成义原向量空间中的一个向量。对于将要进行分类的文本,亦按上述的方法将其表示为一向量,并在改进的KNN方法为该文本分类。实验表明,基于语义概念的向量空间模型能够有效地解决向量空间的高维稀疏性和同义词、相关词问题。该模型相对于基于关键词的文本分类方法有更好的召回率和精确率,进行分类时所需的空间较少,计算时间也相对较短。   本文在三个方面提出了三点改进思想:第一,提出基于语义概念的隐含语义层分类的原则和方法。这种分类方式可以实现在进行文本分类时,获取概念中最重要的领域特性。第二,把概念排歧引入到文本分类中,并提出一种概念排歧算法。第三,提出改进KNN方法对文本进行分类,提高了分类准确率和分类性能。  
其他文献
非负矩阵和M-矩阵是两类有着重要应用背景的特殊矩阵。生物学、物理学和社会科学等学科中的许多问题都和M-矩阵有着密切的联系。矩阵Hadamard积和Fan积在矩阵理论研究及其应
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
梁雨润,一个富有感召力的响亮名字。他的刚正不阿,他的嫉恶如仇,他的执政为民与爱民如父的事迹催人泪下,早已远播中国的大江南北。身为运城市纪委副书记的他入围2002、2003年
投资组合保险策略的突出特点是,在将投资组合下跌风险控制在一定范围内的前提下,使得投资组合能够在资产价格的上涨行情中获利。CPPI策略是主要的投资组合保险策略之一,该策略通
学位
在湖北省广水市,只要提起付志平,人们都会称他为“铁面公安”、“黑脸书记”。作为一名工作在公安战线的纪检干部,他勇于探索,坚持原则,努力提高全局民警的战斗力。在他担任
计算机试验是实际试验的一种有效替代,其最大区别是确定的输入对应唯一的输出。计算机试验中广泛采用的一种设计是拉丁超立方设计。一个包含n次试验和m个变量的拉丁超立方设计
事物之间的因果机制,往往是人们认识世界的本质追求。但是由于因果关系是隐藏在事实和表象背后而无法直接观察到的,所以通过“表象”的数据来识别真实的因果关系是统计学领域一
本文在Eb-凸函数、弧式连通函数等概念的基础上,介绍了几类广义的非光滑凸函数:E(b,ρ)-凸函数、广义E(b,ρ)-凸函数、对称弧式连通函数。给出了E(b,ρ)-凸半无限规划与对称弧式连
统计学是财经类专业的核心课程,是财经类学生应熟练应用的一门技术,但作为财经类专业的专业课程,统计学内容复杂,应用领域广泛,并且需要理论与实践相互结合.针对统计学的教学