中文文本自动分类研究与应用

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:huangcui8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类系统的主要任务是在分类体系给定的条件下,根据文本的内容由机器确定该文本所属的类别。文本分类系统被广泛地应用于组织文本、改进检索结果、趋势预测、数字图书馆以及用户兴趣建模。   本文对中文文本分类系统的关键技术进行了研究和探讨,重点放在特征选择算法和分类算法。   1)特征选择算法   目前,较为通用的中文文本表示方法是向量空间模型(VSM),用文本内容中的词元来表示文本自身,即用一个词元集来表示文本。其中,利用特征选择算法选出有代表性的词元对分类结果会产生极大的影响。本文研究并考察了几种常用的特征选择算法:DF、IG、MI和x2统计量。并针对其中MI的不足,提出自己的改进算法,并在试验中验证了该改进算法的有效性。同时,针对传统的组合特征选择算法的不足,提出了新的组合特征选择算法,并证明了新的组合特征选择算法的有效性,试验结果表明它在一定条件下比单一的特征选择算法稍好。   2)分类算法   本文考察了几种常用的分类算法:基于TFIDF的Rocchio算法、朴素贝叶斯算法、KNN算法以及支持向量机(SVM)。本文的重点放在KNN算法上,针对KNN算法不足,有两个改进方向,第一个是训练样本剪裁;第二个是稀释边缘样本作用。本文从第二个方向出发,提出了一种改进的方法,该改进算法原理简单,需要增加的计算量也比较小,最后,在实验中验证了该改进算法的优越性。   在实验和分析部分,本文除了做改进的MI和改进的KNN分别与传统的算法分别对比实验外,还将它们组合起来,分别与传统MI和传统的KNN的组合、改进的MI和传统的KNN组合、传统的MI和改进的KNN组合,这三种组合进行比对。得出实验数据后,对实验数据进行统计分析,用实验结果证明它们组合起来的改进效果。
其他文献
嵌入式GIS系统是对传统GIS系统的扩展,随着GIS产业的快速发展,把GIS与嵌入式技术融合在一起,形成一个方便携带的可移动的地理空间集成平台,是近年来GIS研究领域的一个热点之一。
为避免大中型商场和超市等商业企业的税款流失现象,GB18240.7样机系统依照规范在原有税控收款机解决方案的基础上提出了对基于局域网的大中型MIS系统进行税控功能改造的技术
随着国内外遥感卫星和各种有效载荷技术的迅速发展,遥感卫星所获取的数据量突飞猛进,目前卫星对地数据传输系统的主流调制方式BPSK、QPSK越来越无法满足卫星高速数据传输的要
随着网络信息化技术的不断发展,网络系统安全问题逐步成为了人们关注的热点,受到了国家的高度重视。网络系统安全问题已经成为影响国家发展战略的重要因素,对社会经济的健康
近年来,人脸识别技术取得了长足的进步,它在各个领域中都有广泛的应用,但是,在非约束环境下,由于光照、表情、遮挡等变化的影响,人脸识别系统的识别率和鲁棒性仍然不尽如人意
移动Ad hoc网络是不依赖于任何固定基础设施的多跳临时的自组织网络。由于移动Ad hoc网络具有拓扑动态变化、自组织、能量和带宽有限等特点,使得移动Ad hoc网络在灵活和实用的
随着人类对科学文明探究的深入,现有的计算机硬件、软件和网络发展水平远赶不上人们对计算机的需求。因此,网格计算的概念便由此诞生。网格通过联合位于不同地域的资源为完成
移动通信业务中的短信息业务(Short Message Service,SMS)日益普及,其用户和业务量也在飞速增长,所以利用SMS进行信息处理的企业必须在最短的时间内来推送短信,从而确保其大
随着信息化时代的到来,信息资源呈爆炸式的扩张。人们对于信息资源的采集、存储、管理、分析等也提出了更高的要求。为了解决人口、资源、土地、环境、灾害、规划、建设等一系
近年来,嵌入式技术取得了快速发展。嵌入式处理器是嵌入式系统的核心部件,消耗了系统很大一部分能量。然而,随着能量消耗增多,温度升高,失效率增大。另外,许多嵌入式产品依靠