维文文本分类器研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:ahqmchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,维文电子文档数目迅速增长,如何快速准确的从浩如烟海的电子文档中获得所需信息成为一个亟待解决的问题。文本分类是处理和组织维文电子文档的一项关键技术,维文文本分类系统的构建能够提高知识获取以及知识组织的效率。   本文简单介绍了文本分类系统的框架以及相关技术,并根据维吾尔语自身特点详细介绍了维文文本分类系统中关键技术的实现。同时对朴素贝叶斯和支持向量机两个分类算法进行了深入研究,并提出相应的改进算法。   朴素贝叶斯分类器是一个简单有效的模式识别算法,在文本分类中得到了广泛的使用。但是在朴素贝叶斯分类中,条件属性对于决策分类的作用相同的假设在很多情况下并不成立。为提高朴素贝叶斯分类器的分类性能,考虑决策分类过程中条件属性的不同重要程度,提出了一种基于特征选择权重的贝叶斯分类算法。首先,将卡方值和文档频数的数值相结合来表示特征词的重要程度;然后,对该值进行处理进而获得每个特征词权重;最后,根据该权重建立加权贝叶斯分类器。在搜集到的维文语料库上的实验结果表明,该算法比朴素贝叶斯拥有更好的分类性能。   支持向量机是一种基于结构风险最小化原则的模式识别算法,是目前公认的最有效的文本分类算法之一。支持向量机在小样本、高维特征空间上也能够获得非常好的效果。由于维文文本分类没有较为统一和大规模的数据集,且维文特征空间很大,在维文文本分类中使用支持向量机是一个较好的选择。   支持向量机的训练过程较为复杂,时间和空间复杂度较高;同时支持向量机的参数较多,参数寻优成为训练过程中的瓶颈。本文基于序贯均匀设计方法提出一种新的参数寻优方法,以减少训练时间。首先,基于均匀设计表设计参数组合,获得最好分类效果的参数组合;然后,以最好的参数组合为中心,减少差距并设计第二批参数组合数据,进而通过交叉验证获得最好分类效果的参数组;最后,以该参数组合训练获得SVM分类器。实验表明该方法能够在保证分类效果的基础上,大幅减少训练时间。
其他文献
地质勘查工作是国民经济建设的基础性与战略性保障工作,地质勘查工作质量的优劣直接关系到国家经济建设的持续、健康发展。建国以来国家各级政府及社会对地质勘查工作投入了巨
主元分析是如今在矩阵降维和数据分析用的最多的工具,目前已经在故障诊断、数据压缩、信号处理和模式识别等领域有广泛的应用。然而,传统主元分析方法在许多应用里面,却显得
信息系统中往往存在各种各样的数据形式,例如以关系型数据格式在数据库中进行存储、以XML格式在Web上进行发布和交换等。不同格式之间的数据转换是实现信息交换、信息迁移和信
学位
复杂网络是研究复杂性科学的重要模型和工具之一,随着对复杂网络的研究,人们发现了复杂网络的许多重要的性质,其中社团结构是复杂网络最普遍最重要的拓扑性质之一。发现复杂网络
随着信息技术的不断发展,网络无疑已经成为人们日常生活的重要载体之一。随着网络应用不断丰富,网上用户量不断增加,网络上的数据流量也相应地飞速增长,为了保证网络高效持续
随着电子商务在全球范围内持续繁荣,客户的需求变得日趋个性化,如何针对客户的个性化需求迅速制定精确的生产计划已成为传统的加工制造企业不得不面对的难题。针对这种离散制
精确的大气与动态云可视化可以为航天、航空和虚拟战场等领域的仿真应用提供逼真的虚拟环境,对仿真结果精度的提升具有重要的意义。可视化建模中的准确性与实时性一直都是矛盾
等离子体控制系统是托卡马克装置的一个子系统,是用来监视和控制包括等离子体形状、位置、电子温度、密度等在内的众多等离子体参数的软硬件系统。放电过程中产生的实验数据,以
物联网(IoT,InternetofThings)已成为当今信息技术领域世界关注的焦点问题,世界各主要国家纷纷加入到物联网的研究中,中国在物联网的研究方面与世界同步。无线射频识别技术(RFI