中文文本分类算法的研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:panzx777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的研究方法已经不适合大规模文本分类,文本数据挖掘应运而生.作为文本数据挖掘的一个重要功能,文本分类技术日益成为研究热点.文本分类目的是对文本集有序组织,便于文本信息高效管理,为人的决策提供支持.但是传统的人工分类的做法存在许多弊端,不仅是耗费大量人力、物力和精力,而且受人为因素影响较大,分类结果一致性不高.与之相比,文本自动分类具有快速、高效的特点,且分类准确率较高.该文主要研究中文文本分类算法及其实现,采用基于关联分析和聚类分析两种方法,设计和开发了中文文本分类系统ACTC,实现中文文本分类功能,在理论和实践上论证两种方法的可行性和正确性.系统用向量空间模型表示中文文本,采用基于统计的文本分类模型.该文从理论和应用角度对现有文本分类算法进行了较为深入的研究,提出一种新的关联分类算法频繁模式增长PFP_Growth算法,并基于信息粒度原理将聚类算法用于中文文本分类.ACTC系统能够快速高效对大规模中文文本分类,具有良好的自适应性的和可扩充性,而且为研究文本分类算法提供了一个的实验平台.
其他文献
USB是应用在PC领域的新型接口技术。目前USB数据总线已经在各种计算机中得到普及,并成为计算机的标准外设接口。 在工业控制领域经常采集数据并将数据传输到计算机中进行处
水情数据测报一直是水利仪器自动化研究的一个重要课题。由于水文自然环境的限制,传统测报主要使用数传仪、超短波电台等测报设备。随着芯片技术及移动通信技术的发展,研究设计
作为继HTML之后的第二代互联网语言,XML凭借可扩展性、结构化和有效性等优越性能,成为描述结构化信息的标准文本格式语言.XML技术不是一项单一技术,而是包括XSL、XSLT、XLink
社区是政府面向广大居民的窗口。相应的,数字社区是电子政务与电子商务的神经末梢,是政府为民办事的窗口;它为居民生活提供了便利,为居民就业提供了新的渠道,为社区创收营造
目前在手机市场上,J2ME已经开始被广泛应用,几乎所有著名的手机制造商都推出了基于Java的手机产品.在日本,NTT推出的i-Mode的用户数量一直在直线上升,数据服务功能已经代替话
随着通信网络的发展,特别是Internet/WWW的迅速发展,如何合理、有效地利用广泛、异构的分布式资源,成为计算机工作者们广泛关注的重要问题。由于Internet信息资源的飞速膨胀
本文介绍了一种基于语义Web的XML全文搜索引擎。它不仅可以检索文档的内容,还可以检索文件的结构。它采用简化的XPath语法查询,返回符合查询需求的结点或结点集合。不仅可以检
随着网络技术的不断发展和计算机应用的不断深入,许多企业的日常业务都依靠计算机系统来进行,而这些系统大多是基于数据库的联机事务处理系统,往往维系着企业的生命。因此,人们对
学位
随着网络的普及和快速发展,网络用户面临着日益严重的安全问题,网络入侵已经成为计算机安全和网络安全的最大威胁.应运而生的网络入侵检测成为当前的研究重点和热点.该论文对