文本分类中特征项的提取和聚类

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:yh124712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类为未知类别的文本提供有序的组织,网络信息的增长使得对文本进行分类返回用户真正所需要的信息变得非常重要.该文设计了一个具有实用价值的文本分类系统,首先使用改进的基于PAT树的未登录词识别算法从训练语料中获取高频字串,通过添加用于标识对应字符是否已经提取的布尔数组,避免了子串的重复提取,再结合自定义的内聚度和耦合度规则,提取出具有完整语义和词法边界的未登录词列表,与常用词典的合并,生成用于文本系统的领域词典.通过特征提取和特征筛选模块,为分类系统提供了更多的该领域内的文本特征.然后,我们进一步研究了文本特征之间的相关性,通过对特征评估函数的分解,获得每一个特征对各个类别的贡献度,将特征项表示成一个N维空间上的向量,通过将具有相近贡献度向量的特征项聚类,从而形成模式,并作为文本的表征.最后,系统使用基于模式的KNN方法对文本进行分类.实验结果证明,使用改进的基于模式的KNN方法比基于关键词的KNN法分类效果理想得多,系统具有一定的实用价值.
其他文献
该文将研究的重点放在了Linux设备驱动程序的设计上.文章首先介绍了嵌入式系统、嵌入式Linux系统及其优点.然后详细介绍了Linux设备驱动程序的设计原理以及设计方法.之后该文
动态对等通信(dynamic peer communication)是目前最复杂的一种群组通信方式.该文简要分析了近几年提出的适合这种通信方式的五种组密钥协商协议,即CKD(Centralized Key Dist
神经网络自开创以来一直深受各国专家学者的重视,日渐成为一种重要的处理非线性问题的工具,被广泛应用于各种领域并取得了辉煌的成就.股票市场是经济的晴雨表和报警器,其作用
在工业界,大多数的硬件设计验证都是采用基于RTL级或者门级的逻辑模拟验证的方法.传统的逻辑模拟验证方法的优点在于它的准确性,而它的缺点在于随着系统的增大,输入的测试用
汉语动词的语义知识表示是语言知识工程领域的重要问题。在涉及句子语义分析和生成的各种NLP应用需求中,动词与名词概念之间的语义选择限制往往构成其中最核心和关键的凭据,截
近年来随着计算机网络技术的迅猛发展,各式各样的网络都应用于在日常生活中.人们在享受网络技术给我们带来的便捷时,也对计算机网络的性能提出了更高的要求,这使得对计算机网
该文借用操作系统和数据库的实现思想,对倒排表的存储结构进行优化,提高了索引更新的灵活性.文中给出了该结构的详细设计并提出基于该结构的操作算法.另外,为了快速定位倒排
该文主要研究一种具有实际应用背景的特殊的非负矩阵,逆M矩阵的判定问题.矩阵完备是矩阵判定中一个重要方面,对它的研究在各类特殊矩阵中广泛展开.作者这里具体讨论逆M矩阵的
该文针对嵌入式实时软件系统的需求规约和验证问题,提出了系统建模语言RTRSM,并以该语言为基础,展开全文,包括模型性质描述语言RITL的提出和相关规约验证问题的研究.需求属于
本文全面论述了在智能控水管理系统的开发过程中所涵盖的技术内容,包括自动识别技术、IC卡、网络技术和数据库技术,并给出总体概述和详细的设计.在编程实现的过程中,充分利用