基于改进CHI的新的短文本混合特征选择方法

来源 :信息与电脑(理论版) | 被引量 : 0次 | 上传用户:zahay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在短文本分类中,特征项的选择和特征权重的计算是非常重要的两个步骤。传统卡方统计量方法(CHI)存在特征项与类别负相关的问题,使得短文本分类模型的性能并不好。笔者就此问题提出了一种新的混合特征选择算法,用改进的短文本类关键词抽取方法,结合改进的CHI特征选择的方法,以及将类关键词扩展到文档向量中,有效克服了CHI方法的特征项与类别负相关的问题。通过对网络医务咨询短文本分类的实验,对新算法与传统CHI方法以及其他特征选择算法的实验结果作对比,表明了新算法要优于传统特征选择算法。
其他文献
随着计算机系统等级保护2.0标准的提出,三甲医院核心业务信息系统安全应不低于三级要求,通过对攀枝花市第二人民医院现有组网的网络攻击防护、个人信息保护、运维审计安全、
随着社会经济的不断发展以及科学技术的不断创新.电子信息技术普及的速度也得到了飞速的发展,电子信息工程是一门学科, 该学科主要针对性的学习信号的获取与处理等方面的知识
依托长吉图开发政策,以朝鲜族民居形式的开发利用为着眼点,研究地区经济和文化发展双赢的方法和措施,是新经济形式下、城镇发展形式下和优化经济发展模式的有益尝试。
中国民族音乐是我国文化的重要组成部分,更是传统文化中的璀璨明珠,具有深远的教育价值及积极意义,对国家传统民族文化的发展以及个人艺术情操具有重要影响作用,想要将中国民
<正>法兰克福学派的理论一直以批判的深刻和救赎的热情见长,不仅在现代与后现代哲学转折之间,该理论承前启后、始终富有辩证张力;从全球化时代"新左派"与"自由主义"之争的视
宋遗民词人的交游唱和词是宋元易代之际词人交游唱和之风盛行的反映,是特殊文化形态下民族心灵历程的记录,是词体文学由传统“应歌”向“应社”转型的产物。所以,宋遗民词人的交
谱聚类是近年来出现的一类性能优越的聚类算法,能对任意形状的数据进行聚类, 但算法对尺度参数比较敏感,利用聚类集成良好的鲁棒性和泛化能力,本文提出了基于谱聚类的聚类集