【摘 要】
:
当前,短信、微博、即时消息(Instant Message, IM)和在线聊天(Internet Relay Chat, IRC)等信息增长迅猛,如何对这些短文本进行分类以满足各种信息处理的要求成为一个重要的
论文部分内容阅读
当前,短信、微博、即时消息(Instant Message, IM)和在线聊天(Internet Relay Chat, IRC)等信息增长迅猛,如何对这些短文本进行分类以满足各种信息处理的要求成为一个重要的应用需求。已有的文本分类技术虽然得到了广泛的研究,但其研究的对象主要面向有一定长度的文本。照搬长文本分类技术进行短文本分类是否可行?如果不行,就需要研究面向短文本的分类技术。本文将长文本分类技术应用于短文本的实验表明,由于短文本的特征数量太少,照搬长文本分类技术进行短文本分类是不可行的,原本在长文本分类中具有较好性能的技术在应用于短文本时不能保持其性能。本文进而研究了对短文本进行扩展的技术,其目的是使得扩展后的短文本具有较多的特征,从而避免上述问题。其中主要的工作包括:1.首先应用关联规则技术获取基于共现的词关联规则。在此基础上再利用词语在类别上的分布情况,对关联规则集合进行选择,从而获取具有更高质量的关联规则集合。2.利用高质量的关联规则集合,对待测短文本进行扩展,在扩展时,不仅仅是考虑了待引入词语和待测文档中某一个词的关系,更考虑了待引入的词语和整个待测文档的关系。实验结果表明,在利用上述方法对短文本进行扩展后,对分类性能获得了一定程度的提高。
其他文献
随着科技的发展和人们生活方式的改变,人们希望互联网能够成为集数据传输、存储和处理于一体的信息平台,而不仅仅是数据的通道,但是以点到点数据传输为设计原则的TCP/IP体系结构
同义词是分析和比较了当前软件重用方法,讨论了他们在解决MIS软件重用所面临的问题时所具有的优点和存在的不足.然后以此为基础,针对MIS的特点,从经济学的角度分析MIS软件重
可扩展标记语言(Extensible Markup Language,简称XML)是一种简单的、与平台无关的结构化数据的描述语言,已被广泛采用,并成为国际标准。XrML(Extensible Rights Markup Language)
近年来,随着国内外对物联网(Internet of Things)的研究愈演愈热,其重要组成部分无线传感器网络(Wireless Sensor Network)已从理论阶段应用到了各领域中。无线传感器网络日
随着科技的发展,移动终端日渐普及,手机已经成为现代人所必备的一种通讯工具,中国移动也逐渐推出层出不穷的增值业务,但在这些移动通信服务中,系统可以为用户提供的终端显示
目前正值通信业和学术界对于载具通信领域进军的上升期,传统的载具通信模式受到了严峻的挑战。随着研发的步步推进,车载自组织网络(VANET)受到了广泛关注。本课题即是在车载
随着移动通信技术和应用设备的革新,以及移动多媒体业务的飞速发展,移动用户对移动通信网络覆盖和速率的要求越来越高,需要越来越多的基站提供更好的网络覆盖以及更大的系统容量
移动智能终端的普及和网络技术的成熟,促使了移动互联网智能终端应用的发展,也为移动应用能够有效地利用上下文感知技术,提供更受用户青睐的个性化服务创造了条件。但是要开