论文部分内容阅读
近年来,各种各样的网络应用不断涌现,微博为典型代表。伴随着微博的迅猛发展,微博短文本信息呈现爆炸式的增长。微博短文本数据异常庞大,如何对这些短文本进行分类是进一步挖掘短文本价值的关键,同时也是进行微博个性化推荐的关键。然而由于微博文本长度短、内容少、特征稀疏,使得微博短文本分类面临着巨大的挑战。传统的针对长文本的文本分类方法并不能很好的作用于微博短文本,所以研究针对微博短文本的分类方法势在必行。短文本分类方法的研究主要体现在对短文本的特征扩展上,现如今对短文本进行特征扩展的方法分为两种:一种是基于知识库的特征扩展方法,另一种是基于搜索引擎的特征扩展方法。这两种方法在短文本分类领域有着广泛的应用,但是也存在一定的问题。基于知识库的特征扩展方法对未收录在知识库的词汇不起任何作用,使用范围有限。基于搜索引擎的特征扩展方法在特征扩展的同时不可避免的会引入噪声数据且非常耗时。针对微博短文本所存在的特征稀疏等问题,经过分析和研究,提出了一种短文本特征扩展方法,并且结合LDA主题模型对微博短文本进行分类和推荐。主要贡献如下:1.提出了一种基于词汇链特征扩展和LDA模型的微博短文本分类算法即“词汇链扩展+LDA”算法。针对微博短文本分类过程中存在的特征较为稀疏、分类效果不好的问题,提出了在《同义词词林》基础上的词汇链特征扩展的方法。词汇链不仅能够涵盖到被《同义词词林》收录的词汇,还能涵盖到未被《同义词词林》收录的其他词汇,并且在扩展微博文本的同时还能不断丰富词汇链。针对VSM在微博文本分类中高维数、语义特征不明显的问题,使用LDA主题模型处理得到的主题概率向量作为微博文本的向量表示。与VSM相比,LDA有效降低了相似度计算的维度,还融合了一定的语义特征。2.在“词汇链扩展+LDA”分类算法的基础上,设计实现了微博推荐系统。该系统包括四个功能模块:数据导入模块、预处理模块、特征扩展模块以及LDA推荐模块。数据导入模块的功能是将获取的微博数据导入到系统当中并且按照随机比例划分训练集和测试集。预处理模块主要包括文本清理、中文分词、去停用词以及查看预处理结果四个功能。特征扩展模块主要包括生成词汇链、词汇链扩展、查看生成的词汇链以及查看特征扩展的结果四个功能。LDA推荐模块主要包括LDA建模、分类处理、查看分类结果以及微博推荐四个功能。该推荐系统根据微博短文本分类中相似度计算的情况,选取每个微博类别中相似度最大的前三条微博进行推荐。最后将“词汇链扩展+LDA”算法与现有算法进行对比实验,实验结果表明,本文提出的算法在有些微博类别的分类效果略差,但是总体上“词汇链扩展+LDA”算法有效地改善了微博短文本分类的效果。