论文部分内容阅读
随着互联网的飞速发展,微博越来越普及,用户的信息呈现指数增长,海量的内容使用户面临严重的信息过载现象。而推荐系统能够挖掘用户的偏好,主动帮助用户过滤信息,提高用户查找信息的效率。所以,推荐系统可以作为解决信息过载问题的有效手段,极大地改善用户体验。另外,微博内容自身的互动性和即时性也为微博推荐系统提供了基础。传统的推荐算法在进行推荐时会忽略用户发表内容时的情感,不能很好的适用于微博。因此,在推荐算法中加入情感因素成为新的研究方向。本文以微博内容作为研究对象,对情感分析算法和推荐算法进行了研究,主要研究内容如下:(1)针对微博内容中表情符号的使用率越来越高,情感词典无法适应微博文本内容复杂且语义多变的情况,将表情符号加入情感词典,并收集网络新词加入情感词典。针对传统的SVM情感倾向判别算法无法解决微博内容文本短噪音大的问题,利用结构化的情感词典提取特征项,去除不含情感信息的噪音,然后根据TF-IDF向量化特征,作为输入来训练SVM模型判别微博内容的情感极性。并通过改变SVM的参数进行实验,得到分类器的最优性能。为了完成多程度情感评分,提取程度词计算情感强度值,得到最终的情感评分。(2)针对微博只有流行度推荐,提出个性化推荐方案,使用基于用户的协同过滤算法给出推荐列表。针对微博没有评分系统无法直接使用协同过滤算法,本文利用关键词提取技术提取微博内容的关键词作为项目并且根据情感分析算法的结果作为评分,共同组成项目评分矩阵。然后,分别利用余弦相似度和杰拉德系数计算项目和评分的相似度,再进行加权融合得到最终的相似度结果。最终,根据预测评分给出推荐列表。并通过改变推荐算法的参数,来提高推荐算法的准确率。同时,根据用户的基本属性信息采用流行度推荐算法来解决冷启动问题。实验结果表明,基于情感词典优化SVM的情感判别算法能很好的解决微博内容文本短、噪音大且语义复杂的问题,有效的提高情感极性的分类准确率。同时基于用户的改进协同过滤算法可以有效的解决微博内容没有评分系统等问题,相似度的融合计算有助于提高推荐系统的性能,获得更优的推荐效果。