【摘 要】
:
微博是基于社交关系来进行信息传播的媒体平台。作为重要的社交网站,微博引发了众多的关注和研究。随着微博平台的蓬勃发展,微博用户规模的不断增大,微博用户的属性、关系和行为
论文部分内容阅读
微博是基于社交关系来进行信息传播的媒体平台。作为重要的社交网站,微博引发了众多的关注和研究。随着微博平台的蓬勃发展,微博用户规模的不断增大,微博用户的属性、关系和行为分析也逐渐成为了学术界和工业界研究的热点。其中,微博用户的兴趣爱好能够反映用户的倾向性,同时与用户性别、年龄、职业等属性有着紧密的关联性,对于实现更精准的用户群组划分和个性化推荐具有重要意义。目前,微博用户注册的兴趣标签缺失率达到70%以上,只依靠用户的注册信息不足以描述用户的兴趣情况。而发文内容通常隐含着丰富的兴趣信息,是挖掘微博用户兴趣的重要数据源。 本文针对微博用户兴趣属性缺失问题,提出一种基于发文内容分析的微博用户兴趣挖掘方法。作者完成的主要工作如下: 1.首先,利用频繁项挖掘算法和短语结合度算法,并结合基于短语的主题模型,从用户发文内容中提取出高质量的候选兴趣短语; 2.然后,基于半自动构建的用户兴趣知识库,对兴趣短语的类别进行标识,从而实现对微博用户的兴趣分类; 3.最后,针对目前大数据集的应用需求,进行微博用户兴趣挖掘算法的分布式实现,实现算法的并行化。 本论文的创新点在于: 利用统计学特性,提出一种无监督的兴趣短语挖掘方法,能够快速地从微博用户发文内容中提取出候选兴趣短语。 利用“bag-of-phrases”代替“bag-of-words”来表示文档集合,能够获得高质量的兴趣短语集合,同时能够降低主题模型的复杂度。 构建微博用户兴趣类别知识库,通过引入知识库,实现了微博用户兴趣的细粒度的划分和明确的语义类别识别。 在SMPCUP2016数据集上的实验结果表明,本文的主题短语模型在困惑度和短语质量上取得的效果均优于传统的主题模型,表明本文的算法能够获取高质量的兴趣主题短语;同时,用户兴趣挖掘的准确率和召回率最高可达到78%和82%,说明本文的算法能够有效识别出微博用户的兴趣类别。
其他文献
钻杆适用性评价是对含有缺陷的钻杆是否符合继续使用和如何继续使用的定量评价。本文对钻杆适用性评价的意义、基本原理、评价中处理不确定性问题的方法、钻杆疲劳寿命预测等
随着Internet技术的快速发展和日益成熟,在经济全球化的大趋势下,企业之间的重组和合并成为企业发展和壮大的必然的趋势,这就使得企业在异构、分布环境中的应用需求不断增长,
作为一个热门研究领域,众多国家都在对信息融合技术展开广泛深入的研究,其中,用于决策的信任度高的规则提取问题,是该领域目前急待解决的重要课题之一,因为信任度高的规则是
该文介绍了电力网络的现状,并对现有电力网络进行了安全层次的划分.在介绍防火墙概念、种类、发展状况、关键技术的基础上,进一步介绍了加密、散列算法、数字签名等技术,并对
该文通过对综合应用平台,J2EE软件构架技术、Struts构架技术及XML技术的研究,并深入分析了综合应用平台的特点,设计并实现了一个基于Web的综合应用平台,通过这一平台实现了公
提出建立冷连轧机轧制过程数据采集系统的必要性.建立该系统是冷轧现场和建立冷轧模型和系统仿真的需要.可以利用实际的生产过程数据对轧制过程进行分析,进而改进冷轧工艺,最
宽带无线IP网络将是未来网络发展的方向,同传统通信技术相比,其优势在于数据通信速率高、移动性好等。但是伴随着IP网络的发展安全问题日益突出。就现有的安全技术而言,IPSec是
聚类分析是一种原理简单、应用广泛的数据挖掘技术,即把若干事物按照某种标准归为几个类别,其中较为相近的聚为一类,不那么相近的聚于不同类。聚类分析在客户分类、文本分类、基
本文针对国家天文台LAMOST项目的关键技术之一——光纤定位系统开展研究。LAMOST使用4000根光纤实现了大天区多目标观测的世界性突破,远远超出了世界上640根光纤的现有水平,因此对光纤定位也就提出了很高的技术要求。 本文根据工程的要求,首先对光纤定位装置的机械特征、控制方式、定位方法做了分析,然后通过研究现有的几何造型、凸包构建、多边形碰撞判断等算法理论,研究出适合极坐标运动单元的表示
本项目的设计目的就是使用语音处理技术开发一款应用于PDA(Personal Digital Assistant)的英文单词发音训练软件。它不仅可以录音和播放功能便于用户跟读,而且对比用户的发音