支持OLAP的推特用户兴趣挖掘方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:canoe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推特是世界主流的社交媒体之一。在推特平台上,每天都会产生大量用户原创内容。从这些海量推特数据中探索用户兴趣的分布规律和相关性,对于实现精确的个性化推荐和提升用户满意度有重要的意义。近些年来,在推特分析领域,很多学者提出了许多关于如何有效挖掘用户兴趣的方法,然而这些方法往往只能挖掘出单一层次的兴趣,从而无法构建不同粒度的兴趣层次。另一方面,在商业智能领域,在线分析处理(Online Analytical Processing,简称OLAP)作为一种海量数据的分析处理技术,允许用户从不同维度交互式地探索数据,提供了一种适合人们探究推特数据的直观形式。本文提出了一种高效的基于多特征融合的用户推特数据清洗方法和一种基于LDA的推特用户兴趣维层次提取方法,以实现基于推特数据的在线分析处理。前者根据推文的文本特征、社交特征和话题特征对推文进行综合评分,然后剔除低于阈值的噪声推文,为之后的推特用户兴趣提取奠定了基础。后者根据推文与传统文档的不同之处,对LDA进行了适当改进,重新定义了推文的生成过程,增加了子兴趣层次和推文单词的语义特征,并通过综合考虑用户的推文信息和社交信息构建了面向推特用户兴趣的主题模型,即MS-LDA。根据MS-LDA挖掘出的用户子兴趣和兴趣,可以构建支持OLAP的兴趣维层次,从而实现对推特用户兴趣的探索。最后,我们在真实的数据集上验证了本文方法可以有效地提取出推特用户的兴趣维层次并适用于上卷、下钻等各种OLAP操作。同时,与其他识别兴趣维度的方法相比,本文方法具有更高的准确率和覆盖率。
其他文献
随着经济的不断发展,我国的房地产行业也在不断的发展壮大,各大房企之间的竞争也越来越激烈。如何建立科学的定价策略是企业发展过程中核心问题之一。房地产开发企业在定价时
保护森林资源,促进林业的可持续发展是我国林业政策的重要目标,也是世界各国的主要目标。在林业的不断发展与相关制度不断完善的条件下,森林生态效益补偿制度被提出,在世界各国的
<正>扫雷技术:美国人也要依赖它在拥有历史传统的日本海上力量中,扫雷部队从未销声匿迹,并在众多实战经验的积累下逐渐成熟起来。1991年海湾战争后,海上自卫队扫雷部队在危险
利用高光谱遥感技术监测并识别农作物受重金属污染信息是当今热点,研究设置了不同浓度铜离子(Cu2+)、铅离子(Pb2+)胁迫梯度的玉米盆栽实验,并测取了玉米叶片的光谱及叶片中重
传统的医院思想政治工作模式和方法已经不适应当前医院思想政治工作的需要。医院思想政治工作要取得实效,必须以科学发展观理论为指导,坚持以职工为本,用发展的视角看问题,同
地质旅游是现代旅游的重要组成部分。贵州具有发展地质旅游的良好资源条件。大力发展地质旅游,是充分挖掘贵州旅游资源潜在优势,以差异性竞争策略实现贵州旅游业发展后来居上
<正>2016年9月11日,北京顺鑫农业股份有限公司牛栏山酒厂与中国收藏家协会合作,成立牛栏山酒收藏研究中心。近几年收藏市场整体趋冷,然而,在低谷徘徊了多年的白酒收藏市场却
针对传统汽车市场模型所存在的数理分析复杂、缺图形用户界面等问题,采用多模块化理念创新性地建立了新能源汽车消费市场模型,包括三个核心模块:成本模块、接受度模块、市场
分析了大体积混凝土温度裂缝的形成原因 ,提出了预防和控制大体积混凝土温度裂缝的技术措施 ,为提高工程质量、预防工程质量事故提供了参考。
基于2010年遥感影像数据和生态服务价值标准系数方法,评估分析了首都生态圈内地表覆被及其生态服务功能的空间差异。结果发现,首都生态圈内地表覆被以森林、草地和农田为主,