社会化媒体中话题探测的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:bigger111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会化媒体正在获得越来越多的关注,并且已经成为许多网民日常生活的必要元素。不同功能的社会化媒体网站为用户提供上传信息、图片、视频等各种类型资源的平台。除资源上传之外,大多数社会化媒体还提供用户与好友交流,以及评论和分享好友上传的资源的功能。用户一般会分享自己感兴趣的资源,其中包括个人固定爱好,也包括对社会网络中流行内容的关注。因此,社会化媒体中存在着许多由相同兴趣用户上传资源组成的“稳定话题”。同时也存在着流行于特定时间段,由热点事件引起的“热点话题”。然而,在社会化媒体中同时探测并组织“稳定话题”与“热点话题”是一个十分有挑战性的工作。之前基于内容抽取与话题模型的相关工作并不适合在社会化媒体这个情景下同时探测这两类话题。  本文采用了一种新的方法在社会化媒体的平台下同时探测“稳定话题”与“热点话题”。本工作设计并实现了两分支的用户.时序混合模型有效抽取并呈现两类话题。为提升用户-时序模型在社会化媒体上的表现效果,本工作采用了多种平滑策略,在模型中融入用户网络图,连续时间片以及单独热点词汇的特征。在实现中,本工作采用了by-pass策略与哈希表存储的方法提升模型的运行效率。本工作在两个英文数据集:DelIcious和Twitter,以及一个中文数据集:新浪微博上进行了话题探测的实验,并且采用了三种不同的评测指标来评测话题的质量。实验结果表明用户-时序模型的方法在三个指标上的表现都优于对照方法,这也证明了该方法探测出的话题质量的优势。最后,本文展示了各个数据集中探测到的“稳定话题”和“热点话题”,以及“热点话题”流行的准确时间。这些展示结果表明用户-时序模型在不同社会化媒体网站的数据上都可以有效探测,区分并组织这两类话题。
其他文献
为了解决PC机自身结构缺陷,改变传统安全技术(如防火墙、杀毒软件和入侵检测系统等)在应对如今与日俱增的信息安全问题情形下的被动局面,从芯片、硬件结构和操作系统等方面综合
随着计算机网络的快速发展,各个领域的信息呈现指数级增长的趋势。领域性分析是知识构建、语义理解、文本分类、数据发掘等研究的基础,具有非常重要的意义。本文从词的层次上
MapReduce是应用于大规模数据处理的并行计算框架。从2004年Google提出该框架开始,MapReduce逐渐被越来越多的互联网公司和研究机构应用于日志分析、数据挖掘等领域。MapRedu
用于生态环境观测的无线传感器网络已经在许多不同类型的生态系统中得到广泛应用。这些系统普遍采用Sensor Web体系构建,以消除由于生态系统之间以及内部传感器接口和协议的异
网络钓鱼(Phishing)是一种在线欺诈行为,它利用钓鱼网页仿冒正常合法的网页,窃取用户敏感信息从而达到非法盈利目的。随着互联网的蓬勃发展,网络钓鱼这种以互联网为载体的犯罪行
随着技术的发展,大幅面、高分辨率的显示设备在我们的生活中越来越常见,这些显示设备以其大数据集显示能力在各个科研领域都得到了广泛的应用,但是目前仍缺乏针对这种大型显示设
现今,随着万维网(WorldWideWeb)的快速发展,非结构化数据大量涌现。多样化的数据检索任务向云环境中海量非结构化数据上的索引技术提出了迫切要求。有别于传统的结构化小规模数
Web InfoMall是一个历史网页的存储和展示系统,已经存储了从2001年至今的中国互联网上近50亿网页,并且数据量以每月3000万的速度增长着。当网页数据被收集到系统中后,需要经
许多大型网站、运营商和数据中心都采用Multihoming技术,使用多条链路与Internet相连以提高网络可靠性,加速网络访问。对不同的目标地址选用质量最高的链路出口可以最大限度
互联网从诞生以来一直遭受着黑客攻击和恶意代码的威胁,随着互联网成为人们日常生活不可或缺的一部分,由地下经济链等多种因素驱动,新形态的安全威胁不断涌现并持续演化,从计