论文部分内容阅读
当今社会化媒体正在获得越来越多的关注,并且已经成为许多网民日常生活的必要元素。不同功能的社会化媒体网站为用户提供上传信息、图片、视频等各种类型资源的平台。除资源上传之外,大多数社会化媒体还提供用户与好友交流,以及评论和分享好友上传的资源的功能。用户一般会分享自己感兴趣的资源,其中包括个人固定爱好,也包括对社会网络中流行内容的关注。因此,社会化媒体中存在着许多由相同兴趣用户上传资源组成的“稳定话题”。同时也存在着流行于特定时间段,由热点事件引起的“热点话题”。然而,在社会化媒体中同时探测并组织“稳定话题”与“热点话题”是一个十分有挑战性的工作。之前基于内容抽取与话题模型的相关工作并不适合在社会化媒体这个情景下同时探测这两类话题。 本文采用了一种新的方法在社会化媒体的平台下同时探测“稳定话题”与“热点话题”。本工作设计并实现了两分支的用户.时序混合模型有效抽取并呈现两类话题。为提升用户-时序模型在社会化媒体上的表现效果,本工作采用了多种平滑策略,在模型中融入用户网络图,连续时间片以及单独热点词汇的特征。在实现中,本工作采用了by-pass策略与哈希表存储的方法提升模型的运行效率。本工作在两个英文数据集:DelIcious和Twitter,以及一个中文数据集:新浪微博上进行了话题探测的实验,并且采用了三种不同的评测指标来评测话题的质量。实验结果表明用户-时序模型的方法在三个指标上的表现都优于对照方法,这也证明了该方法探测出的话题质量的优势。最后,本文展示了各个数据集中探测到的“稳定话题”和“热点话题”,以及“热点话题”流行的准确时间。这些展示结果表明用户-时序模型在不同社会化媒体网站的数据上都可以有效探测,区分并组织这两类话题。