面向网络新闻的热点话题挖掘技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:woyingla
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网快速地发展,人们习惯于浏览网络新闻页面获取相关资讯,各大网络新闻平台随时随地报道社会新闻,使得人们面临着新闻内容交叉重复、话题多样广泛、热门话题筛选比较复杂等问题。人们很难获取热点话题或兴趣话题,无法了解话题的趋势变化过程,热点话题可能会因新的新闻产生而被淹没。因此,如何从网络新闻中发现热点话题和分析热点话题的趋势变化已成为亟待解决的重要问题,本文重点研究热点话题的挖掘和分析热点话题的趋势变化过程,向用户展示不同时间粒度内的热点话题,分析热点话题的趋势,主要的研究工作如下:1、提出了复合模型的新闻话题挖掘算法。首先,本文引入三元组的存储结构改进凝聚型层次聚类算法,减少算法的运行时间。在此基础上,将改进凝聚型层次聚类算法和K-means算法相结合。先对文本集采用改进凝聚型层次聚类算法,根据聚类有效性评估指标和改进最大最小距离算法,自动发现新闻话题数和初始聚类中心。然后使用K-means算法对文本集进行聚类,获得最终的新闻话题。通过对比实验结果表明,复合模型聚类算法的效果优于传统单一聚类算法。2、提出了一种话题热度的评估方法。鉴于传统TF-PDF热度评估算法只考虑了媒体关注度的缺点,本文引入用户参与度包括新闻的阅读量和评论数,改进传统TFPDF算法对新闻话题进行热度评估。本文还引入“话题指数”,在不同时间片内进行话题挖掘和话题关联,从而分析出热点话题的趋势变化。实验结果表明,改进的TFPDF算法具有更好的热度评估效果。3、基于上述的研究内容,本文设计并实现了新闻热点话题挖掘系统,主要包括新闻文本爬取、文本预处理、热点话题挖掘以及热点话题趋势分析等模块,能够展示热点新闻话题和热点话题的趋势变化。
其他文献
结合特殊薄壁零部件生产制造车间的生产特点,基于其生产工艺特点与面临的工艺管理的复杂性,提出了薄壁零部件车间计算机辅助工艺规划系统的集成性设计的现实需求,以系统需求
世界卫生组织(world health organization,WHO) 2011的统计数据表明:血压升高已成为全球范围的主要死亡原因,也是老年人最常见心血管疾病的危险因素.研究已经证实高血压是脑血管
《新唐书》卷 199《儒学中·柳冲传》引柳芳论氏族说 :“过江则为‘侨姓’ ,王、谢、袁、萧为大 ;东南则为‘吴姓’ ,朱、张、顾、陆为大 ;山东则为‘郡姓’ ,王、崔、卢、李
作为居民保业务经办过程中形成的各类档案资料,具有为参保人“记录一生、跟踪一生、服务一生”的作用,而且城乡居民社会养老保险档案管理具有范围广、人数多、档案保管年限长