论文部分内容阅读
随着移动互联网快速地发展,人们习惯于浏览网络新闻页面获取相关资讯,各大网络新闻平台随时随地报道社会新闻,使得人们面临着新闻内容交叉重复、话题多样广泛、热门话题筛选比较复杂等问题。人们很难获取热点话题或兴趣话题,无法了解话题的趋势变化过程,热点话题可能会因新的新闻产生而被淹没。因此,如何从网络新闻中发现热点话题和分析热点话题的趋势变化已成为亟待解决的重要问题,本文重点研究热点话题的挖掘和分析热点话题的趋势变化过程,向用户展示不同时间粒度内的热点话题,分析热点话题的趋势,主要的研究工作如下:1、提出了复合模型的新闻话题挖掘算法。首先,本文引入三元组的存储结构改进凝聚型层次聚类算法,减少算法的运行时间。在此基础上,将改进凝聚型层次聚类算法和K-means算法相结合。先对文本集采用改进凝聚型层次聚类算法,根据聚类有效性评估指标和改进最大最小距离算法,自动发现新闻话题数和初始聚类中心。然后使用K-means算法对文本集进行聚类,获得最终的新闻话题。通过对比实验结果表明,复合模型聚类算法的效果优于传统单一聚类算法。2、提出了一种话题热度的评估方法。鉴于传统TF-PDF热度评估算法只考虑了媒体关注度的缺点,本文引入用户参与度包括新闻的阅读量和评论数,改进传统TFPDF算法对新闻话题进行热度评估。本文还引入“话题指数”,在不同时间片内进行话题挖掘和话题关联,从而分析出热点话题的趋势变化。实验结果表明,改进的TFPDF算法具有更好的热度评估效果。3、基于上述的研究内容,本文设计并实现了新闻热点话题挖掘系统,主要包括新闻文本爬取、文本预处理、热点话题挖掘以及热点话题趋势分析等模块,能够展示热点新闻话题和热点话题的趋势变化。