论文部分内容阅读
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。新闻阅读也随着互联网的进步改变了从订阅纸质报纸的传统模式到访问互联网成千上万的新闻。目前,互联网上每天产生大量新闻数据。新闻聚集网站,如谷歌和百度新闻,从各个网站收集新闻并聚合。对于这些网站,如何向用户推荐感兴趣的新闻成为关键性的问题。本文以国内外主要中文新闻网站为研究对象,针对新闻网站中的大量新闻,完成了新闻文本采集以及热点新闻推荐系统设计与实现。其主要工作和贡献如下:(1)首先采集国内外主要中文新闻网站新闻内容,包括新闻标题、新闻链接、新闻发布时间、新闻内容、新闻来源以及新闻所在版块。本文讨论我们所实现的基于Hadoop分布式平台的新闻数据采集并预处理系统。该系统将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源。(2)对于热点事件,不同新闻媒体会争相报道,因此,来自不同新闻网站的热点新闻标题会存在一定的相似性。基于新闻标题的这一特点,提出了基于标题的热点新闻推荐算法。首先对新闻标题进行分词等预处理,然后使用朴素贝叶斯模型和SVM对新闻进行文本分类,最终将分类结果作为推荐内容。实验结果表明,使用朴素贝叶斯方法优于基于SVM方法,基于朴素贝叶斯模型推荐热度排名前100的热点新闻推荐结果的准确率可以达到92.5%。(3)本文讨论基于标题的热点新闻推荐算法中标题存在的缺陷,进一步提出了基于文本摘要的热点新闻推荐算法。首先采用Text Rank以及复杂网络划分方法从新闻内容中提取出新闻摘要。然后,在热点新闻推荐算法中,使用新闻文本摘要代替新闻标题。最终,使用朴素贝叶斯模型与SVM对新闻进行文本分类,并将分类结果作为推荐内容。实验结果表明,基于文本摘要的朴素贝叶斯模型推荐热度排名前100的热点新闻推荐结果的准确率达到94%。这表明基于新闻摘要的热点新闻推荐结果更为准确。(4)本文基于文本摘要的新闻推荐算法所实现的热点新闻推荐系统于2014年3月份开始在杭州市政府正式运营,为杭州市政府公务员推荐热点新闻,用户反映良好。