在线热点新闻推荐系统研究和实现

来源 :南京航空航天大学 | 被引量 : 4次 | 上传用户:wrdyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。新闻阅读也随着互联网的进步改变了从订阅纸质报纸的传统模式到访问互联网成千上万的新闻。目前,互联网上每天产生大量新闻数据。新闻聚集网站,如谷歌和百度新闻,从各个网站收集新闻并聚合。对于这些网站,如何向用户推荐感兴趣的新闻成为关键性的问题。本文以国内外主要中文新闻网站为研究对象,针对新闻网站中的大量新闻,完成了新闻文本采集以及热点新闻推荐系统设计与实现。其主要工作和贡献如下:(1)首先采集国内外主要中文新闻网站新闻内容,包括新闻标题、新闻链接、新闻发布时间、新闻内容、新闻来源以及新闻所在版块。本文讨论我们所实现的基于Hadoop分布式平台的新闻数据采集并预处理系统。该系统将抓取的新闻数据存储到Hbase数据库中,为后面高效的处理与分析数据提供数据源。(2)对于热点事件,不同新闻媒体会争相报道,因此,来自不同新闻网站的热点新闻标题会存在一定的相似性。基于新闻标题的这一特点,提出了基于标题的热点新闻推荐算法。首先对新闻标题进行分词等预处理,然后使用朴素贝叶斯模型和SVM对新闻进行文本分类,最终将分类结果作为推荐内容。实验结果表明,使用朴素贝叶斯方法优于基于SVM方法,基于朴素贝叶斯模型推荐热度排名前100的热点新闻推荐结果的准确率可以达到92.5%。(3)本文讨论基于标题的热点新闻推荐算法中标题存在的缺陷,进一步提出了基于文本摘要的热点新闻推荐算法。首先采用Text Rank以及复杂网络划分方法从新闻内容中提取出新闻摘要。然后,在热点新闻推荐算法中,使用新闻文本摘要代替新闻标题。最终,使用朴素贝叶斯模型与SVM对新闻进行文本分类,并将分类结果作为推荐内容。实验结果表明,基于文本摘要的朴素贝叶斯模型推荐热度排名前100的热点新闻推荐结果的准确率达到94%。这表明基于新闻摘要的热点新闻推荐结果更为准确。(4)本文基于文本摘要的新闻推荐算法所实现的热点新闻推荐系统于2014年3月份开始在杭州市政府正式运营,为杭州市政府公务员推荐热点新闻,用户反映良好。
其他文献
某强制式混凝土搅拌机的液压系统存在高频液压振动现象,本文采用了一定方法进行了优化设计,通过改造,该搅拌机液压系统的高频振动问题被消除,保证了其液压系统的正常运行,进
法学教育至关重要,因为它关系到整个社会的法制建设。本文主要分析我国法律职业和法律教育中出现的问题:法律教学和授予法律职业资格脱节,法律教学模式落后于本世界的发展要
扩大内需既是推动我国经济社会发展的重大战略方针,也是保持我国经济持续稳定发展的基本的路径选择。当前,我国在经济发展中,存在着内需不足的问题,内需不足影响到了我国经济
背景心力衰竭是各种心血管疾病进展的最后阶段,由于其发生率高、死亡率高,现已成为全球主要的健康问题。近年来醛固酮受体拮抗剂在心衰中的应用重新受到重视,这主要来自两大
针对含噪环境下的盲源分离问题,将一种稳健的含噪条件下的白化预处理方法应用于FastICA算法中,提出了一种改进的FastICA算法。实验仿真结果表明:该算法的抗噪声性能比经典的F
法律工具主义认为法律只是统治阶级治理国家、实现一定社会目标的手段和工具。不仅无任何目的意义与价值意义,且与现代依法建设社会主义法治的思想理念不一致,其给我国建设中
<正>曾经,有一架航天飞机摆在我面前,我没有珍惜。等到它爆炸了,我才追悔莫及。人世间最大的痛苦,莫过于此……如果上天能够给我一次重来的机会,我会对那架航天飞机说11个字:
"走出去"战略是加快河北省开放型经济发展和实现产业结构调整升级的有效途径,是推动河北省经济社会协调发展的必然要求。目前河北省企业在"走出去"过程中,面临着整体投资规模
本文基于考虑到经济波动减缓经济增速的理论拓展模型,使用1985~2007年中国28个省份的城乡消费数据估算不同地区经济波动福利损失的城乡差异。结果表明,中国经济波动的福利损失
心电图应用于临床已逾百年,但是对于T波形成的基础心脏电生理机制仍然不完全清楚。随着心室肌M细胞的发现,部分学者应用心室组织块记录心室心内膜、心外膜和M细胞之间的跨壁