一种基于LDA的分布式主题爬虫系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:zylalazy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,Web网页数量也呈指数级增长,但由于计算资源、网络资源和存储资源的有限,传统搜索技术已经很难覆盖大众用户的不同需求了。因此,智能化、个性化、领域化的搜索引擎技术应运而生,垂直搜索引擎的研究成为了时下的热点研究方向。在搭建垂直搜索引擎之前,最重要的环节是如何利用主题爬虫从浩瀚的互联网中抓取到相关主题领域的信息内容。主题爬虫根据事先定义好的主题,分析爬行到的网页,计算爬行到的网页与给定主题的相似度,预测下一个要爬行的网页地址,以此来保证主题爬行的效率。因此,主题爬虫主要需要解决网页主题描述、网页主题识别和网页爬行策略三个核心问题。  本文的研究重点是基于LDA主题模型对抓取的网页进行主题分类判别,实现基于文本的启发爬行策略,并构建一种通用的分布式主题爬虫系统,使之具有准确性、可扩展性、高效性以及可移植性。主要内容包括:⑴设计并实现了基于LDA主题模型的网页主题分类识别方法。该方法将一个网页文本内容看成是一个隐性主题向量,而不是一个主题范围内的字词向量或者字词词袋,在算法性能和算法精度上都有更好的提升。⑵设计并实现了基于文本的启发爬行策略,网页主题分类识别方法能取得较好的爬行精度,而主题爬行策略才能直接提升爬虫的工作效率。爬行策略算法的实现采用的是Shark-Search算法,在抓取该网页前,利用“相似性引擎”思想对待抓取的网页与给定主题的相关性进行模糊性打分预测,决定该网页URL的抓取优先级。⑶设计并实现了一个基于Redis的分布式的主题爬虫框架系统,待抓取URL存储在Redis分布式缓存系统中,实现了主从同步和内容分发的机制。Master节点作为控制中心,管理和同步多个Slave节点,并负责整个爬虫系统的任务分发和数据存储。Slave节点是真正运行爬虫子系统的节点,上面运行着主题爬行子系统,该系统包括内容提取模块(Distiller)、主题识别模块(Classifier)和爬行策略模块(Searcher)。
其他文献
不同网络操作系统和不同应用程序分散存储着大量信息,信息无法集中存储在一个中心数据库中,加重了管理员管理和维护的负担,目录服务则通过信息的集中存储解决了现实中面临的管理
随着互联网规模的不断扩大和网络应用的日益丰富,传统网管已经难以适应对大型、异构、动态变化的网络和种类繁多的网络应用的管理需要.因此,本文提出了一种新型的网络管理模
动态几何是国际上较为活跃的一个数学和计算机交叉的边缘学科.动态几何动作图,在教育软件、CAD/CAM、计算机游戏软件的设计与开发诸多方面都有很好的应用前景,由张景中院士领
该文简要介绍了信息检索技术以及文档清洗技术,在此理论基础上提出如何进行网络环境下的跨库检索,给出跨库检索的系统总体设计以及系统详细模块设计与实现.该文主要针对交大
计算机科学在过去20几年的研究进展使得多数据库系统的实现成为可能.该文的研究动机是基于以下应用需求的:首先,大量的商业数据存储在关系数据库系统中,并且其数据量还在不断
该文主要从以下两个方面展开研究工作:⒈熟悉流媒体传输的基本原理和流媒体系统的基本结构,并基于DirectShow的框架实现一个基本的流媒体传输系统.系统采用MPEG-4和G.723.1的
了为实现电压、无功调控优化控制,该论文进行了以下研究:在电力网络无功补偿目标下,提出一种改进的电力网络优化潮流算法.该算法以无功就地平衡原理为基础,导出经济压差(△U)
在对状态推导引擎的研究过程中,该文提出了一种新的工作流模型SDEM,该模型以工作流管理联盟颁布的工作流参考模型为蓝本,以状态机模型作为工作流业务过程的形式化工具,以UML
基于样图的二维纹理合成技术是近几年来计算机图形学的一个重要研究课题,Efros和Leung利用邻近点相关性强的特征,提出了非参数采样合成算法,对很多种纹理的合成都取得了不错的效
近来,基于内容的图像过滤技术(CBIF—Content-Based Image Filtering)已经引起了人们的广泛关注. 该文以此为背景,对以图像检测为主要依据的网络扫黄技术的关键部分进行了研