论文部分内容阅读
随着网络信息的极速膨胀,各类新闻网站,论坛上的信息越来越庞大。在如此庞大的数据中,快速且准确的找到和用户关心的主题有关的新闻条目或是论坛主题变得越来越困难。目前Google、百度这样的搜索引擎提供的爬取结果的主题过于广泛,时效性也难以保证,加上一些和关键词相关的结果位置被购买,往往导致检索的时效性,相关性,人工检索的效率皆不如人意,满足不了特定领域用户的精准搜索的需要。为此本文的目的就是实现一个精准的对页面时效性,网络内容相关性的和搜索关键词高度匹配的网络爬虫系统,加之准确的分类分析,以达到网络舆情监控的目的。随着互联网治安越来越成为构建和谐精神文明建设的一个重要组成部分,对网络水军与网络敌对势力的防范,对来自人民的声音的听取变得越来越重要。而这也导致了国内目前做舆论监控为目的的网络爬虫系统的公司层出不穷,本人实习所在单位就是这样一家专注于特定用户群的互联网公司。本文所描述的网络舆情分析系统的数据来源为目前国内主要微博、论坛(如西祠,天涯,新浪,贴吧)和新闻网站(新浪等门户),以及百度,奇虎新闻等专业搜索引擎的结果页面。网页递归地抓取完成后使用HtmlParser这样一个开源的网页解析工具解析出主要结构,进行基于时间,主题相关性,内容相关度的分类过滤,最后更新到数据库中供前台Jsp页面访问。爬虫支持定时任务与ad-hoc即时触发。逻辑层面使用了一些如Spring、Hibernate、Struts这样的开源技术来构建MVC-based的业务处理系统,后台的采集、解析、过滤等模块还使用了诸如Berkeley DB、Apache Lucene、HtmlParser、MMAnalyzer等开源技术来完善系统。在这个系统中本人设计并实现了采集中心子模块、解析模块以及分类分析模块。论文主要描述了这几大模块的相关工作,包括需求分析、具体设计(流程图、类图)以及关键代码的实现。最后描述了系统的缺点与待改进之处。