论文部分内容阅读
互联网上的信息是当今世界上最丰富的知识宝藏,但如何有效地获取信息却一直是个难题。Web信息采集系统可以对用户所关心的目标站点进行数据采集和信息抽取,得到结构化的数据,进行存储和相关处理。其中最关键的技术就是如何进行Web信息抽取。国内外很多学者和研究人员致力于研究Web信息的抽取和集成。本文的研究重点在于面向新闻领域的Web信息抽取和采集。
新闻是互联网上最重要的资讯。本文通过对海量新闻网页的分析,总结出新闻网页在内容和结构上的特征,设计了一种基于主标记的网页分块算法,可以全自动地高效率地从网页中抽取出新闻的基本要素,包括标题、正文(含图片、附件)、来源和时间。在此基础上,本文设计并实现了一个新闻网站信息采集系统——方正天钩2.0,并详细介绍了其中线程池、URL词典、网络蜘蛛等模块的设计和实现方法。最后,通过实验数据分析和实际应用效果,对系统提出了改进方法。