面向新闻领域的Web信息抽取与采集方法及应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:pan2009pan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的信息是当今世界上最丰富的知识宝藏,但如何有效地获取信息却一直是个难题。Web信息采集系统可以对用户所关心的目标站点进行数据采集和信息抽取,得到结构化的数据,进行存储和相关处理。其中最关键的技术就是如何进行Web信息抽取。国内外很多学者和研究人员致力于研究Web信息的抽取和集成。本文的研究重点在于面向新闻领域的Web信息抽取和采集。 新闻是互联网上最重要的资讯。本文通过对海量新闻网页的分析,总结出新闻网页在内容和结构上的特征,设计了一种基于主标记的网页分块算法,可以全自动地高效率地从网页中抽取出新闻的基本要素,包括标题、正文(含图片、附件)、来源和时间。在此基础上,本文设计并实现了一个新闻网站信息采集系统——方正天钩2.0,并详细介绍了其中线程池、URL词典、网络蜘蛛等模块的设计和实现方法。最后,通过实验数据分析和实际应用效果,对系统提出了改进方法。
其他文献
基于量子力学的量子计算机可能成为继经典计算机以后的一类强有力的新型计算机,量子程序设计语言则直接关系到量子计算机的使用,国外研究刚刚起步。 本文在分析比较已有量子
随着多媒体技术、嵌入式系统、移动计算、普适计算等计算机科学与技术的发展,实时计算与实时系统正日益深入人们的日常生活。与非实时系统相比,实时系统最显著的特点是系统的正
当前,将计算机和网络技术应用于军事领域、处理军队内部事务已成为军队发展的必然趋势,实现军事管理的自动化、无纸化是我军信息化变革的重要内容之一。电子政务被列为“信息高
学位
随着计算机技术的发展和互联网的普及,面向单一企业和特定业务逻辑的软件系统,以及传统的集中控制的软件开发方法已经无法适应当前分布式的、异构的应用环境。应用环境的这些特
学位
嵌入式系统与日常生活紧密相关,从家用电器的控制面板到航天飞行器的控制系统,无处不在。许多嵌入式系统都是安全攸关系统,任何一点错误都可能引起灾难性后果,例如核反应堆控制系
云环境的安全问题越来越受到重视,出于安全考虑用户会选择在云端以加密形式存储文件。同时随着团队成员之间协同工作的普遍开展,对文件的共享需求也越来越强烈。解决好文件加密
随着市场竞争的不断加剧,传统生产管理所强调的低成本、高质量因素已不再是提高企业竞争力的主要因素,现代市场环境中越来越强调的是产品的个性化定制和交货期等指标,目前一般生
标注系统是一种利用标签实现信息管理的系统:标签是由用户自由选择的、用于标注信息资源的关键词,系统基于资源的标注组织资源并创建标签云,即有限标签的可视化呈现,使用户可在
随着卫星追踪及其它位置获取技术的成熟与广泛应用,人们能够收集各种移动对象的位置数据。这些移动数据使人们可以从一个新的角度理解各种社会现象。移动数据的独特性质对传统
近年来,国内邮政行业得到了快速发展,同时也面临着国内外同行的激烈竞争。为有效满足市场需求,加强自己的行业竞争力,国内邮政行业迫切需要加快信息化建设的步伐。省邮政综合服务