面向新闻领域的Web信息抽取与采集方法及应用

来源 :北京大学 | 被引量 : 0次 | 上传用户：pan2009pan

【摘要】

：

互联网上的信息是当今世界上最丰富的知识宝藏，但如何有效地获取信息却一直是个难题。Web信息采集系统可以对用户所关心的目标站点进行数据采集和信息抽取，得到结构化的数据，进

【作者】

：

黄远文

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2006年期

【关键词】

：

信息抽取信息采集网页分块 BlockTree URL词典网络蜘蛛互联网

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网上的信息是当今世界上最丰富的知识宝藏，但如何有效地获取信息却一直是个难题。Web信息采集系统可以对用户所关心的目标站点进行数据采集和信息抽取，得到结构化的数据，进行存储和相关处理。其中最关键的技术就是如何进行Web信息抽取。国内外很多学者和研究人员致力于研究Web信息的抽取和集成。本文的研究重点在于面向新闻领域的Web信息抽取和采集。新闻是互联网上最重要的资讯。本文通过对海量新闻网页的分析，总结出新闻网页在内容和结构上的特征，设计了一种基于主标记的网页分块算法，可以全自动地高效率地从网页中抽取出新闻的基本要素，包括标题、正文(含图片、附件)、来源和时间。在此基础上，本文设计并实现了一个新闻网站信息采集系统——方正天钩2.0，并详细介绍了其中线程池、URL词典、网络蜘蛛等模块的设计和实现方法。最后，通过实验数据分析和实际应用效果，对系统提出了改进方法。

其他文献

量子程序设计语言NDQFP

基于量子力学的量子计算机可能成为继经典计算机以后的一类强有力的新型计算机，量子程序设计语言则直接关系到量子计算机的使用，国外研究刚刚起步。本文在分析比较已有量子

学位

量子程序设计语言NDQFP

实时系统调度优化理论及方法研究

随着多媒体技术、嵌入式系统、移动计算、普适计算等计算机科学与技术的发展，实时计算与实时系统正日益深入人们的日常生活。与非实时系统相比，实时系统最显著的特点是系统的正

学位

实时系统可调度性判定速率单调调度算法非线性规划调度空间过载能耗管理

军用文电处理系统研究与设计

当前，将计算机和网络技术应用于军事领域、处理军队内部事务已成为军队发展的必然趋势，实现军事管理的自动化、无纸化是我军信息化变革的重要内容之一。电子政务被列为“信息高

学位

军队电子

Web Service与MAS的集成及通信会话机制研究

随着计算机技术的发展和互联网的普及，面向单一企业和特定业务逻辑的软件系统，以及传统的集中控制的软件开发方法已经无法适应当前分布式的、异构的应用环境。应用环境的这些特

学位

Web服

Simulink/Stateflow模型的形式验证及其应用

嵌入式系统与日常生活紧密相关，从家用电器的控制面板到航天飞行器的控制系统，无处不在。许多嵌入式系统都是安全攸关系统，任何一点错误都可能引起灾难性后果，例如核反应堆控制系

学位

运行控制系统Simulink模型Stateflow模型延时微分方程

基于DNSSEC的云环境下加密文件共享服务

云环境的安全问题越来越受到重视，出于安全考虑用户会选择在云端以加密形式存储文件。同时随着团队成员之间协同工作的普遍开展，对文件的共享需求也越来越强烈。解决好文件加密

学位

云环境加密文件共享服务公钥分发域名系统安全扩展

基于RFID中间件的生产过程控制系统

随着市场竞争的不断加剧，传统生产管理所强调的低成本、高质量因素已不再是提高企业竞争力的主要因素，现代市场环境中越来越强调的是产品的个性化定制和交货期等指标，目前一般生

学位

生产过程控制系统生产过程控制系统RFIDRFID中间件中间件

面向用户角色的标注系统研究

标注系统是一种利用标签实现信息管理的系统:标签是由用户自由选择的、用于标注信息资源的关键词，系统基于资源的标注组织资源并创建标签云，即有限标签的可视化呈现，使用户可在

学位

标注系统用户角色资源查找标签云

候鸟迁徙移动模式挖掘研究

随着卫星追踪及其它位置获取技术的成熟与广泛应用，人们能够收集各种移动对象的位置数据。这些移动数据使人们可以从一个新的角度理解各种社会现象。移动数据的独特性质对传统

学位

数据挖掘候鸟迁徙行为集体性移动模式

邮政综合服务平台中报表系统的研究与设计

近年来，国内邮政行业得到了快速发展，同时也面临着国内外同行的激烈竞争。为有效满足市场需求，加强自己的行业竞争力，国内邮政行业迫切需要加快信息化建设的步伐。省邮政综合服务

学位

报表系统报表系统邮政综合服务平台邮政综合服务平台数据采集系统数据采集系统系统集成系统集成

面向新闻领域的Web信息抽取与采集方法及应用

其他学术论文