Web环境中描述性数据收集和提取系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:lhcllk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,用户产生的内容(user-generated content,UGC)成为越来越重要的数据源。论坛、博客等Web2.0风格的站点每天都有成千上万的互联网用户在上面添加内容、贡献丰富的信息。这些用户产生的内容包含了大量人类掌握的知识,对搜索引擎、问答系统、产品评测等应用具有重要的意义,引起了学术界和工业界的广泛重视。   但是,这些站点具有信息量庞大、更新频繁、大量使用脚本和同一内容的数据项分布在不同网页内等自身特点,给数据收集和提取工作带来了诸多挑战。本文在调研了国内外研究现状的基础上,提出了一种将数据收集和提取结合在一起的描述性语言C4(Combine web Collection and extraCtion on user-generated Content),以应对这些挑战。主要工作包括:   ●结合Web环境的特点,提出一种描述性数据收集和提取的语言C4。C4语言基于视觉特征,让用户可以以一种“所见即所得”的简单方式对数据收集和提取进行指导,只收集和提取需要的内容。   ●引入了Locate、Extract和Output三个主操作符,为C4语言建立了逻辑执行计划。Locate操作符支持脚本解析,Extract操作符支持跨页面提取。同时,C4语言按预定义的schema,将处理结果以XML文件的方式存储。   ●介绍了为提高C4语言的执行效率,如何将C4语言的逻辑计划转换到物理计划。Locate操作符的物理实现的选择是基于数据收集是否满足提取的需求,而Extract操作符的物理实现则通过训练将基于视觉的规则转换到XPath规则。   ●介绍了如何将C4语言扩展以支持增量更新处理。由于C4语言将数据收集和提取结合到一起,可以在较细粒度的基础上进行增量更新处理,更有效应对更新频繁的网站。   通过现实世界的几个目标网站的实验分析,本文的方法能够有效地应用到对用户产生内容的数据收集和提取中,具有良好的性能。
其他文献
人工免疫算法的发展方兴未艾,在众多领域得到了广泛的研究应用,因此深入开展这方面的研究是十分必要的。本文首先研究了生物免疫系统以及人工免疫系统的基本原理,为进行免疫
随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎在信息采集、存储等方面都将面临更加严峻的挑战。此外,通用搜索引擎面向Web上所有的检索用户检索不同类别的各种信
学位
入侵检测技术通过收集计算机或网络中若干关键点的信息,来监视计算机或网络系统的运行状态,以发现各种攻击企图、攻击行为或者攻击结果。入侵检测有两种主要的检测技术:误用
随着移动通信技术的飞速发展,越来越多的用户在日常生活中使用手机。为了提供移动服务,移动基站会时刻监测开机用户的当前位置以及时间戳。基于基站收集到这些用户移动信息,能够
计算机数控系统正在由封闭式体系结构向开放式模块化体系结构发展,PLC(Programmable Logical Controller,可编程逻辑控制器)是实现数控机床开关量控制功能的关键模块,和传统的硬
煤矿井下环境复杂,存在多种安全隐患。近年来我国煤矿事故频繁发生,造成重大人员伤亡和经济损失,现有的煤矿安全系统已经无法满足安全生产需要。无线传感器网络(Wireless Sen
RB模型是一种随机约束满足问题模型。基于RB模型产生的难解实例被广泛应用于算法竞赛和理论研究。本文从如下两个角度研究了RB模型的难解性。   1.首先,本文研究了RB模型的
无线传感器网络被认为是全球未来十大技术之一。由于它在许多领域具有重要的科研价值和实用价值,在基础理论和工程技术两个层面向科技工作者提出了大量挑战性问题,从而引起了学
互联网技术的不断发展,使得网络媒介已经成为了人们生活中重要的信息来源,尤其是新闻门户网站也为人们获得新闻信息提供了新的方式。据CNNIC的调查,网络媒体的使用率已经达到
随着互联网在全球范围内的高速发展,网络信息资源日趋丰富,而现在的互联网信息检索技术和方法还不能完全满足用户对信息准确性和有效性的要求。为提高用户查询信息的覆盖面和准