论文部分内容阅读
随着Web2.0时代的到来,用户产生的内容(user-generated content,UGC)成为越来越重要的数据源。论坛、博客等Web2.0风格的站点每天都有成千上万的互联网用户在上面添加内容、贡献丰富的信息。这些用户产生的内容包含了大量人类掌握的知识,对搜索引擎、问答系统、产品评测等应用具有重要的意义,引起了学术界和工业界的广泛重视。
但是,这些站点具有信息量庞大、更新频繁、大量使用脚本和同一内容的数据项分布在不同网页内等自身特点,给数据收集和提取工作带来了诸多挑战。本文在调研了国内外研究现状的基础上,提出了一种将数据收集和提取结合在一起的描述性语言C4(Combine web Collection and extraCtion on user-generated Content),以应对这些挑战。主要工作包括:
●结合Web环境的特点,提出一种描述性数据收集和提取的语言C4。C4语言基于视觉特征,让用户可以以一种“所见即所得”的简单方式对数据收集和提取进行指导,只收集和提取需要的内容。
●引入了Locate、Extract和Output三个主操作符,为C4语言建立了逻辑执行计划。Locate操作符支持脚本解析,Extract操作符支持跨页面提取。同时,C4语言按预定义的schema,将处理结果以XML文件的方式存储。
●介绍了为提高C4语言的执行效率,如何将C4语言的逻辑计划转换到物理计划。Locate操作符的物理实现的选择是基于数据收集是否满足提取的需求,而Extract操作符的物理实现则通过训练将基于视觉的规则转换到XPath规则。
●介绍了如何将C4语言扩展以支持增量更新处理。由于C4语言将数据收集和提取结合到一起,可以在较细粒度的基础上进行增量更新处理,更有效应对更新频繁的网站。
通过现实世界的几个目标网站的实验分析,本文的方法能够有效地应用到对用户产生内容的数据收集和提取中,具有良好的性能。