论文部分内容阅读
越来越多的研究者将精力投入到Deep Web的信息查询中去,而目前DeepWeb数据抽取方面的主流模式是用人工参与的方式将每一类网页解析成tag树的结构并找出其中有用信息所在的模块作为标尺然后抽取此类网页tag树中的同位置节点中的内容,但是这种抽取方式也有一定的弊端,由于HTML页面的结构自由和形式的多样性使得网络上HTML页面的结构类型非常繁多复杂,各种类型的页面都需要做出那一类型的标准树结构会导致数据抽取过程中手工成分非常繁多,因此如何有效的减少数据抽取中的手工参与的成份成为了一件比较有挑战性的任务。
本文提出了一种新的数据抽取的方式,即自动查找tag树中的最大重复结构来解决这一问题。在本文中通过将数据挖掘中的经典算法Apriori算法引入到Deepweb数据抽取系统中进行一些实验性的工作,从得到的实验结果以及相关的效率趋势分析来验证减少Deepweb数据抽取中人工参与的可行性。
本文首先将HTML页面转换成符合W3C标准的XHTML格式并解析成tag树来清洗掉与所需信息无关的广告,链接,下滑菜单等从信息,然后层序历变清洗后的tag树得到每一个节点及其子节点的集合并存入数据库,再利用挖掘关联规则频繁项集的Apriori算法实现自动查找tag树结构的最大重复模式,最后根据抽取规则将所需要抽取的数据存储在一个XML文档中。