吃玩网中Deep Web数据集成研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:hellolin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,涌现出大量同类网站(例如房产网、吃玩网、旅游网等),由于各个网站间信息的孤立性,人们为获得有效信息不得不游离于各个网站之间。虽然,像谷歌、雅虎、百度等(称为传统搜索引擎)提供搜索服务的网站也可以搜索出不同网站中的信息,但它们的爬虫只能从一个链接爬行到另一个链接。这样,新的网页要从旧的网页中发现,如果一个网页不被别的网页索引,那么就永远不能被发现,从而形成了Deep Web。传统搜索引擎爬虫的爬行特点决定对于Deep Web中的信息一筹莫展,此外传统搜索引擎还存在信息主题性不强、信息冗余和爬行周期过长等问题。因而传统搜索引擎从一定程度上已经无法满足人们的需求。本文针对传统搜索引擎的种种不足,在信息集成的基础上,综合传统搜索引擎的技术,设计了基于领域本体的Deep Web爬虫模型。并在此模型的基础上,提出了一个面向吃玩类网站Deep Web数据集成框架—DWDIS。围绕着这个模型和框架,对其中涉及的若干关键问题进行了深入的研究,并对其设计和实现进行了初步的探讨,实现了一个基于DWDIS的吃玩易搜系统,对DWDIS框架进行了初步的实现和应用验证。本文主要的研究内容和创新工作包括:1.建立了面向特定领域的Deep Web爬虫的爬行模型,并以此为本文的理论基础。该模型在传统搜索引擎的爬虫模型基础上,根据搜索Deep Web内容的需求,增加了特有的工作步骤。该爬虫的主要任务是分析网页中是否含有搜索表单,在本体的帮助下,对表单中的搜索表单进行识别、分析和试填提交,并且对返回的结果进行分析。而传统搜索引擎爬虫的任务是不断的从一个链接爬向另一链接,并在爬行过程中,对链接的网页下载,进行索引存储。2.在Deep Web爬虫的模型基础上,建立了一个面向用户的、应用于吃玩类网站Deep Web数据集成框架—DWDIS。该框架中广泛的应用了信息集成中的模块和技术,建立吃玩类商家本体,使系统能够在本体管理器的管理下顺利运行。3.在Deep Web爬虫模型内,对其中的环节进行了关键部分的实现工作,并讨论了关键部分的实现算法。在模型中,与传统爬虫相同的环节没有进行讨论,重点讨论了不同环节的实现。包括标签与表单元素的匹配算法、表单元素与本体属性的映射、表单填写的质量标准以及衡量方法。最后,还分析了结果返回页面信息抽取的困难以及克服困难的一些方法。4.对本文提出的模型和方法进行了关键部分的实现工作,建立了一个基于DWDIS的吃玩易搜系统,以吃玩类网站Deep Web数据集成为应用背景,对本文工作进行了验证。通过这些实际的开发和验证工作,为进一步的研究,并使之在更多领域的广泛应用奠定了一定的实验基础。5.在基于DWDIS的吃玩易搜系统中提出了活动地图的概念,并对活动地图的生成显示以及用户交互进行了实现。为了方便用户的交互,本系统采用了异步刷新技术。使本系统通过修改本体,就可以运用在其它与地理信息相关的领域。本文针对解决传统搜索引擎的问题,对如何有效的搜索出吃玩类网站DeepWeb中的信息进行了探索性的研究,希望为该问题的解决提供一种有效的思路和方法。本文的课题基础也是目前信息集成领域应用比较广泛的技术,不但为互联网领域的信息搜索提供了思路和方法,同时也为信息集成领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。
其他文献
随着计算机科学与技术的发展,理论、实验和计算形成了当代科学研究的三大支柱。高性能计算已经成为支撑科学研究和高新技术发展的基础性交叉学科,越来越多的科学研究和重大工程
急性低血压症(Acute Hypotension Episodes,AHE)作为重症监护(Intensive Care Unit,ICU)中一种高死亡率、高突发率的术后并发症,严重威胁着患者术后的生命安全。生理信号时间序列
随着大数据时代的到来,如何快速处理数据并从中发掘有用的信息成为目前急需解决的问题。特征选择作为机器学习和数据挖掘领域的一个重要的预处理步骤,越来越受到学者们的关注
矩阵是数值代数中的一个基本概念,许多科学计算问题往往都可以归结为对矩阵的操作。在许多应用中,需要用到较长的矩阵链相乘,例如机器人,机器控制,以及计算机动画等。矩阵链
关联规则挖掘是数据挖掘的一个重要内容,计算频繁项集是关联规则挖掘中的关键技术和步骤。这方面的算法主要代表有两类:Apriori类算法、FP-Growth类算法。Apriori类算法缺陷之
随着互联网和电子商务的快速发展,各种商业活动和人们的日常生活越来越多的依靠网络来进行,如电子现金交易、电子拍卖、电子招标和电子合同的签署等。在复杂的网络环境下,如
在过去的数十年中,无论是商业企业、科研机构或者政府部门,MIS系统(Management Information System,管理信息系统)都被广泛地应用在信息管理上。以事务处理为主的MIS系统在方
XML自出现以来,就以其强大的跨平台交换的能力、数据表达能力以及简单、开放性、可扩展等优点而逐渐成为互联网上信息发布和交换的事实标准。由于XML数据的开放性,特别是网络
随着互联网技术的快速发展,网上信息的迅速增加,人们越来越依赖于搜索引擎来获取互联网上有用的信息。搜索引擎在给用户获取信息带来方便的同时也把用户带入了信息过载的窘境。
膜计算作为自然计算的一个新分支,是受生命细胞的结构和功能以及高级生命组织和器官间的协作所启发的一种计算模型,这种计算模型普遍称为P系统。由于其具有分布式、并行计算