Web内容挖掘技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:i369731392
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网是最富有的信息资源库,但是因特网数据本身具有的特殊性质使得传统的数据库技术不适合于因特网上的信息检索。搜索引擎主要利用Web的结构来检索,这使得搜索引擎返回的结果集太大,相关的文档和不相关的文档都混合在一起。Web内容挖掘是Web挖掘的一个重要的分支,Web内容挖掘是一种主题更为明确的Web挖掘方法,Web内容挖掘的对象是夹杂着HTML标记的网页数据,数据可能是结构化的、半结构化的和无结构的自由文本等,数据本身还是动态的,传统的数据挖掘技术不能直接应用到Web数据的挖掘上,任何试图利用Web数据进行生产或者研究的项目必然先遇到Web数据的抽取问题,即把具有隐含格式的网页数据转换成具有明显结构化的数据。因此近年来各种Web内容挖掘技术的相关研究工作大量出现在各种学术会议、期刊杂志中,这也说明了Web内容挖掘技术研究是一个具有实际应用价值的研究课题。  Wrapper所承担的就是把HTML格式的数据抽取并转化成结构化的数据的程序,Wrapper的核心是抽取规则,抽取规则是基于HTML文档格式的。对于HTML文档,有两种看待方式:一种是将HTML文档看作是字符流;另一种是将HTML文档看作是树结构。既然HTML文档有两种视图,本文从两个方面进行研究。首先研究基于逻辑的网页描述形式,然后研究了基于逻辑的网页描述形式的结构化数据抽取模型,最后研究基于图的网页描述形式及其结构化数据抽取系统。本章还讨论了相关的研究工作,比较了抽取模型的不同点,最后对现成的结构化数据抽取工具做了比较。  海量的数据给搜索引擎带来了巨大的挑战,要求搜索引擎的crawler程序能够进行足够频繁地采样,以保证查询结果的有效性;采样的页面要足够广泛,以保证所有有价值的页面都能够被访问到。现有的搜索引擎采样页面都没有超过Web页面的16%,联合11个主要的搜索引擎采样的数据仍然低于Web数据的50%。所以,增大搜索的粒度是个研究的热点,社区是个比较适合的搜索单元。本章研究了Web的结构,分别讨论了基于PageRank、基于HITS、基于二分有向图和基于最大流的社区发现算法。  此外,本文最后研究了搜索引擎结果聚类的相关问题,搜索引擎结果聚类技术实质上是为了方便用户的检索,将聚类技术应用于Web信息检索结果的可视化输出,使用户能够在更高的主题层次上来查看搜索引擎返回的结果。本文研究了搜索引擎结果聚类的相关算法及其特点。
其他文献
近几年来,数据库上的关键词检索技术迅速流行起来,并成为计算机研究领域中的一个热点,这也是有其应用背景和驱动的,当数据库作为一种资源向远程用户提供相应的查询服务、数据共享
事务处理技术是保证信息可靠性和一致性的重要技术,随着网络技术的发展以及应用需求的变化,集中式应用演化发展为网络分布应用,事务管理功能由专门的中间件(如事务监控器等)来提
随着多媒体技术和宽带网络的飞速发展,视频点播VOD(Video on Demand)的应用越来越广泛,并深受用户的欢迎。智能化住宅小区的普及,给视频点播服务带来了广阔的应用前程;宽带网
当前,网络和数据库技术的快速发展,使得计算机能存储大规模的海量数据;但传统的数据分析处理工具如管理信息系统对这些数据只能进行表层的处理,更深层次的数据分析能力却不尽
电子政务系统把政府对公众的服务移植到了Internet上将实现政府管理性职能向服务性职能的转变,政府部门的信息化建设已是当前衡量一个国家信息化的最重要条件。尽管在各级部门
随着软件产业的迅速发展,软件作为人们思维与知识载体已成为信息产业的灵魂与核心,软件应用需求已跨越了“边界”。政府、企业和社会对新一代软件产品与服务的需求迅速膨胀,软件
网络飞速发展、web信息资源极为丰富的今天,如何通过信息检索获取令人满意的检索结果成为一个重要的研究课题。搜索引擎作为web上最主要的信息检索工具,在各个领域都得到了广泛
本文在研究了MPEG-4标准的基础上,给出了基于MPEG-4解码器的实现,详细介绍了解码器的数据结构,层次结构,语法结构,解码流程,VOP解码等,并且对其中的关键函数宏块的解码进行了详细分
运行中随机化是针对基于内存信息泄露的代码复用攻击提出的一种防御方法。在程序运行过程中触发随机化操作,使攻击者难以获得有效的内存布局信息用于组织攻击。现有的运行中
随着信息技术,特别是互联网技术的飞速发展,依托互联网这个大载体在全球范围内进行发布的信息越来越多,如何能在互联网上快速并准确地找到所需要的信息,一直是人们所关注和研究的