面向主题的Web信息收集技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:susan222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前Web已经发展成为全球最大的分布式共享信息资源库。但是因为Web上的信息数量庞大、动态性高,且缺乏统一的格式,导致现有的Web信息检索工具的检索效果持续下降,难以满足用户日益增长的个性化的信息需求。本文介绍并研究的面向主题的Web信息收集技术,是解决这一问题的热门技术。这一技术通过定制收集主题并对Web上该主题领域内的信息进行集中收集,能够直接为用户更高效地提供更为详尽的专门信息。 本文对主题收集技术的原理和关键技术进行了研究,并设计和实现了主题Web信息收集系统(CuteCrawler)。 本文的主要研究工作包括以下几个方面:(1)分析了Web信息收集系统的体系结构,以及主题收集的特点。本文分析了Web信息收集的基本原理,给出了Web信息收集系统的一般性体系结构,分析了各大功能模块的功能和原理。在此基础上提出了主题收集所需要解决的关键技术。 (2)提出了一种综合性的收集主题的确定机制。分析了用于确定主题内容的关键词集和样本集这两种基本方法的优缺点,同时分析了主题的一般性、内聚性,以及权威性对主题收集的影响。提出了综合采用关键词集和样本集的有效主题确定机制。 (3)给出了基于VSM的Web页面的主题相关判别方法。对常见Web页面的预处理技术进行了介绍和分析,介绍了Web页面的表示模型-向量空间模型,在此基础上给出本文的Web页面主题相似度计算方法,以及相关的阈值确定方法。 (4)对超链的拓展方向进行了比较研究,设计了本文的超链拓展机制。本文分析了正向链接拓展的局限性,以及逆向链接拓展的诸多优点。并给出了正向链接与逆向链接的具体获取方法。最后,提出了正向和逆向链接拓展相结合的高效的超链拓展机制 (5)分析比较了各种URL排队机制的效果,设计了本文的URL排队机制。本文首先介绍了各种常见的URL排队机制,比较并分析了它们的实际应用效果。并在此基础上设计了一种新颖的URL排队启发式函数,以及主题收集算法Context-BestFirst,并给出了比较实验结果。 (6)设计并实现了一个面向主题的Web信息收集系统--CuteCrawler,给出了系统结构设计和模块功能介绍,最后对系统的性能进行了比较分析。本文旨在对主题收集的关键技术和系统的设计和实现进行深入探讨,本文的工作和结论对深入开展Web信息智能处理的研究具有重要意义。
其他文献
XML正在成为在WorldWideWeb上表示和交换数据标准。XML最初的目的是为了增强对在Internet上传递的文档的解释和操作的远程应用能力。从数据库的观点来看,XML文档中包含大量的
"新疆油田公司网络安全机制的研究与建立"主要是从新疆油田公司网络的实际应用出发,根据建立的风险评估的模型,通过对公司下属十几个单位信息应用情况的调研情况进行风险分析
通过对BOSS系统计费、结算、帐务处理子系统整体功能分析,得出各个环节数据处理独立的,并发的线性顺序工作流表示.在基本遵照工作流概念的基础上,作业调度系统的多个工作流引
该文先简述了GIS技术的概念和发展趋势,并结合计算机软件技术的发展潮流,探讨了组件技术在GIS系统中的应用,并对ESRI ArcGIS产品中的组件技术进行了分析,探讨了ESRI ArcGIS在
本文首先通过分析和比较,说明采用Lotus Domino群件系统作为办公自动化系统开发平台的可靠性和优越性,以及开发Domino应用程序的设计方式和管理理念,并在此基础上详细地论述
已有的时序数据挖掘方法主要关注于时序数据在取值和时间两维上的总体信息,其知识生成过程主要是基于总体的、最显著的、全局的序列变化形式。但是对于很多数据挖掘问题,在取值
随着互联网的迅猛发展以及网络带宽逐年的扩容,使人们在网络上能做的事情不仅仅是文字信息,还有观看消耗大量带宽的视频数据,这些变化使在线收看视频甚至是高清视频成为现实,这是
该文对纹理合成的方法进行了深入的研究,分析了现有的代表性的方法的不足之处,在此基础上提出并实现了基于基因纹理合成方法的新思想.该文实现的基于基因的纹理合成算法,能在
企业应用集成是整合企业内外部不同应用系统间信息和业务流程的解决方案.Web Services是一种面向服务的体系结构,其突出优点是实现了真正意义上的平台独立性和语言独立性.本
自从中国改革开放以来,各行各业都得到了飞速的发展,民航业就是其中之一.导航是飞机飞行的重要保障手段之一,为了加强中国民航的硬件设施,满足民航发展的需要,中国民航总局引