【摘 要】
:
作为搜索引擎的重要组成部分,网络机器人能从Internet上自动获取网页,替搜索引擎在Internet上搜集网页。通用网络机器人以种子URL作为入口,对整个Web进行遍历下载。而主题网
论文部分内容阅读
作为搜索引擎的重要组成部分,网络机器人能从Internet上自动获取网页,替搜索引擎在Internet上搜集网页。通用网络机器人以种子URL作为入口,对整个Web进行遍历下载。而主题网络机器人不单单是充当一个获取网页的工具,还能够对链接以及页面内容进行主题相关性识别。主题网络机器人并不仅把目标定位覆盖率,还要提高获取主题相关网页的准确性,为搜索引擎提供一个主题相关的网页库。现在,主题网络机器人已经成为搜索引擎技术领域的一个研究热点,是搜索引擎的发展的重点方向之一。本文的主要的研究工作和特点如下:1.研究了一种改进后的FICA(Fast Intelligent Crawling Algorithm)算法,该算法可以快速的对同一层的URL进行简单的重要性排序,这样主题网络机器人就可以优先搜集重要性较高的页面;2.研究了一种改进后的Sydney Strategy算法,该算法既可以有效地控制队列中暂存的URL数量,在很大程度上保证了覆盖度,又可以有效地利用相邻链接间主题相关的特点;3.提出了一种新的隧道穿越的方法:在保证主题网络机器人主线程快速搜集主题相关页面的前提下,利用一个次线程,将主线程搜集的所有主题不相关URL遍历一定的深度,找出其中主题相关的URL,再将这些URL挂回主线程,从而在较大程度上达到对隧道的穿越;4.本文使用改进后的FICA算法,改进后的Sydney Strategy算法,KNN算法以及本文提出的隧道穿越方法,构建了一个快速、高效、智能的主题网络机器人系统——基于URL分析的主题网络机器人,并且详细介绍其整体设计流程、系统结构及线程设计,在这个基础上介绍了系统的几个重要模块和关键技术。
其他文献
班级管理是辛苦的、富有创造性的劳动,同时又是充满了育人的科学,它影响着每一个学生在德、智、体各方面的健康成长,甚至影响着孩子们一生的生活道路。
电信传送网发展演变的最基本目标是降低通信中信息的传送代价,然而随着分组接入带宽的膨胀和NGN的部署,时分信道化传送已不能完全满足这一基本需求。以太网和MPLS网凭借着自
近年来,光突发交换技术(OBS,Optical Burst Switching)由于其技术上的优势被认为是下一代全光网络的一种可行性方案,逐渐成为国内外研究的热点。本文围绕OBS网络的主要研究内
随着电力电子技术的迅猛发展,电力电子器件的应用日益广泛,其故障问题也越来越突出。本文在对电力电子器件主电路故障进行分析的基础上,分析了现存故障诊断方法的不足之处,提
尽管在1971年蔡少棠就已经提出了忆阻器的概念,但国外对于忆阻器研究的热潮始于2008年惠普公司基于TiO2材料的报道。我国学术界于2010年第一次在正式场合引介忆阻器,虽然只是一
请下载后查看,本文暂不支持在线获取查看简介。
Please download to view, this article does not support online access to view profile.
近年来,互联网技术、信息通信技术快速发展,推动互联网与金融加速融合,催生互联网金融这一新的金融业态。互联网金融有效降低了交易成本,减少了信息不对称,拓展了交易可能性
随着现代工业的发展,氢气作为一种重要的工业原料在电力、航天、化工等各部门得到了广泛的应用。但是氢气的不确定泄漏可能危害生命或对工业设备造成极大的破坏,因此,如何对
人的体细胞已经被证明可以被特定的转录因子重编程回到发育最初的阶段,由此产生的人的诱导多能干细胞(hiPSCs)可以在体外分化成大量的多种功能细胞,因此,hiPSCs为研究人类遗传性
随着计算机网络技术的飞速发展,信息技术的安全问题越来越受到人们的重视,针对密码芯片的攻击以及防御的研究已经成为当前信息安全的热点研究方向,尤其以功耗攻击为主要手段