基于支持向量机分类算法的主题爬虫的研究与实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zhi911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫为搜索引擎从互联网上下载网页,是搜索引擎不可或缺的组成部分。通用网络爬虫会从一个或者多个种子URL链接开始,爬行整个网络上的网页。而主题网络爬虫除了具有能够爬行下载网页的基本功能外,还能够分析链接以及页面内容。主题网络爬虫提供数据资源给面向主题的用户查询,它的目标是抓取与特定主题内容相关的网页,并不追求覆盖整个网络上的网页。主题网络爬虫已经成为网络信息挖掘和获取领域的研究热点,对搜索专业领域的信息资源有着相当重要的意义。本文着重研究了支持向量机算法在主题爬虫中的应用,研究工作有以下几个方面: (1)研究了支持向量机分类算法原理,并对网页的数学表示方法进行了具体的描述,提出了一种基于支持向量机的网页分类算法,利用支持向量机对网页进行二类分类,找出所需的网页;再利用向量空间模型,对分类好的主题网页进行多类分类。 (2)在构造支持向量机的过程中,为了有效提高分类的召回率,引入了一种偏移因子,该算法对分类函数进行了修正,只需要计算二类分类器,减少了误分类网页数,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类准确率和召回率。 (3)围绕着算法和主题爬虫的爬行目标,重新设计了爬虫的工作流程和功能模块,并利用HTTP分析技术,多线程处理技术,增量检测技术实现了基于SVM主题分类算法的主题爬虫Percaspider,并对爬虫的总体性能进行了测试,对结果进行了展示和分析。实验表明,新的主题爬虫在下载速度和准确率上都有理想的效果,保证了爬虫有效性和实用性。
其他文献
目的 评价天麻钩藤饮对精神分裂症出现锥体外系不良反应患者的生活质量的影响.方法 将90例患者随机分入天麻钩藤饮组(研究组)和盐酸苯海索组(对照组),随访8周.应用不自主运动
为了克服传统存储器件所存在的缺陷,人们提出了许多新型的器件,包括相变存储器(PcRAM)、铁电存储器(FeRAM)、磁存储器(MRAM)以及阻变存储器(RRAM)。其中,基于氧化物半导体材料的
非洲菊是极具市场前景的世界四大切花之一,也是研究复杂花序的理想模式植物。GASA基因家族成员参与了植物生长发育各个方面的调控。目前在非洲菊中报道的GASAs家族成员只有2个
目的 探讨卒中后抑郁患者治疗前后血清肿瘤坏死因子α(TNF-α)水平与认知功能的特点及相关性.方法 回顾性连续纳入苏州市广济医院2016年7月至2019年6月的门诊及住院卒中后抑
基于布里渊散射的分布式传感系统,工作波长处于长波段,受色散和衰减影响较小,适于长距离传感,而且普通单模光纤的自发布里渊散射,其散射光频移和功率都受环境温度和应变的影
流感是由流感病毒引起的人畜共患急性呼吸道传染病,在历史上曾发生过多次世界范围的大流行。目前市场上抗流感药物主要是神经氨酸酶抑制剂,然而,随着这类药物的广泛应用,耐药毒株
本文在中型规模的实验桶(上底直径×下底直径×高:48 cm×37 cm×55 cm)和小型试验箱(18.0 cm×12.0 cm×6.5 cm)中,研究了黑藻(Hydrilla verticillata)、伊乐藻(Elodea nuttallii)
癌症是目前危害人类健康和致使我国城乡居民死亡的主要疾病之一。根据美国癌症协会统计,超过90%以上的肿瘤患者死于不同程度的耐药。然而截止到目前,癌症的耐药机制仍未被完全揭
胆固醇是昆虫细胞膜结构的重要组成成分之一,同时也是甾类激素生物合成的前体物质。昆虫体内缺乏胆固醇从头合成所需的两种关键酶,故必须从食物中吸收固醇类物质以满足生长、发
中国科技网9月28日报道(张微)蜜蜂是对人类有益的昆虫类群之一,因为蜜蜂为取得食物不停的工作,白天采蜜、晚上酿蜜,同时替果树完成授粉任务,为农作物授粉的重要媒介。而澳大