基于关键词自学习的中文网页分类技术研究与实现

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:yingyingpps
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,为了满足人们对知识信息的需求,我国有超过450万家网站为网民提供涉及各个知识信息领域的网页。正是由于网站数量繁多,网页内容和形式变得参差不齐。为了能够将大规模中文网页高效的进行类别区分,盲目的将外文网页分类技术不加改进的应用于此,这是不可取的行为。而国内传统的基于机器学习的中文网页分类技术的发展又无法紧跟互联网复杂环境的变化,分类效率和准确率偏低是现阶段的棘手问题。本次研究针对于大规模中文网页分类技术,研究如何运用多种技术从网页源码中提取文本信息、结构信息和网页内链接信息,构建网页特征模型-关键词模型,并将此模型作为基于自学习的卷积神经网络-支持向量机分类算法的输入,最终获得网页分类结果。本文的主要内容包括:(1)网页信息提取方法的改进和与将网页表征为符合分类器输入要求的关键词特征模型。通过对网页源码进行分析,获得网页布局信息,把网页按信息量多少划分为主次要信息块,提取主要信息块中的文本信息、超链接和网页标签属性。对文本信息进行中文分词,获得文本关键词;将其余网页信息转换成符合关键词模型的形式,与文本关键词一起构建三维网页关键词特征模型,实现网页信息提取和表征技术的改进。(2)基于自学习的网页分类算法的改进。研究一种卷积神经网络算法在中文网页分类任务中的应用方案。卷积神经网络能够自学习网页深层特征信息,利用局部感知野,对网页特征的感知从局部到整体,在更高层获得网页整体特征信息;权值共享的特性又可以减少神经网络的复杂性。卷积神经网络与支持向量机级联,有效降低支持向量机的输入维度,并提高了分类准确度。在训练参数的过程中,首先训练传统的卷积神经网络,将其部分训练参数迁移至新的级联模型中,再整合训练级联模型,这种做法提高了训练周期与消耗的计算资源。(3)基于特征增广的次级通道实现。针对某些网页提取的特征维度过于稀疏,影响分类效果的情况,研究对这类网页进行特征项增广的技术。提取网页内链接,进行链接匹配后二次访问,对二次网页提取重要信息以扩充原始网页特征项;获取网页标题的关键词,进行二次搜索,提取相似标题网页大权值信息块,增广原始网页关键词模型。以次级通道的形式封装数据增广技术,添加至分类流程结构中。(4)系统实现与性能测试。基于以上网页关键词特征模型构建和基于自学的网页分类算法研究,实现了基于关键词自学习的中文网页分类系统。对网页关键词特征模型、基于自学习的卷积神经网络-支持向量机级联分类算法和次级通道增广技术进行了性能测试。实验结果表明,以上提出的改进方法有效提升了分类性能,能够更好地针对大规模的中文网页分类场景。
其他文献
本报讯:全国道路交通安全和行车秩序有明显好转,交通事故造成的死亡人数增幅下降,力争不发生一次死亡30人以上的特大交通事故,交通事故多发点段减少一半以上,各省(自治区、直
报纸
民国及其以前的基督教在华传播史表明:基督教能否在中国扎根并得到良好的发展,关键在于能否解决好“基督教中国化”的问题。目前,这一问题仍未得到妥善解决。随着《宗教蓝皮
由于化工装置设计项目在建设过程中存在的危害及操作问题,如爆炸、可燃有毒气体或液体泄漏、火灾等,使该行业项目建设单位必须加大对安全生产的投入,以避免各种重大化工事故
随着管道运输的广泛应用,管道检测和维护是工业中重中之重,因管道姿态多样,致使X射线测头需要进行多次移机,并调整到合适的姿态。目前的三角支架无法满足X射线探头的多姿态灵
2017选秀节目《耳畔中国》在安徽卫视的播出为中国民歌的普及和推广起着不可估量的推动作用,为高校民族声乐教学工作扭转了学生们的审美导向,弘扬了中国传统民族音乐文化。本
柯坪地区中-上奥陶统萨尔干组与上奥陶统印干组海相烃源岩是塔里木盆地重要的烃源岩组成部分,对其特征及其成因机制的研究具有重要的科学意义和经济价值。在通过岩石热解分析
现在由于我国的综合国力和经济实力的提高,相应的人们的物质需求也得到了大大地满足,现在人们就把教育孩子当成生活的重中之重,孩子是一个家庭的希望,这样就促进了教育培训机
男女欲求结合,当然需要机会。刚刚萌芽的爱,也得根据机会的有无而发展或受挫。一个女性的爱情萌发,在很多情况下与自我意识有关联。但即或如此,如若得不到机会,也很容易落得
<正>《动态》:10月7日,弘信电子(300657)发布三季度业绩预告,2019年三季度,公司预计实现归母净利润1.36亿元至1.62亿元,同比增长55-85%。单季度来看,2019Q3公司实现0.68-0.82