论文部分内容阅读
近几年来,为了满足人们对知识信息的需求,我国有超过450万家网站为网民提供涉及各个知识信息领域的网页。正是由于网站数量繁多,网页内容和形式变得参差不齐。为了能够将大规模中文网页高效的进行类别区分,盲目的将外文网页分类技术不加改进的应用于此,这是不可取的行为。而国内传统的基于机器学习的中文网页分类技术的发展又无法紧跟互联网复杂环境的变化,分类效率和准确率偏低是现阶段的棘手问题。本次研究针对于大规模中文网页分类技术,研究如何运用多种技术从网页源码中提取文本信息、结构信息和网页内链接信息,构建网页特征模型-关键词模型,并将此模型作为基于自学习的卷积神经网络-支持向量机分类算法的输入,最终获得网页分类结果。本文的主要内容包括:(1)网页信息提取方法的改进和与将网页表征为符合分类器输入要求的关键词特征模型。通过对网页源码进行分析,获得网页布局信息,把网页按信息量多少划分为主次要信息块,提取主要信息块中的文本信息、超链接和网页标签属性。对文本信息进行中文分词,获得文本关键词;将其余网页信息转换成符合关键词模型的形式,与文本关键词一起构建三维网页关键词特征模型,实现网页信息提取和表征技术的改进。(2)基于自学习的网页分类算法的改进。研究一种卷积神经网络算法在中文网页分类任务中的应用方案。卷积神经网络能够自学习网页深层特征信息,利用局部感知野,对网页特征的感知从局部到整体,在更高层获得网页整体特征信息;权值共享的特性又可以减少神经网络的复杂性。卷积神经网络与支持向量机级联,有效降低支持向量机的输入维度,并提高了分类准确度。在训练参数的过程中,首先训练传统的卷积神经网络,将其部分训练参数迁移至新的级联模型中,再整合训练级联模型,这种做法提高了训练周期与消耗的计算资源。(3)基于特征增广的次级通道实现。针对某些网页提取的特征维度过于稀疏,影响分类效果的情况,研究对这类网页进行特征项增广的技术。提取网页内链接,进行链接匹配后二次访问,对二次网页提取重要信息以扩充原始网页特征项;获取网页标题的关键词,进行二次搜索,提取相似标题网页大权值信息块,增广原始网页关键词模型。以次级通道的形式封装数据增广技术,添加至分类流程结构中。(4)系统实现与性能测试。基于以上网页关键词特征模型构建和基于自学的网页分类算法研究,实现了基于关键词自学习的中文网页分类系统。对网页关键词特征模型、基于自学习的卷积神经网络-支持向量机级联分类算法和次级通道增广技术进行了性能测试。实验结果表明,以上提出的改进方法有效提升了分类性能,能够更好地针对大规模的中文网页分类场景。