网页分类技术研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:ningmengpan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页分类作为文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理网页信息,方便人们在海量、异构的Internet信息资源查找感兴趣的知识。 本文对网页分类所涉及的关键技术进行了研究。重点研究了文本噪音消减、KNN算法,以及SVM分类器算法。在研究分析前人工作的基础上,本文提出了一些新的想法: 根据“TF-IDF表示模型”的意义,定义“词条排序权值”对网页词条进行初步过滤,降低了文本噪音消减中维度消减的计算复杂度;应用基于图的KNN(K最近邻)半监督学习算法,生成训练样本集,并且将词条组形式的网页特征向量,转化成数值型特征向量,再应用SVM算法分类,提出了KNN-SVM分类器。
其他文献
经典群O(n),U(n),Sp(n)上一类随机变量如在群的维数n趋于无穷时收敛于正态分布。这类结果的证明可归结成计算n维环面Tn上的某些形式积分的极限(例如U(n)群情形就可以用Szego渐
本文主要利用小波分析良好的多分辨特性,而且在时域和频域均具有良好的局部化性质,把小波理论与时间序列分析结合在一起,讨论小波多尺度下的金融时间序列的性质及其应用,取得
马克思主义理论教育是高校思想政治教育的重要内容,“互联网+”正在从生活、学习、工作等方面影响着大学生,马克思主义理论教育与互联网密不可分,怎样在“互联网+”时代丰富
本文对随机环境中的受控分支过程进行了研究。文章分为四个部分: 在第一章中,我们首先回顾了经典的随机环境中分支过程(B.P.R.E.)理论,列出了B.P.R.E.的定义、关于过程是否必
数据挖掘(Data Mining)是目前国际上数据库和信息决策领域最前沿的研究方向之一,它能够找到隐藏在大量数据背后的规律性,为制定管理提供相应的支持信息.把数据挖掘应用于本科专
本文研究了有限区间上的可逆近邻系统。在转移率为几何分布的特殊情形下,找到了一个系统灭亡时间随区间长度增加的极限行为的下界。
Frobenius流形最先由Dubrovin提出来,并用之解释二维拓扑场论。Strachan引入了自然Frobenius子流形的概念,同时也给出了判别自然Frobenius子流形的一个充分非必要条件。 本
本文以Hamilton-Jacobi方程的产生发展的思想出发,以史实为依据,引出Bellman在建立现代的动态规划方法,即Hamilton-Jacobi-Bellman方程的数学基础的起源和发展。然后对Hamilton-
云计算是近年来发展相当迅速的热点技术,它通过虚拟化技术将网络上大量的计算资源进行整合,统一调度管理,形成一个庞大的计算和存储网络,实现了计算能力和存储资源的分布式共
本文第一章简要介绍了Hardy空间的发展历史,作为预备知识,还介绍了有关H-型代数和AN群的基本概念和基本性质。 本文第二章前面二节先定义了原子Hardy空间.这里定义的原子,当