论文部分内容阅读
网页分类作为文本信息处理领域的一个重要分支,其目标就是研究如何更有效地组织和管理网页信息,方便人们在海量、异构的Internet信息资源查找感兴趣的知识。
本文对网页分类所涉及的关键技术进行了研究。重点研究了文本噪音消减、KNN算法,以及SVM分类器算法。在研究分析前人工作的基础上,本文提出了一些新的想法:
根据“TF-IDF表示模型”的意义,定义“词条排序权值”对网页词条进行初步过滤,降低了文本噪音消减中维度消减的计算复杂度;应用基于图的KNN(K最近邻)半监督学习算法,生成训练样本集,并且将词条组形式的网页特征向量,转化成数值型特征向量,再应用SVM算法分类,提出了KNN-SVM分类器。