【摘 要】
:
随着互联网的快速发展,网络上信息的数量也在急剧增长。互联网给人们提供了大量信息,但同时也给人们快速准确的获取信息带来挑战。为了能有效地利用网页资源,我们需要对网页
论文部分内容阅读
随着互联网的快速发展,网络上信息的数量也在急剧增长。互联网给人们提供了大量信息,但同时也给人们快速准确的获取信息带来挑战。为了能有效地利用网页资源,我们需要对网页进行分类。本文研究网页分类的关键技术,并对网页去噪音技术和分类算法进行深入探讨。在网页预处理时,最关键的问题是去除掉网页中的噪音数据,将与网页内容无关的广告、导航条以及版权等信息尽量去除,以得到所需要的网页主题信息。我们在分析现有方法和网页制作特点的基础上,综合考率网页的结构、分块大小信息,设计并实现了一个基于块分析的、自动调整阈值的网页去噪音算法。特征聚合算法考虑到词与词之间的联系,根据特征词的分类贡献将他们聚合为分布模式,并使用分布模式代替传统算法中单个词对应向量一维的方式,我们对特征聚合算法在本文分类系统的效果进行了测试,测试结果显示特征聚合算法对数据集偏斜问题有着很好的效果,并对分类器整体性能有所改进。当前文本分类领域已经提出了很多分类算法,其中,KNN和SVM被认为是具有较好效果的两种,我们提出SVM-KNN算法,通过将KNN和SVM两种分类器进行结合,并通过分类预测概率的反馈和修正来提高分类器性能。最后,在我们实现的中文网页分类实验系统中,我们对基于块的网页去噪音算法和SVM-KNN算法的实际效果进行了测试,实验结果证明了算法的有效性。
其他文献
云计算是近几年IT领域比较热门的研究方向,云计算时代的到来,不仅仅改变了互联网的技术基础,而且还对整个IT行业产生深远的影响。云计算将数据存放在数据中心中,应用所需要的
P2P网络中所出现的各种攻击成为威胁网络正常运作的主要因素,而这都是因为有恶意节点的恶意行为存在所导致的。如何在P2P网络中识别出恶意节点,约束和杜绝节点的恶意行为成为
随着大规模网络的激增,网络的复杂性和异构性的特点日益突出,加强电信网络资源管理成为当前各级电信企业迫切需要解决的重要任务。然而,传统电信网络资源管理大部分只停留在
无线传感器网络融合了网络、信息、通信以及半导体等先进技术,在环境监测、国防军事、工业、公共卫生事业以及野生动物保护方面得到了广泛的应用。长期以来,无线传感器网络的
在网络管理中普遍存在信息安全保障和资源有效分配等方面的问题,这些问题都与用户的操作行为密切相关。本文针对基于Web日志的用户访问模式挖掘问题进行了较为深入的分析和研
当前互联网高速发展,使得海量的、内容丰富的文字信息以计算机可读的形式存在,并且其数量每天仍在急剧增加。为了有效的管理和利用这些分布的海量信息,基于内容的信息检索和
本文以绝经综合征为基础,对中医药临床疗效评价方法进行深入的研究。在国家“十五”攻关项目研究所取得的成果数据库和基本疗效评价指标体系的基础上,以症状指标、生化检查指标
随着网络应用技术的发展与进步,软件架构发生了从C/S到B/S的转变。然而,B/S模式不能解决所有客户端应用问题。人们发现简单的浏览器页面已经不能满足新的需求,丰富快速的用户体验及
近年来,随着计算机技术、多媒体技术的飞速发展,表格影像文档的自动分类、存储和管理日益成为人们研究的热点。而表格影像文档的特征提取是影像文档自动管理领域里重要的研究课
合成孔径雷达因其全天候和高分辨率成像的特点,近年来得以快速发展。与此同时,随着近代的计算机技术和先进的数字信号处理技术的发展,合成孔径雷达在许多领域得到广泛的应用,