非负矩阵分散及其在模糊网页分类中的应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:huangkb009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前基于统计词频等对网页及其文本进行分类的方法很少考虑语义模糊词的分类问题,因而当文本中存在大量语义模糊的词时,分类的效果并不理想,因此本文引入模糊推理来解决上述问题。此外,本文所涉及到的数据都是一些大规模的文本数据,论文中将一个大规模的文本数据抽象为一个高维矩阵VSM,而直接处理高维数据势必会很繁琐,试想如果将高维矩阵简化为一个低维矩阵,问题会变得简单许多。而非负矩阵分解算法是一种对高维矩阵进行降维的方法,具有实现简单、可解释性强等优点,从而可以把NMF算法应用到矩阵降维中。基于文本分类的不足及NMF在矩阵降维上的优点,本文提出了一种基于非负矩阵分解的模糊网页分类算法。该算法通过非负矩阵分解对一个大规模的词-文本矩阵进行维数约减,实现对数据的压缩,以提高算法执行效率,最后的分类阶段本文加入模糊推理来设计分类器。通过对随机抽取的网页数据进行分类实验,并与没有经过模糊处理阶段设计的分类器进行比较,实验结果表明本文算法的分类精度较高;执行效率方面本文与奇异值分解(SVD)做了对比实验。基于以上的内容,本文的主要工作如下。   对当前网页分类的产生、发展过程做了详细的分析,总结了当前网页分类的主要步骤及方法。根据文本和网页的共同点是两者都存在文本,所以将文本分类的方法应用于网页分类,并且在网页文本分类中过程中引入了模糊推理规则。   实验结果表明在分类过程中引入模糊推理将大大的提高了分类的精度;并且与传统的奇异值分解(SVD)方法相比,在执行效率方面也有很大的提高。
其他文献
随着计算机网络应用的普及和发展,信息安全作为新兴学科日益受到重视。受CPU串行体制的限制,传统的串行密码算法已经越来越不能满足信息安全对运算速度和系统安全性的需求。基
无线传感网被广泛地应用于国防、环境检测、医疗卫生以及交通等领域。具有实用性强、应用范围广、使用灵活等特点。而时间同步是无线传感器网络的关键技术之一,受到越来越广
延迟容忍网络主要是指由于节点移动、部署稀疏等原因而使得端到端的数据传输路径常常处于间歇性连通或者长时间中断状态的一类网络。数据聚集,通过将相关联的数据包进行聚集操
事务存储和线程级推测是解决并行编程难的两种经典有效的方法。虽然它们所解决的问题不同,但是却有很多的相似之处,在一定的条件下可以相互转化,可以将这两种方法结合起来构成混
随着社会老龄化进程的不断发展,老年人口所占比重也逐年增加,伴随而来的老年人群的日常行动安全也成为社会关注的焦点。老年人的生理特点造成了他们这一人群的特殊行为特征—
携能通信(Simultaneous Wireless Information and Power Transfer,SWIPT)技术,可挖掘蕴藏无线射频(Radio Frequency,RF)信号中的能量,并供给网内终端用户使用,从而为延长能
随着信息化社会的发展,通过网络进行信息的检索,已经成为人们获取信息的主要来源。网络中中文信息的爆炸性增长,给中文自然语言处理的发展应用带来了挑战和契机。本文主要是在基
随着社会的不断进步,网络技术得以迅速发展,接入网作为连接用户与核心网的重要网络组成部分,其相关接入技术也在日益增多。而在这些接入网技术中,光纤无线宽带接入网络(Fiber
关联规则是数据中所蕴含的一类重要规律,对关联规则进行挖掘是数据挖掘中的一项根本性任务。关联规则挖掘通过分析事务数据集,从中挖掘潜在有价值的知识。最为人所熟悉的关联规
室内移动对象指在室内空间的约束下,对象的空间位置信息随时间而改变。近年来,使用物联网与室内定位技术,能获取海量的室内移动对象数据。与此同时涉及室内场景的时空应用(如:商场