基于粗糙集的Web文本分类技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:hjjytsfsdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网产业的飞速发展,网络上聚集了海量的数字信息资源,越来越多的研究人员把如何有效处理这些海量数据作为自己的研究课题,同时,企业界也在这一领域做了大量的工作。目前处理Web信息的主要手段是使用一些由厂商开发的互联网搜索引擎,这在一定程度上解决了人们面对海量数据时无可奈何的情况。从海量数据中检索自己需要的信息只是对Web数据进行处理的一个方面,如果能够只在使用者所需要的类别中进行检索,则可以去除那么明显不必要的信息从而进一步提高搜索引擎的检索效率和准确度。这就要涉及到Web数据资源的分类技术,在Web数据的分类技术当中,使用最普遍的则是Web文本的分类。Web文本分类技术可以根据网页的文本内容自动对网页进行分类,这一技术主要依靠人工分类所得的训练文本来学习获得分类依据,通过这些训练文本再结合相应算法就可以构造一个Web文本分类系统。当然,对网页分类不同于普通的文本分类,在对网页进行分类之前还要进行相应的预处理程序。目前已经有很多方法应用到文本分类当中,其中使用最普遍的主要有SVM方法,K-近邻方法,决策树方法,以及朴素贝叶斯方法等等。粗糙集理论作为处理不确定性数据的数学工具,在文本分类中也有其独到之处。利用粗糙集进行文本特征的属性约简可以极大的降低特征向量的维数,从而更有效的进行后期的文本分类操作。本文主要研究通过粗糙集对Web文本进行分类的理论和方法,首先,我们对Web文本进行预处理,包括除噪、分词、词频统计、去停用词等;然后通过特征提取方法进行特征项的提取,并使用改进的TF-IDF函数进行特征项权重计算;之后将得到的特征词集合作为Web文本的属性集,特征词的权值和文本所属的类别分别作为属性值和决策属性,再通过粗糙集属性约简得到分类规则;最后根据分类规则对测试文本进行分类,验证分类结果的准确性,并与基于SVM的分类方法进行比较。我们可以发现,通过这样设计的分类器的性能和效率有了较大的提高。
其他文献
随着整个社会信息量爆炸性的增长,无论企业还是个人对存储的需求也越来越高,网络存储技术也得到了越来越广泛的应用。随着网络存储技术的长足的发展,人们提出了分级存储管理技术
互联网包含了海量的信息,搜索引擎成为了人们日益重要的信息检索工具。传统搜索引擎由于不能对网页语义进行理解,仅能依靠关键字匹配和PageRank为用户列举相关网页列表。而随着
无线传感器网是一种以数据为中心的网络,网络由大量的传感器节点和用于进行数据收集的sink节点构成。通过分布在物理环境中的传感器节点收集传感数据在通过多跳方式传送给sink
多媒体教学是指在教学过程中,根据教学目标和教学对象的特点,通过教学设计,合理选择和运用现代教学媒体,并与传统教学手段有机结合,共同参与教学全过程,以多种媒体信息作用于学生,形
伴随无线网络技术的迅速发展,移动终端的普及,随时随地的上网成为现实。然而无线网络受传输媒介限制,它的带宽和时延都无法满足用户的需求。尽管很多移动终端上有多个网络接口,但
随着世界信息化的飞速发展,网络中总数据量呈现出爆炸式的增长。同时,随着科技的不断发展,多数据终端时代也在加速到来的脚步。所有的这些现状,都使得软件研发面临严峻的考验
当前针对中文倾向性分析多照搬英文倾向性分析中的方法;这些方法虽然也取得了一定的效果,但由于它们普遍没有考虑中文的特殊性所以效果提高有限。我们通过对中文句子语义结构进
随着移动互联网尤其是3G网络技术的发展,不良数据信息的扩散也更加迅速。移动设备上对于不良图像过滤提出了新的要求,考虑到移动设备相较于PC之类的传统设备在计算能力上会有一
随着电信和计算机行业的高速发展,电信行业“信息高速公路”的3G时代已经来临,富媒体环境也悄然而至。在富媒体环境下,运营商向综合信息服务提供商转型。   内容管理系统
本文主要研究基于z/OS平台的海量实时交易系统的仿真,并对其进行DB2性能优化的研究。我们将设计开发一个基于z/OS平台的交易系统,生成高仿真的海量数据,利用TPNS进行大规模并