用Bayes方法对web页面分类及特征选择方法的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:by_huang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文用Bayes文本分类方法中的多命名模型(Multinominal Model)实现了一个web页面分类系统--WEBCAT,并提出二次特征选择方法--首先计算特征的互信息(Mutual Information),然后在通用的TFIDF特征选择方法中加入类的信息来计算特征的权值.该文将使用该方法选择特征后的文本分类结果与直接使用TFIDF方法进行特征选择的文本分类结果进行了实验比较,得出结论:应用了新方法的分类结果比单纯应用TFIDF选择方法的分类结果要更加精确,且由于事先采用MI方法过滤了一部分特征,使得分类的效率也有所提高.除此之外,在文本分类领域以前的论文中很少涉及到的阈值选取问题,该文就MI选择及TFIDF选择方面进行了探讨.
其他文献
该文首先介绍了遗传算法的一些基本概念以及标准形式遗传算法中存在的一些缺陷,并分别分析了一点交叉、两点交叉、均匀交叉,以及存在的问题和造成这些劣势的原因.接下来,重点
随着信息化社会的到来,INTERNET/INTRANET的信息发布和电子商务得到迅速发展。对一个组织或企业来说,如何集成现有的、分布在不同地区的各种数据源,以实现统一的信息发布和信息共
在数据挖掘技术中,聚类技术是一种重要的技术,它的任务是基于对象的属性(维)值寻找识别为同类的组.聚类技术广泛地应用在统计学、模式识别和机器学习等领域中.该文在分析各种经
当前,企业需要将电子商务、ERP、供应链等系统进行整合,应用系统集成的关键问题包括以下几个:跨平台的资源的利用,应用的快速重构,数据交换.该文从ERP和电子商务的研究项目的
该文以自动指纹识别系统的处理流程为线索,详细地讨论了指纹识别系统及其若干处理算法,并重点讨论了指纹预处理的设计与实现.该文的自动指纹识别系统是集活体指纹录入与识别
本文详细分析了基于COM/DCOM/COM+的分布式对象技术原理,重点阐述了COM的线程模型、通讯协议和安全机制,给出了基于COM的软构件复用的形式化模型。详尽讨论了分布式系统中的负载
论文从以格语法表示为基础的日语分析结果出发,讨论汉语生成问题.在863日汉翻译系统从实验走向实用的背景下,论文对现有的日汉翻译系统中从中间分析结果到汉语生成部分进行了
随着社会的发展和进步,越来越多的信息被数据化,尤其是近几年来Internet的迅速普及和广泛应用,数据呈爆炸式增长。商业信息,基于因特网的信息资源和电子商务数据的增长,导致数据类
该文首先介绍了试题库系统的发展现状和趋势,考试评测系统研究与实现过程中所涉及的关键技术和方法,在系统的总体设计部分论述了考试评测系统功能模块的设计与实现方法.系统
视觉在人际交流中的重要作用日益凸显。然而,在视觉缺失或者免视环境中,听觉则成为一个重要的交流途径。人类拥有独特、复杂并且相当强大的听觉系统。人类的听觉系统能够处理一