关于文本分类的贝叶斯方法实现与研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:zsx08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,各种便捷的电子设备在人群中高度普及,每天都在产生各种海量的信息,其中文本信息占很大的比重,所以如何快速有效处理文本信息是当前比较热门的研究领域。  本文对文本分类所涉及到的各方面技术进行了详细的介绍,也简要的介绍了现阶段比较流行的文本分类算法,贝叶斯算法由于是基于统计背景,在处理大文档有明显优势,关于分类速度方面也有不错表现,所以本文重点对贝叶斯分类器做出了研究和实现。  本文的算法实现中,测试文集是下载网上一位知名作家的所有文集,由于有人质疑该作家的作品是否由他人代笔,在网上引起了很大的争议,这里用分类器对该作家的文本进行了分类实验。文本预处理阶段采用了现阶段切分词效果较好中科院的分词系统,算法是朴素贝叶斯算法,实现平台是在由新西兰大学的一个研究小组开发的开源,免费的,基于Java环境下开的数据挖掘软件WEKA上。
其他文献
数学总复习是在完成初中三年数学教学任务的基础上,对学生数学知识重新整合、完善,并引导学生二次消化的过程,是学生深化所学知识,提升数学能力的关键环节。如何在初三新课结
大波数散射问题的高效算法设计和理论分析是著名的公开问题。特别是,由于污染效应,大波数散射问题的离散通常导致大规模线性代数方程组的求解。最近Z.Chen和X.Xiang在受到B.ENG
本刊记者报道:4月25日上午,“2011中国(厦门)卫生用品博览会暨浆纸技术装备展览会”新闻发布会在泉州举行.博览会由福建省纸业协会、广东省造纸行业协会、山东省轻工机械协会
学位
21世纪是信息社会,国民的信息素质高不高,会直接影响到一个国家未来的发展。但现实中有些学生只对上网、打游戏、聊天等娱乐性方面有兴趣,由于缺乏良好的信息环境和正确的引
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
学位
学位
随着种植业结构的调整,逐步加大了农业科技研发推广力度,贵州省荔波县的冬季农业开发从以往单一的粮食作物种植向粮经、粮油等多种经营方面发展,特别是马铃薯产业得到长足壮
本文从模的自同态的角度,给出了正则环、幺正则环及强正则环的特征,并阐述了IC环和正则环、强正则环与abelian正则环、强正则元和群逆元的关系。在这一理论基础上,综述了目前对J