论文部分内容阅读
随着信息时代的到来,各种便捷的电子设备在人群中高度普及,每天都在产生各种海量的信息,其中文本信息占很大的比重,所以如何快速有效处理文本信息是当前比较热门的研究领域。 本文对文本分类所涉及到的各方面技术进行了详细的介绍,也简要的介绍了现阶段比较流行的文本分类算法,贝叶斯算法由于是基于统计背景,在处理大文档有明显优势,关于分类速度方面也有不错表现,所以本文重点对贝叶斯分类器做出了研究和实现。 本文的算法实现中,测试文集是下载网上一位知名作家的所有文集,由于有人质疑该作家的作品是否由他人代笔,在网上引起了很大的争议,这里用分类器对该作家的文本进行了分类实验。文本预处理阶段采用了现阶段切分词效果较好中科院的分词系统,算法是朴素贝叶斯算法,实现平台是在由新西兰大学的一个研究小组开发的开源,免费的,基于Java环境下开的数据挖掘软件WEKA上。