基于Bayes的文本挖掘算法在GPU上的设计与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:naonao7949
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和企业信息化的迅速发展,出现了越来越多以文本形式存储的数据,如何从这些数据中获得有价值的信息成为了计算机科学与技术领域的一个挑战。文本挖掘概念的提出,为这个问题的解决找到了一个可行的方案。文本挖掘算法的效率与数据集的规模和数据维度的大小紧密相关,当文本数据的维度很大时,算法的性能就会遇到瓶颈,在单一的CPU上运行数据挖掘算法已经不能够满足用户的需求。本文基于朴素贝叶斯分类算法,结合GPU通用计算技术和CUDA (Computer Unified Device Architecture,统一设备计算架构),设计了一个可以并行执行文本分类的并行朴素贝叶斯文本分类系统,系统可以充分利用GPU的运算能力来提高文本数据挖掘的效率。本文完成的主要工作如下:首先深入研究朴素贝叶斯算法的原理以及GPU的体系架构和CUDA编程模型,对算法的步骤进行归纳划分并找出适合并行的步骤,并据此设计了能够在CPU+GPU架构上并行执行的文本分类系统。系统包含五大模块:文本预处理模块、文本训练模块、文本分类模块、分类结果评价模块和分类结果反馈模块,本文对文本训练模块和文本分类模块进行了并行化改造。最后,本文在并行任务划分、存储结构以及指令流等方面对并行分类系统进行了相应的性能优化。本文使用了不同的测试语料在CPU+GPU架构上对并行朴素贝叶斯文本分类系统进行了测试,结果表明在保证正确性的前提下,运行在CPU+GPU架构上的并行朴素贝叶斯文本分类系统具有较好的加速效果。
其他文献
随着计算机网络技术的迅速发展,计算机网络无所不在地影响着社会的政治、经济、文化、军事等各个方面.众多的企业、政府部门与机构都在组建和发展自己的网络,并连接到Interne
软件度量学作为软件工程的一个研究方向,可用于软件开发过程中定量地对软件质量进行控制,并对最终软件产品进行评价和验收。随着软件应用规模的日益扩大和软件应用环境的日益复
近年来,随着Web Service相关技术标准的成熟,Web Service得到了越来越广泛的应用,因此QoS将会成为一个非常重要的问题,正成为国内外网络软件技术研发的重要方向.同时,一些用
为了应用排队仿真系统的用户需求变化的总是,该文从柔性软件理论和排队仿真领域两个方面对国内外研究现状进行了深入的分析.在此基础之上,对柔性软件的开发、柔性软件框架、
随着不断增长的基于XML的应用的出现,如何在数据库中可靠和有效地存储XML文档以及XML和数据库之间的数据交换技术将变得越来越重要.该文根据国家知识产权局专利局电子申请系
在机器人研究领域中,机器视觉、听觉、触觉和力觉的研究都取得了相当多的成果,有的已达到实用的水准。机器味觉和嗅觉在食品加工业的企业管理、产品质量的检测、口味和味道的评
随着网络的进一步普及,计算机软件体系理论也得到了很大的发展.基于应用服务器的三层软件体系架构已经成为当前软件应用领域的潮流.出于适应企业业务应用需要和更好地实现资
由于反动、色情、暴力等不良信息在Internet上泛滥传播,使基于旁路监听形式的"互联网信息内容审计系统"成为一个新的网络安全方向.随着网络带宽的增大,主机对网络数据包的捕
DVD凭借无可比拟的性能、音质和影像效果,领衔于影音节目最先进的现代潮流,代表着当今AV的发展趋势和成就.随着DVD技术的发展,产品价格差距的缩小,市场份额开始向技术含量较
协议是设备在互相通信时双方都必须遵守的准则,设备中的协议实现都是由协议开发人员根据标准的协议规范文本进行开发实现的,不同的人员或者厂商的实现方式可能不同,协议一致