支持向量机理论在文本分类中的应用研究

来源 :兰州理工大学 | 被引量 : 3次 | 上传用户:weiwen1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这一问题而产生的领域。由于现实生活中绝大部分信息资源是以非结构化数据的形式存在,而数据挖掘则普遍以结构化数据如关系数据库中的数据为对象,因此对于非结构化信息进行挖掘成为继数据挖掘之后的又一课题。在常见的非结构化文本数据如文本、图像、视频中,文本数据是应用最为广泛的一种形式,常用于数字图书馆、新闻组、组织及个人主页。随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题。针对上面提到的问题,本文的主要工作有以下三个方面:首先,分析了数据挖掘的基本概念和方法,重点是数据挖掘中文本分类的具体过程和相关理论。在特征选取技术中对互信息的方法做出了改进。其次,认真研究了支持向量机算法的基本原理。并且就支持向量机的训练算法、分类方法、多类别算法等热点问题分别加以讨论。阐述了支持向量机研究和应用现状,以及所面临的问题。第三,对支持向量机理论在文本分类中的应用技术做出了改进。针对传统SVM无法适应文本数据库随时间不断更新的问题,通过对新增文本集的KKT条件的分析,深入研究了加入新增文本集后支持向量集的变化,提出了使用增量SVM算法进行文本分类,并通过实验验证了通过该算法得到的分类器和传统的分类器有着相似的分类能力和泛化能力。最后,指出了对支持向量机进一步研究和应用需要解决的一些重要问题。
其他文献
随着Internet的发展,拥塞己经不仅仅是在传输链路上发生了。事实上,由于Internet的服务质量是端到端的,从用户到服务器的整个路径上,任何一点都可能成为瓶颈,包括网络、服务器端,甚
学位
随着数据库与计算机网络技术的结合,越来越多的政府、商业、金融等机构和部门将自己的数据库连接到Internet上,数据库受到的攻击越来越多,而传统的数据库防护技术已经不能适
随着计算机和互联网的普及,对软件的安全性和可靠性要求越来越高。安全软件工程通过在软件开发生命周期的各个阶段增加一系列的针对安全的关注和改进,以利于在开发过程中尽可
超分辨率是通过硬件或软件的方法提高原有图像的分辨率。利用一系列低分辨率的图像来得到一幅高分辨率的图像过程就是超分辨率重建。超分辨率重建的核心思想就是用时间带宽(获
ASON(Automatically Switched Optical Network自动交换光网络)赋予了传统光网络前所未有的灵活性和可扩展性,代表了下一代光网络的发展方向。对多种恢复机制的支持是ASON的一
移动电信市场中用户的争夺战愈演愈烈。特别是4G时代的到来,移动电信运营商们更是竭尽所能,可以说是无所不用其极。移动电信用户中集团客户作为具有强烈社会影响力,能够为运营商带来丰厚利润的大客户,更是这场战斗中的焦点。同时移动电信运营商的运营系统保留了大量的用户信息资料。这些资料含有丰富的客户信息,通过数据挖掘手段能够有效地分析出用户的需求和对于服务的满意程度。运营商可以运用这些信息制定出有效的营销策略
伴随移动互联网与IP多媒体子系统等业务的蓬勃发展,大量的视频和数据IP化业务不断涌现,通信网络已经从以语音业务为主的SDH网络逐步转变为以IP业务为主的PTN(Packet Transport N
由于无线传输本身的局限性,使得Ad Hoc网络中的通信能够很容易地被截获和分析,因此,匿名机制在Ad Hoc网络当中成为了一个非常重要的安全手段,通过向恶意攻击者隐藏与身份有关
随着网络信息资源呈几何级数增长,使用搜索引擎准确、快速的查找所需信息也变得越来越困难。主要原因有两个,一是传统的搜索引擎很难将所有的网络资源全都覆盖,做到面面俱到;