【摘 要】
:
对短信息业务进行用户行为分析的关键技术是短信息文本的自动分类技术.论文从语料库统计的路线出发,对短消息文本的自动分类技术进行了研究,其特点在于:采用向量空间模型对短
论文部分内容阅读
对短信息业务进行用户行为分析的关键技术是短信息文本的自动分类技术.论文从语料库统计的路线出发,对短消息文本的自动分类技术进行了研究,其特点在于:采用向量空间模型对短信息文本进行表示,考虑到短信息文本的"语病"问题,特征项的粒度采取"字词混合,以字为主,以词为辅"的方式;设计了由多个二元分类器组成一个平面分类器的分类器结构;分类算法采用类中心向量法,但类中心向量各分量的权值由特征评估函数得到;特征评估函数采用经过改进的期望交叉熵;提出了特征抽取阀值和分类阀值的概念,利用穷举法对分类器进行训练,可以达到分类器的最佳状态.对短信息文本分类器进行开放测试,查全率达到91.6﹪,准确率达到92.4﹪,分类效果基本满足开展用户行为分析的需要.
其他文献
传统的关联规则挖掘主要集中于简单关联规则的情形,它不能发现一些复杂规则.针对这一问题,该文考虑了简单关联规则的扩展概念,重点研究复杂关联挖掘中以下几个具体问题.(1)在
信息数据在快速增长的同时也面临着严重的威胁,大量的用户数据信息被黑客盗取,在互联网上公开流转或通过地下黑色产业链进行售卖。根据Verizon公司在2012年数据泄露调查报告(DB
该文是在造纸工程中设计组装了OCS系统,根据工艺要求,在控制对象软件模块、控制应用和测试仿真方面进行了研究.完成了全部应用软件的AMPL逻辑语言的编程,系统已经在生产中正
多维数据库是数据仓库系统的一个重要组成部分,对联机事务分析有着极为重要的作用,该文介绍了多维数据库模型的特点和设计方法,采用了数据存储/数据集市结构向多维数据库提供
异构数据库系统(Heterogeneous DataBase System)是数据库技术自身发展出现的结果,复杂的异构数据资源的安全管理是异构数据库联合使用的必然要求.目前异构数据库研究主要集
该文首先介绍了P2P技术的概况并将它与传统的Client/Server模式做了比较,显示出P2P技术在资源利用率、负载平衡等方面的优势和在管理、安全性等方面的不足. 然后对对等网络的
随着越来越多的个人和机构联入互连网,网络安全问题成了世界各地研究的焦点。为了解决这个问题,实现网络信息传输的保密性、完整性、身份认证等安全特征,我们着手对IPSec安全协
该文介绍了基于linux系统设计的加密文件系统(Encrypted Filesystem-EncFS).EncFS系统体系结构包含四个重要的实体:文件存储服务器、客户端、认证服务器和密钥托管服务器.Enc
该课题是二炮某研究所在进行导弹仿真系统研制过程中,需要涉及对大量的战场环境信息进行管理、查询和分析,由于目前国内外的GIS产品大部分都是通用性的产品,所以对于军事应用
该文主要研究无谱逆反卷积问题的各种算法,包括数学法、广义Fourier变换法、时域卷积法、广义Fourier变换法和时域卷积法的综合法、卷积核因式分解法,其中主要研究时域卷积法