论文部分内容阅读
摘要:首先分析了短信传输方式:SP-手机和手机-手机,然后分析垃圾短信过滤位置的选择及提出了垃圾短信的过滤方法。最后给出系统的设计思想。
关键词:垃圾短信;短信过滤
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)23-932-02
Research on Chinese Junk Short Message Filtering System
ZHANG Jing
(Guangdong Lingnan Vocational-technical College, Guangzhou 510663, China)
Abstract:Firstly,this paper analyzes two ways of transferring short messages:SP to mobile and mobile to mobile.Furthermore,it analyzes where filters junk short message.Lastly,system about filtering junk short message is investigated.
Key words:junk short message;short message filtering
随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务正以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式。手机短信与邮件一样存在着令人苦恼的垃圾信息问题,来自不同渠道的各种垃圾短信充斥手机短信,给用户带来了很多的烦恼。手机垃圾短信是指未经请求或允许而收到的,对接收者来说无用的短信,例如未经短信接收人请求或允许而发送的商业广告。垃圾短信的常见内容包括广告信息、色情信息、假中奖信息、欺诈信息、恶作剧等开发完善的垃圾短信过滤系统一直是移动运营商的追求的目标。
1 短信的传输方式
无线短信服务(SMS)是全球公认的无线服务,它能够在移动用户及外部系统(如电子邮件、页面调度以及声音邮件系统)之间传送包括文字与数字的短信。短信服务于1991年出现在欧洲的无线领域,如全球移动通信系统(GSM),一开始就包括了短信服务。这些无线数字网包括基于GSM、码分多路访问(CDMA)和时分多路访问(TDMA)等标准的网络。
该服务的一个显著特点是一个可用的移动手机能够在任何时候接收或提交短信,不依赖于是否该手机正在通话或正在传送信息。移动短信服务也确保短信在网络中的传输。例如,暂时的故障导致难以获得接收点,这时故障被确认,并且短信将被存在短信服务中心一直到目的地的设备恢复,该机制的实现和性能在不同运营商中可能不同。
为了拓展短信增值业务,电信运营商为广大CP/SP提供了互联网的入口一般移动短信业务网如图1所示。
根据图1,一般有以下两种短信发送方式:
1)SP-手机。SP都有一个由电信运营商提供的服务号码。手机用户想预订某个SP的短信服务,只需给该SP的服务号码发送预订短信,以后SP会自动发送其预订的内容给手机用户。预订短信的收费可以是按条收费的,也可以是按月计算的。SP为了吸引用户预订其资源,可能向大量手机用户发送广告短信,从而导致垃圾短信的产生。而且,有的SP设计前规定诱使用户订购其短信服务。SP的接入管理可能会影响垃圾短信的产生。例如在A省申请一个SP资格,然后把需要的垃圾短信发送到B省的用户。B省会处理所在省的投诉,但是因为短信的发送者位于A省,使用的也是A省的短信网关,B省对他们可能无能为力。为此,必须加强SP的管理。对这种发送方式,攻击者占领短信网关或者利用网关漏洞向手机发送大量短信,就可以进行短信拒绝服务攻击。典型的就是利用各大门户网站的手机服务漏洞,攻击程序不停地用某个手机号码订阅某项服务或者退订某个服务,如SMS.Flood。
2)手机-手机。手机-手机的发送方式更自由。任何人都可以利用手机给任何手机号码发送短信。这种方式给垃圾短信的监管带来一定的困难,因为没有较好的预防措施。单纯采用手工发送垃圾短信,对系统的影响较小。事实上,有部分的垃圾短信发送者采用个人群发器发送短信。该设备直接连接手机和计算机,然后通过程序直接发送短信。该设备能在短时间内发送出大量的垃圾短信。由于成本低,这种方法使用得也相当普遍,许多短信诈骗就是采用该发送方式。
2 关于垃圾短信的过滤位置的选择
根据图1 移动短信业务网基本结构,垃圾短信过滤的位置可以选择。
2.1 短信中心
在短信中心过滤由于短信数据量庞大,需要考虑过滤设备的吞吐量、垃圾短信的识别率问题。从短信中心过滤相对应手机用户比较透明,是最佳过滤位置。
2.2 手机客户端
由于当前手机生产商所开发的手机系统没有一个确定的标准。每个手机生产商说开发的系统都有所不同。在手机客户端进行过滤很难实现一个统一的标准。因此只能是手机开发商自己开发对应的垃圾短信过滤系统。
3 关于短信中心过滤垃圾短信的方法
当前短信一般有两种:文本短信(只包含文本和发送者的号码)、彩信(除文本和发送者号码外还包含附件图片和链接)。其中彩信由于技术原因很难根据内容进行过滤。下面主要讨论关于文本短信的过滤。
3.1 根据文本内容进行过滤
在对短信进行基于语义的过滤之前,需要对文本进行预处理,使文本更适合后继分析的需要。文本预处理的主要任务是剔除文档中所有与分类任务无关的内容,并将文本(即由字、词、数字、标点符号等构成的文字串)转化为由其包含的基本语义单位组成的表列。分词这项预处理工作与文本的表示有着十分密切的联系,甚至可看成是文本表示的一个重要组成部分。分词的关键在于如何选择恰当的基本语义单位。对于进入短信监控中心的短信,预处理模块将进行短信清洗、自动分词等预处理,并送到过滤模块。它包括短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量一系列过程,其处理流程如图2所示。
在对短信文本进行预处理以后,需要把短信表示成向量形式,使用的是向量空间模型.在该模型中,短信空间被看作是由一组向量组成的向量空间。若该空间的维数为,则每条短信可被表示为一个特征向量。
关于短信的过滤考虑使用贝叶斯的文本过滤。我们考虑了短信的特殊情况,在将词作为特征项的同时,加入了短信长度以及规则作为新的特征项。在实际过滤中,还得一些规则的匹配频率。例如,含有电话号码、含有URL、含有钱的信息。按照对应的概率,并综合这些概率设置适合的阀值过滤。
3.2 对包含黑名单的短信号码的短信进行过滤(黑名单过滤)
随着垃圾短信的日益增多,以及内容的复杂化,仅仅依靠有限的关键字无法进行真正有效地屏蔽和监控。运营商可以对某一个手机或某一个SP单位时间发送或接收的短信数量进行统计,一旦发现该统计值超过某一个阈值就报警。如果能检测到大量发送垃圾短信的个人或者服务商,立即对其进行监管和过滤。
第一种方法是检测单位时间内发送短信数目。检测单位时间用户发送短信数目需要为每个用户配置一个计数器,每发送一条短信,计数器自动加一。如果发送短信条数到达规定数目,则由计数装置自动报警,将短信内容汇报到相关人员处进行检查。上海、广东等地已经采用了该方法,但该方法对缓慢攻击无效(单位时间发送的垃圾短信较少)。
第二种方法是检测两条短信间隔时间。这种时间检测法和上一种方法非常类似,其不同就是这种方法不是对单位时间内发送短信的总数目进行计数,而是对短信的发送频率进行监控。当两条短信间隔过短,即表示该用户发送短信频繁,则自动报警,将短信内容送至管理人员。
4 系统设计
根据上节所提出的关于短信中心过滤垃圾短信的方法及其过滤位置的选择。系统应该在短信处理中心包含文本内容过滤模块和短信号码过滤模块。结构如图3所示。
5 结束语
垃圾短信困扰着的人们生活和工作。如何预防和解决垃圾短信的传播一直是人们研究的重要内容。本文旨在通过短信的传播方式的分析,给出了垃圾短信识别的两种方法,随着彩信的普及,基于彩信的垃圾信息也出现了,如何有效的过滤彩信将是我们下一步的工作。
参考文献:
[1] LICY,GOU J,WU HF,et al.A ProcessMeta-Model Supporting Domain Reuse[M].2005 International software process workshop,2005:459-461.
[2] Eei-hong H,Karypis C,Kumar V.Text categorization using weight adjusted K-nearest neighbor classification[M].Computer Science Department,University of Minnesota,2000.
[3] Leopold E, Kindermann J.Text Categorization with Support Vector Machines,How to represent text in input space[J].Machine Learning,2002,46(1):423-444.
[4] Li Y H,Jain A K.Classification of text document[J].The Computer Journal,1998,41(8):537-546.
[5] 许建宏,李慧.移动短信业务发展中存在的问题及解决方案探讨[J].邮电设计技术,2004,(6):25-30
[6] 秦近,陈笑蓉,汪维家,等.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46.
关键词:垃圾短信;短信过滤
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)23-932-02
Research on Chinese Junk Short Message Filtering System
ZHANG Jing
(Guangdong Lingnan Vocational-technical College, Guangzhou 510663, China)
Abstract:Firstly,this paper analyzes two ways of transferring short messages:SP to mobile and mobile to mobile.Furthermore,it analyzes where filters junk short message.Lastly,system about filtering junk short message is investigated.
Key words:junk short message;short message filtering
随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务正以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式。手机短信与邮件一样存在着令人苦恼的垃圾信息问题,来自不同渠道的各种垃圾短信充斥手机短信,给用户带来了很多的烦恼。手机垃圾短信是指未经请求或允许而收到的,对接收者来说无用的短信,例如未经短信接收人请求或允许而发送的商业广告。垃圾短信的常见内容包括广告信息、色情信息、假中奖信息、欺诈信息、恶作剧等开发完善的垃圾短信过滤系统一直是移动运营商的追求的目标。
1 短信的传输方式
无线短信服务(SMS)是全球公认的无线服务,它能够在移动用户及外部系统(如电子邮件、页面调度以及声音邮件系统)之间传送包括文字与数字的短信。短信服务于1991年出现在欧洲的无线领域,如全球移动通信系统(GSM),一开始就包括了短信服务。这些无线数字网包括基于GSM、码分多路访问(CDMA)和时分多路访问(TDMA)等标准的网络。
该服务的一个显著特点是一个可用的移动手机能够在任何时候接收或提交短信,不依赖于是否该手机正在通话或正在传送信息。移动短信服务也确保短信在网络中的传输。例如,暂时的故障导致难以获得接收点,这时故障被确认,并且短信将被存在短信服务中心一直到目的地的设备恢复,该机制的实现和性能在不同运营商中可能不同。
为了拓展短信增值业务,电信运营商为广大CP/SP提供了互联网的入口一般移动短信业务网如图1所示。
根据图1,一般有以下两种短信发送方式:
1)SP-手机。SP都有一个由电信运营商提供的服务号码。手机用户想预订某个SP的短信服务,只需给该SP的服务号码发送预订短信,以后SP会自动发送其预订的内容给手机用户。预订短信的收费可以是按条收费的,也可以是按月计算的。SP为了吸引用户预订其资源,可能向大量手机用户发送广告短信,从而导致垃圾短信的产生。而且,有的SP设计前规定诱使用户订购其短信服务。SP的接入管理可能会影响垃圾短信的产生。例如在A省申请一个SP资格,然后把需要的垃圾短信发送到B省的用户。B省会处理所在省的投诉,但是因为短信的发送者位于A省,使用的也是A省的短信网关,B省对他们可能无能为力。为此,必须加强SP的管理。对这种发送方式,攻击者占领短信网关或者利用网关漏洞向手机发送大量短信,就可以进行短信拒绝服务攻击。典型的就是利用各大门户网站的手机服务漏洞,攻击程序不停地用某个手机号码订阅某项服务或者退订某个服务,如SMS.Flood。
2)手机-手机。手机-手机的发送方式更自由。任何人都可以利用手机给任何手机号码发送短信。这种方式给垃圾短信的监管带来一定的困难,因为没有较好的预防措施。单纯采用手工发送垃圾短信,对系统的影响较小。事实上,有部分的垃圾短信发送者采用个人群发器发送短信。该设备直接连接手机和计算机,然后通过程序直接发送短信。该设备能在短时间内发送出大量的垃圾短信。由于成本低,这种方法使用得也相当普遍,许多短信诈骗就是采用该发送方式。
2 关于垃圾短信的过滤位置的选择
根据图1 移动短信业务网基本结构,垃圾短信过滤的位置可以选择。
2.1 短信中心
在短信中心过滤由于短信数据量庞大,需要考虑过滤设备的吞吐量、垃圾短信的识别率问题。从短信中心过滤相对应手机用户比较透明,是最佳过滤位置。
2.2 手机客户端
由于当前手机生产商所开发的手机系统没有一个确定的标准。每个手机生产商说开发的系统都有所不同。在手机客户端进行过滤很难实现一个统一的标准。因此只能是手机开发商自己开发对应的垃圾短信过滤系统。
3 关于短信中心过滤垃圾短信的方法
当前短信一般有两种:文本短信(只包含文本和发送者的号码)、彩信(除文本和发送者号码外还包含附件图片和链接)。其中彩信由于技术原因很难根据内容进行过滤。下面主要讨论关于文本短信的过滤。
3.1 根据文本内容进行过滤
在对短信进行基于语义的过滤之前,需要对文本进行预处理,使文本更适合后继分析的需要。文本预处理的主要任务是剔除文档中所有与分类任务无关的内容,并将文本(即由字、词、数字、标点符号等构成的文字串)转化为由其包含的基本语义单位组成的表列。分词这项预处理工作与文本的表示有着十分密切的联系,甚至可看成是文本表示的一个重要组成部分。分词的关键在于如何选择恰当的基本语义单位。对于进入短信监控中心的短信,预处理模块将进行短信清洗、自动分词等预处理,并送到过滤模块。它包括短信清洗、去除停用词、自动分词、词性标注、特征项提取、特征项权重计算和生成短信向量一系列过程,其处理流程如图2所示。
在对短信文本进行预处理以后,需要把短信表示成向量形式,使用的是向量空间模型.在该模型中,短信空间被看作是由一组向量组成的向量空间。若该空间的维数为,则每条短信可被表示为一个特征向量。
关于短信的过滤考虑使用贝叶斯的文本过滤。我们考虑了短信的特殊情况,在将词作为特征项的同时,加入了短信长度以及规则作为新的特征项。在实际过滤中,还得一些规则的匹配频率。例如,含有电话号码、含有URL、含有钱的信息。按照对应的概率,并综合这些概率设置适合的阀值过滤。
3.2 对包含黑名单的短信号码的短信进行过滤(黑名单过滤)
随着垃圾短信的日益增多,以及内容的复杂化,仅仅依靠有限的关键字无法进行真正有效地屏蔽和监控。运营商可以对某一个手机或某一个SP单位时间发送或接收的短信数量进行统计,一旦发现该统计值超过某一个阈值就报警。如果能检测到大量发送垃圾短信的个人或者服务商,立即对其进行监管和过滤。
第一种方法是检测单位时间内发送短信数目。检测单位时间用户发送短信数目需要为每个用户配置一个计数器,每发送一条短信,计数器自动加一。如果发送短信条数到达规定数目,则由计数装置自动报警,将短信内容汇报到相关人员处进行检查。上海、广东等地已经采用了该方法,但该方法对缓慢攻击无效(单位时间发送的垃圾短信较少)。
第二种方法是检测两条短信间隔时间。这种时间检测法和上一种方法非常类似,其不同就是这种方法不是对单位时间内发送短信的总数目进行计数,而是对短信的发送频率进行监控。当两条短信间隔过短,即表示该用户发送短信频繁,则自动报警,将短信内容送至管理人员。
4 系统设计
根据上节所提出的关于短信中心过滤垃圾短信的方法及其过滤位置的选择。系统应该在短信处理中心包含文本内容过滤模块和短信号码过滤模块。结构如图3所示。
5 结束语
垃圾短信困扰着的人们生活和工作。如何预防和解决垃圾短信的传播一直是人们研究的重要内容。本文旨在通过短信的传播方式的分析,给出了垃圾短信识别的两种方法,随着彩信的普及,基于彩信的垃圾信息也出现了,如何有效的过滤彩信将是我们下一步的工作。
参考文献:
[1] LICY,GOU J,WU HF,et al.A ProcessMeta-Model Supporting Domain Reuse[M].2005 International software process workshop,2005:459-461.
[2] Eei-hong H,Karypis C,Kumar V.Text categorization using weight adjusted K-nearest neighbor classification[M].Computer Science Department,University of Minnesota,2000.
[3] Leopold E, Kindermann J.Text Categorization with Support Vector Machines,How to represent text in input space[J].Machine Learning,2002,46(1):423-444.
[4] Li Y H,Jain A K.Classification of text document[J].The Computer Journal,1998,41(8):537-546.
[5] 许建宏,李慧.移动短信业务发展中存在的问题及解决方案探讨[J].邮电设计技术,2004,(6):25-30
[6] 秦近,陈笑蓉,汪维家,等.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46.