基于数据挖掘的电子邮件取证关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhangkun289
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和信息技术的快速发展,电子邮件通信已成为人们日常生活中不可或缺的一部分。电子邮件的高效、便捷以及低成本等特性,为用户提供了理想的交流环境,同时也成为了个人信息管理平台。然而,和其它流行的媒介遭遇相似,电子邮件也被罪案人员利用。电子邮件取证引起了调查人员越来越多的关注。为此,研究人员提出了多种电子邮件检查的解决方案,但是这些方案的设计目的在于如何发现证据而不是协助取证人员,主要的分析工作仍需人工完成,缺乏可扩展性。  本文针对电子邮件取证中的复杂性、多样性、规模性等问题,结合深度学习、相似性度量、主题建模、文本挖掘等理论,对电子邮件取证若干关键技术进行研究,主要研究内容如下:  1.本文第一部分为解决文本内容中的事件识别问题提出了一种改进卷积神经网络(CSV-CNN)分类方法。电子邮件取证调查中,文本内容是重要的证据来源。调查人员通过搜索邮件内容来寻找与调查事件相关的参与人、发生的事件、发生的时间等线索。目前多数调查通过关键字搜索结合人工处理的方式完成,由于获得了大量与调查无关的冗余结果所以效率不高。随着文本挖掘技术的进步,调查人员可以借此提高搜索效率。所提出的基于事件识别的邮件文本内容搜索方法,通过建立事件触发词查找表获得特定事件的表示,然后计算句子中的词与查找表触发词的余弦距离从而获得相似性向量度量表示的词级特征,根据不同案件类型设计查找表进而支持不同案件调查;通过卷积神经网络捕获句子级别的特征。两种特征结合用于最后的分类计算,提高了算法的性能。  2.本文第二部分针对邮件附件的文件碎片分类问题提出了一种卷积神经网络分类方法。迄今为止研究人员提出了多种文件碎片恢复的解决方案。各方案中最重要的一项工作是确定文件碎片的类型。目前相关研究主要采用基于内容的文件碎片分析方法。尽管这些方法取得了显著的分类结果,但是它们普遍存在两个问题:第一,特征的选择是一个复杂的过程并需要相关领域的知识;第二,采用的方法缺乏泛化能力,需要大量的人工参与自动化程度低,并且在此过程易出现错误。为此提出卷积神经网络分类文件碎片,减少对特征工程的依赖。实验数据来自公开数据集GovDocs,构建了不同类型的碎片数据,所有类型在取证调查中具有实际的意义。实验将所提方法与传统分类方法进行了比较(例如XGBoost,SVM,KNN),结果表明所提方法在特征提取和分类准确度方面存在优势。  3.本文的第三部分提出了一种新颖的基于语义分析的整体解决方案来识别垃圾邮件中的证据。最新的研究表明垃圾邮件已开始作为隐藏通信的平台为罪案分子所利用,然而调查人员还没对这类证据予以足够的重视。并且由于垃圾邮件的特点,从中搜索犯罪线索是一件繁重的工作。根据对垃圾邮件隐藏通信不同方式的研究,所提方案适用于调查人员对调查的垃圾邮件数据没有头绪的初始调查阶段。本文利用主题建模LDA和文本可视化等技术发现基于不同隐藏方法的可疑邮件。实验结果表明提出的方法有助于发现潜在的证据。
其他文献
信息时代的发展要求人们获取信息的手段多样化,同时随着网络技术的发展,电子商务和信息服务变得越来越成熟.而广大的公话系统的运营商又在迫切的寻找新的业务增长点.智能公话
全文共分五章:第一章集中介绍了有关数字信号处理器结构设计的基本概念和基础知识。这一章中有关存储结构的组织、流水线结构、指令集、算术逻辑结构的设计思想是结构设计的
基于SNMP(Simple Network Management Protocol,简单网络管理协议)和GIS(Geography Information System,地理信息系统)的网络资源管理,是利用SNMP网络管理技术和GIS技术实现企业
学位
随着Android系统迅速占领了庞大的智能手机市场份额,Android应用的安全性得到了越来越多的关注,相关研究成为学术界和工业界的热点。准确发现Android应用中存在的漏洞仍然面临
水电运行仿真系统是一个模拟实际水电厂的正常运行与故障运行的仿真系统,用来对水电厂职工进行水电厂运行、维护的培训,并通过系统的性能计算与故障诊断为职工操作机组安全运
Web服务出现给企业电子商务应用带来了前所未有的商机,使得电子商务正朝着基于互操作的Web服务方向前进.Internet为我们提供了可供访问的大量的Web服务,这些服务间常常是孤立
随着网络应用业务在Intranet中的厂泛应用,如何全面了解Intranet中各种网络应用业务带宽占用情况,以便合理分配和利用网络带宽。逐渐成为INTRANET比较关心的问题。本文根据中国
随着我国医院建设的迅速发展,医疗影像设备的装备情况有了较大的改善。将来在国内发展以医学影像信息管理为主的医学影像系统成为必然趋势。但是,由于经济水平的制约和一些关键
开发具有自主知识产权的J2EE服务器产品是我国经济建设和社会发展的必然要求,也是保持与国际先进水平同步发展的良好机遇,对于上海软件业,也是一次难得的发展机遇.因此,上海