论文部分内容阅读
随着互联网技术和信息技术的快速发展,电子邮件通信已成为人们日常生活中不可或缺的一部分。电子邮件的高效、便捷以及低成本等特性,为用户提供了理想的交流环境,同时也成为了个人信息管理平台。然而,和其它流行的媒介遭遇相似,电子邮件也被罪案人员利用。电子邮件取证引起了调查人员越来越多的关注。为此,研究人员提出了多种电子邮件检查的解决方案,但是这些方案的设计目的在于如何发现证据而不是协助取证人员,主要的分析工作仍需人工完成,缺乏可扩展性。 本文针对电子邮件取证中的复杂性、多样性、规模性等问题,结合深度学习、相似性度量、主题建模、文本挖掘等理论,对电子邮件取证若干关键技术进行研究,主要研究内容如下: 1.本文第一部分为解决文本内容中的事件识别问题提出了一种改进卷积神经网络(CSV-CNN)分类方法。电子邮件取证调查中,文本内容是重要的证据来源。调查人员通过搜索邮件内容来寻找与调查事件相关的参与人、发生的事件、发生的时间等线索。目前多数调查通过关键字搜索结合人工处理的方式完成,由于获得了大量与调查无关的冗余结果所以效率不高。随着文本挖掘技术的进步,调查人员可以借此提高搜索效率。所提出的基于事件识别的邮件文本内容搜索方法,通过建立事件触发词查找表获得特定事件的表示,然后计算句子中的词与查找表触发词的余弦距离从而获得相似性向量度量表示的词级特征,根据不同案件类型设计查找表进而支持不同案件调查;通过卷积神经网络捕获句子级别的特征。两种特征结合用于最后的分类计算,提高了算法的性能。 2.本文第二部分针对邮件附件的文件碎片分类问题提出了一种卷积神经网络分类方法。迄今为止研究人员提出了多种文件碎片恢复的解决方案。各方案中最重要的一项工作是确定文件碎片的类型。目前相关研究主要采用基于内容的文件碎片分析方法。尽管这些方法取得了显著的分类结果,但是它们普遍存在两个问题:第一,特征的选择是一个复杂的过程并需要相关领域的知识;第二,采用的方法缺乏泛化能力,需要大量的人工参与自动化程度低,并且在此过程易出现错误。为此提出卷积神经网络分类文件碎片,减少对特征工程的依赖。实验数据来自公开数据集GovDocs,构建了不同类型的碎片数据,所有类型在取证调查中具有实际的意义。实验将所提方法与传统分类方法进行了比较(例如XGBoost,SVM,KNN),结果表明所提方法在特征提取和分类准确度方面存在优势。 3.本文的第三部分提出了一种新颖的基于语义分析的整体解决方案来识别垃圾邮件中的证据。最新的研究表明垃圾邮件已开始作为隐藏通信的平台为罪案分子所利用,然而调查人员还没对这类证据予以足够的重视。并且由于垃圾邮件的特点,从中搜索犯罪线索是一件繁重的工作。根据对垃圾邮件隐藏通信不同方式的研究,所提方案适用于调查人员对调查的垃圾邮件数据没有头绪的初始调查阶段。本文利用主题建模LDA和文本可视化等技术发现基于不同隐藏方法的可疑邮件。实验结果表明提出的方法有助于发现潜在的证据。