论文部分内容阅读
随着世界经济的一体化发展以及国际恐怖主义的日益猖獗,世界各国都十分重视反洗钱工作。洗钱通过为犯罪活动转移和掩饰非法资金,使不法分子达到占有非法资金的目的,从而帮助、刺激更严重和更大规模的犯罪活动。洗钱活动严重危害了经济的健康发展,助长和滋生了腐败,败坏社会风气,腐蚀国家肌体,加重了社会的不公。它还会造成资金流动的无规律性,并且影响金融市场的稳定。洗钱活动投寄合法经济体的正当权益,破坏市场微观竞争环境,损害市场机制的有效运作和公平竞争。洗钱还会破坏金融机构稳健经营的基础,加大了金融机构的法律和运营风险。通过与恐怖活动相结合,洗钱还有可能危机社会稳定、国家安全并对人民的生命和财产形成巨大威胁。 目前我国已经建立了一套较为完整的反洗钱法律、监管和组织机构体系。通过统筹规划、密切协作、拓展国际合作空间,我国的反洗钱工作取得了卓有成效的成绩,在预防和打击洗钱犯罪、协助处理重大突发事件、维护社会经济稳定发展方法发挥了重要作用。然而,仍需要指出的是,以可疑交易报告制度为核心的反洗钱工作体系仍有一些纰漏。我国的反洗钱工作主要以基层金融机构依据《金融机构大额和可疑交易报告管理办法》中有关规定上报的可疑交易数据为进一步调查洗钱犯罪的基础。但是由于制度和技术上缺陷,目前实行的可疑交易报告制度存在着防御性报告偏多、情报质量较低、可疑监测范围狭窄和误报率较高等问题,从而影响到上报可疑交易数据的可靠性和有效性,严重阻碍了我国反洗钱工作效率的提高。可疑交易报告制度是我国反洗钱制度的核心,只有切实提高可疑交易报告的上传质量,才能从根本上达到降低成本、提升效率、打击洗钱犯罪的目的。造成可疑交易报告效率低下的原因既有制度上的因素,也有技术上的原因。本文试图引进国外最新的机器学习技术,以期能够更好的从繁冗的数据海洋上挖掘出更有价值的情报,从而为破案提供更多的线索。 可疑金融交易识别实际上是一个统计识别问题。这类问题有一个明显的特征就是样本数据的“不平衡性”:即在所有的样本中,感兴趣的样本占所有样本的比例极低。信用卡分析、电子欺诈、反洗钱等属于这类问题。传统的机器学习技术在面对不平衡数据时也无能为力,其根源在于将误差率作为模型优劣的判别标准。正常情况下,以误差率作为判别标准合情合理,使用统计模型的目的就是在于能够更好的拟合数据、预测趋势。但是在不平衡数据中,即便不使用任何模型对数据的预测准确率也能达到一个很高的水平,这样就使得所有的模型与算法失去了继续使用的价值。针对这种情况,本文从人工智能领域引入了平均精度的概念,以代替误差率作为新的判别标准,同时以LAGO算法为基础构建可疑金融交易识别模型。LAGO与我国的围棋哲理有异曲同工之妙,将棋子“气”的概念延伸至算法中,以每个样本的“气场”作为核函数的窗宽,通过自适应的局部调整,能够有效的得到各少数类样本的排序函数,从而克服“不平衡”数据问题。 文章结构方面,本文第一章为引论,主要介绍研究的相关背景和意义,并通过对现有国内外文献的梳理,指出现有研究的不足。在此基础上,揭示本文的主要研究内容和研究方法。第二章对洗钱的基本内涵及相关现状作一描述。第三章首先提出可疑交易报告制度是我国反洗钱工作的核心制度,通过对目前我国可疑交易报告制度的现状进行分析,引出在可疑交易报告系统中引入机器学习技术的必要性。第四章为整篇文章的核心,在这一章中本文通过实验分析证实了:在面对不平衡数据时,如果选择了合适的核函数,LAGO算法要优于SVM、ASVM和KNN。其中支持向量机(SVM)和KNN均位列国际权威学术组织(IEEE International Conference on Data Mining,简称ICDM)评选的数据挖掘十大算法。ASVM为附加非对称类权的支持向量机,为SVM算法升级和改良。最后一章对全文进行总结分析,得出结论,并提出相应的政策建议。 本研究的主要创新在于:提出了可疑交易数据分析中的“不平衡”数据问题,并从人工智能领域引入了平均精度的概念,以代替误差率作为新的模型判别标准,的嫌疑进行排序,证实了LAGO算法要优于传统的机器学习技术,为基层金融机构提供高质量的可疑交易数据提供一定的技术支持。