论文部分内容阅读
针对目前银行存在的多种数据库应用并存的状况,该文提出了一种基于XML的异构数据库挖掘方案,即通过JDBC访问数据库,然后将数据存放到XML文档中,并在此基础上进行数据挖掘.该文重点讨论了以下方面的问题:1.提出了基于XML的异构数据库挖掘方案,将异构数据库中的数据用XML文档的方式表示出来,并在此基础上进行数据挖掘.2.在数据集成阶段,首先将所有数据库的连接参数和查询语句等存放在XML映射文件中,然后通过JDBC接口与异构数据库相连,最后将查询到的结果存放在XML文档中.3.然后对集成的数据进行数据验证.该文采取Schema技术对XML文档进行数据的有效性检测,并对错误数据进行处理,形成有效的文档,作为数据挖掘的基础.4.基于密度和网格的聚类方法.讨论了聚类分析的基本概念和方法.为了对多维数据进行挖掘,该文采用了基于密度和网格相结合的聚类分析方法,并对商业银行持卡人的实际消费数据进行了具体分析,从中找出目前持卡人的年龄、消费额和存款余额的分布情况.5.多维关联分析的算法及应用.介绍了关联分析的基本概念和Apriori算法,并采用XQuery技术进行了实现.然后在聚类分析得到的分布区间上,采用静态多维关联分析方法找出了持卡人的消费额、存款余额和性别之间的关系.论文最后讨论了下一步的研究工作以及有待解决的问题.