论文部分内容阅读
本文是以刑事审讯辅助决策支持系统作为研究背景。针对刑事审讯辅助决策支持系统中出现的两类问题进行了研究。第一类是关联规则应用过程中的增量挖掘问题,第二类是基于多形态数据聚类算法进行了研究。 在刑事审讯过程中,审讯案例数据库随时间不断变化,因而其使用关联规则所产生的规则和模式,也是不断变化的。现有已产生的频繁规则也不再是强规则,以前不满足条件的规则会变成频繁规则。针对这个问题,可以采用增量挖掘进行解决。现存的FUP(Fast Update),IM(Incremental Maintenance)等关联规则增量更新算法,解决了增量挖掘的问题,在一定的范围内取得比较好的效率,但是在本系统中不能满足性能要求。本文给出一种基于频繁模式表的算法UFPL(Update Frequent Pattern List),此算法可以处理在最小支持度和数据库同时发生改变的时候关联规则的维护问题,并且其效率比IM算法平均提高2.5倍。最后,利用公共测试数据集,对算法性能进行测试,相对于快速更新算法和增量维护算法,实验表明其效率有较大改进。 此外,根据项目要求在查找相似案件和相似笔录的过程中,由于案件的数量巨大,假如直接依据相似度查找出潜在的相似案件,此时相似案件数目比较多。针对此问题本文先采用聚类将其案件进行分类,然后在与其距离最近的一簇中搜索相似案件。这样可减少相似案件的数目,提高搜索效果。但是在聚类过程中,现有的聚类算法不能满足对笔录数据聚类。这类数据,一个聚类对象包括不同类型数据即包括离散数据、又包括连续数据,并且还包括文本数据。针对这种多形态数据给出一种新型距离计算方法,运用归一化的欧几里得距离和余弦相似度并使用特定权值,得到对象间的距离。并在此基础上对K-Means算法进行改进得到CK-Means算法。此算法可以处理多形态数据的聚类。最后经过实验测试得出算法在此类型数据集中有较好的应用效果。