频繁模式和多形态数据聚类算法研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:l1otus
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文是以刑事审讯辅助决策支持系统作为研究背景。针对刑事审讯辅助决策支持系统中出现的两类问题进行了研究。第一类是关联规则应用过程中的增量挖掘问题,第二类是基于多形态数据聚类算法进行了研究。 在刑事审讯过程中,审讯案例数据库随时间不断变化,因而其使用关联规则所产生的规则和模式,也是不断变化的。现有已产生的频繁规则也不再是强规则,以前不满足条件的规则会变成频繁规则。针对这个问题,可以采用增量挖掘进行解决。现存的FUP(Fast Update),IM(Incremental Maintenance)等关联规则增量更新算法,解决了增量挖掘的问题,在一定的范围内取得比较好的效率,但是在本系统中不能满足性能要求。本文给出一种基于频繁模式表的算法UFPL(Update Frequent Pattern List),此算法可以处理在最小支持度和数据库同时发生改变的时候关联规则的维护问题,并且其效率比IM算法平均提高2.5倍。最后,利用公共测试数据集,对算法性能进行测试,相对于快速更新算法和增量维护算法,实验表明其效率有较大改进。 此外,根据项目要求在查找相似案件和相似笔录的过程中,由于案件的数量巨大,假如直接依据相似度查找出潜在的相似案件,此时相似案件数目比较多。针对此问题本文先采用聚类将其案件进行分类,然后在与其距离最近的一簇中搜索相似案件。这样可减少相似案件的数目,提高搜索效果。但是在聚类过程中,现有的聚类算法不能满足对笔录数据聚类。这类数据,一个聚类对象包括不同类型数据即包括离散数据、又包括连续数据,并且还包括文本数据。针对这种多形态数据给出一种新型距离计算方法,运用归一化的欧几里得距离和余弦相似度并使用特定权值,得到对象间的距离。并在此基础上对K-Means算法进行改进得到CK-Means算法。此算法可以处理多形态数据的聚类。最后经过实验测试得出算法在此类型数据集中有较好的应用效果。
其他文献
非负矩阵分解为特征抽取提供了一种崭新的方法。由于对分解结果加入非负限制,基于非负矩阵分解抽取的特征向量更能反映样本的局部特征,因而更接近人们的认知习惯,并具有很高
近年来,微博己逐渐成为社交网络的核心。其从传统的社交网络中脱颖而出,在拥有了独立的服务平台后逐渐演化为一种新的信息发布形式。目前中国微博的注册用户数量已突破5亿,其
随着网络技术的迅速发展,基于B/S的多层Web体系结构逐渐发展成熟。J2EE平台如今成为引领市场的潮流,它是一个提供企业级应用的平台。Struts架构是目前非常流行的基于MVC的Web
VRML(virtual Reality Modeling Language)是广泛应用于Web的三维造型语言,同时也是在Internet上传输VR图像的国际规范,能表达模型的颜色纹理信息。使RP系统接受VRML格式可以制
禁忌搜索是一种亚启发式(meta-heuristic)算法,简称TS,由美国科罗拉多大学系统科学家Fred Glover教授于1986年首次提出.TS与模拟退火算法、遗传算法、蚂蚁算法、混沌等一样,
入侵检测系统是计算机网络安全的重要组成部分,它实现对入侵信息实时检测的功能。入侵检测系统一般采用基于网络的、误用检测技术。采用误用检测技术的优点是精确;但它的主要
在这个游戏与动画产业越来越HOT的时代,人们对游戏与动画的需求越来越趋于高质量,能够带来立体视觉效果的三维游戏与三维动画无可替代地成为当代游戏与动画产业的主流。目前
随着电网调度技术的发展,电力系统调度需要更多、更快、更准的一次系统信息,通信技术的发展为此类信息的传输提供了强有力的基础。本文通过河南省电力公司EMS系统互联工程,简
面对当前动态多态的市场,企业之间的竞争也由过去的局部竞争演变成全球范围内的竞争。如何敏捷地利用技术提供的可能性,及时抓住市场对新产品需求的机遇,快速开发新产品,已成
本文提出了一种新的基于HSV颜色空间的彩色图像数字水印算法。该算法采用彩色图像作为水印嵌入到原始彩色图像中。 该算法根据HSV颜色空间的特点,首先将RGB格式的彩色水印