相关模式挖掘方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:yjtgu618215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从知识发现概念的最初提出开始,数据挖掘理论和技术在短短十年左右的时间里得到了迅速发展。人们通过数据间的相关性经常会得到非常有意义的新知识,发现数据集中的相关模式是若干研究领域(如统计学,机器学习和数据挖掘)的一项重要研究内容。在实践中,相关模式挖掘有着广泛的应用背景。 本文主要针对数据集中相关模式的挖掘问题展开系统而深入的研究工作。我们分别研究了求完备解集合的极大紧密相关类簇挖掘方法,求近似解的核心聚类分析方法,以及对“购物篮”数据的紧密相关项集挖掘方法。论文的主要研究内容和创新性成果总结如下: 1.研究了相关模式挖掘问题,提出了极大紧密相关类簇概念和挖掘完全极大紧密相关类簇的算法。 本研究从实际应用问题出发,提出了极大紧密相关类簇的概念,并且基于枚举树的数据结构,设计了高效的逆序搜索枚举树生成极大紧密相关类簇完备集合的IOET算法。紧密相关类簇是数据集中两两之间具有较高相关度的模式组合,这些模式组合代表数据集中的各种相关模式。而极大紧密相关类簇是紧密类簇的简洁表示。针对不同的应用,我们可以通过不同的相关度定义,发现不同类型的相关模式。在本文中,我们主要研究了以Pearson系数作为相关度量的具有一致变化趋势的相关模式,探讨了Pearson系数所具有的特殊性质以及Pearson系数与Euclidean距离之间的等价性,并利用这种性质对算法进行优化。 2.研究了在大数据量情况下,相关模式挖掘的近似算法一核心聚类分析方法。 在有些应用(例如基于数据立方体的0LAM应用)中,我们需要较快的响应时间,但是并不一定需要准确的完备结果集合。因此,我们提出了挖掘极大紧密相关类簇的近似算法,称为核心聚类方法。在核心聚类模型中,我们定义了核心切片集和边界切片集。同一核心切片集的任意两个切片的相关度大于阈值,并且任意两个不同核心切片集中的切片相关度小于阈值。利用核心切片集和边界切片集,我们可以构造极大紧密相关类簇完备解的上界。算法实现主要利用了局部优化的启发式搜索策略,将算法复杂度由指数阶0(2)降至平方阶0(n<2>),使算法具有良好的实用性。 3.研究了对“购物篮”数据的相关模式挖掘问题,提出了紧密相关项集概念及其高效的挖掘方法。 对于“购物篮”数据,传统的基于“支持度一置信度”框架的关联规则挖掘利用单个项的支持度进行剪枝,因此只能发现“频繁项”之间的关联关系,却不能发现“罕见项”之间的关联关系。本文提出了基于“相关项对”的紧密相关项集模型,并且设计了求近似解的高效挖掘方法。紧密相关项集是一种特殊类型的紧密相关类簇,其数据元素是取值为“0”或“1”的二值变量,代表数据项是否出现。我们用Cosine作为相关度量函数,研究了二值变量Cosine度量的概率意义,说明紧密相关项集具有较为合理的概率解释。另外,我们研究了项对的相关度与单个项支持度之间的约束关系,在算法RSC中计算相关项对时利用单个项的支持度对搜索空间进行剪枝。为了解决复杂度为NP-complete的求完备紧密相关项集问题,我们进一步利用相关度函数Cosine的性质,通过调整最小相关度阈值方法构造完备结果集的上界。基于概率统计模型,我们分析了RSC算法效率并且通过实验加以进一步验证。 本研究以发现数据集中的相关模式问题为核心,研究了三种不同的挖掘方法。从总的方面看,这三种方法解决同一类问题,即数据集中相关模式的挖掘问题。分开来看,这三种方法分别具有不同的设计目标,针对不同的数据类型,各有不同的应用范围。通过实验,我们可以看出本文所提出的方法是实用且高效的,与该研究领域的同类其它算法相比,具有明显的优势。
其他文献
针对教师胜任力的基本概念、研究现状和不足等方面进行论述,提出将来我国教师胜任力研究方向,为未来我国教师胜任力研究提供参考视角.
运用文献资料、案例分析等方法,系统梳理了女性运动员的“性别验证”政策、参赛资格限制政策的历史发展脉络、规则的具体内容.发现:女性运动员“性别”政策已经从“性别验证
本文介绍了"全国矿产地数据库应用系统"的设计与实现,该应用系统的实现将为方便快捷地查询和检索矿产资源信息提供应用平台,为矿产资源的保护和合理利用提供服务,也将有益于
随着软件体系结构的发展,基于浏览器的三层架构的应用系统凭借着部署灵活、易于管理、维护方便等优点得到了广泛的应用.然而,浏览器在核心技术上对于图形图像的支持还仅限于
教务队伍的素质关系着教学管理秩序和教学质量,茁壮发展壮大的独立学院目前的教务队伍却存在各种各样的问题.为了可持续发展下去,独立学院有必要从各方面加强教务队伍的建设.
目的:比较前十字韧带重建术(ACLR)后重返运动率和重返运动时机在分别采用自体移植物和人工韧带(LARS)患者间的差异.方法:纳入2004年1月-2010年12月于复旦大学附属华山医院运
随着技术的进步,现有的数码相机以及可以很轻松的拍摄到3648×2736大小的彩色图像,而当前最先进的PMD technologies camcube2.0深度相机却只能采集到大小为204×204的深度图像
随着美术新课程改革的不断深入,美术教学理论和实践已经有了很大的改进.该文以美术新课程标准和先进的教育理论为指导,对初中美术“欣赏·评述”学习领域教学的方法和策略进
近几年,商品房的价格居高不下,购房人群的压力越发沉重,价格低廉的小产权房备受大众喜爱。全国小产权房建筑面积近70亿平方米,居住人口8000多万。为了我国经济发展和城乡一体
文章研究了自养硝化颗粒污泥(ANGS)的异养反硝化性能,通过单因素试验确定ANGS对总无机氮(TIN)去除率的影响,确定响应曲面各因素变量的取值范围.利用响应曲面法和Box-Behnken