【摘 要】
:
数据挖掘中的关联规则分析是研究的一个主要方向,它主要用来揭示数据库中项目或属性之间的相关性,而挖掘关联规则之前最重要且繁琐的一步是频繁项集的挖掘。在传统的频繁项集
论文部分内容阅读
数据挖掘中的关联规则分析是研究的一个主要方向,它主要用来揭示数据库中项目或属性之间的相关性,而挖掘关联规则之前最重要且繁琐的一步是频繁项集的挖掘。在传统的频繁项集挖掘过程中,最小支持度阈值设置过大或过小都会产生不理想数量的频繁项集,因此很难定义合适的最小支持度阈值。针对最小支持度阈值设置困难的问题,Top-rank-k频繁项集挖掘算法采用动态阈值的方法进行挖掘,减少了对最小支持度阈值的依赖。为了提高频繁项集挖掘的时间和空间效率,论文分别对传统频繁项集挖掘算法和Top-rank-k挖掘算法进行研究,并利用高效的数据结构、修剪策略等方法对挖掘过程中所遇到的问题进行分析,主要内容包括:针对当前传统频繁项集挖掘算法建树复杂、挖掘效率低的缺陷,提出了一种高效的传统频繁项集改进算法。该算法对PPC-tree的构建过程进行优化,提高了构建PPC-tree的时间效率,然后结合一种新的线性时间复杂度连接方法和早期修剪策略,提出一种更为高效的1项集连接方法,在项集连接过程中可实时判定项集连接可行性,接着利用差集运算来获取t(>2)项集的支持度,避免了多次复杂的子父关系判定过程,最后采用包含索引策略来减少项集连接次数。实验结果表明,该算法在运行时间和内存占用方面都有良好表现,尤其是在稠密数据集中,并且该算法可适用于多种规模的数据集。针对传统频繁项集最小支持度阈值设置困难的问题,将上述研究中的改进算法应用到Top-rank-k模式中,实验表明,此改进算法在Top-rank-k挖掘模式中仍具有较高的挖掘效率;为了进一步提高Top-rank-k频繁项集挖掘的时间效率,提出了另一种Top-rank-k频繁项集改进算法,该算法采用位图编码(bitmap-code)方式表示节点信息,可将项集连接的时间复杂度降低一个维度,然后分别提出高效的1项集和t(>1)项集连接方法,在项集连接过程中可预判项集连接的可行性,最后引入了包含索引修剪策略,进一步缩减项集搜索空间。实验表明,该算法具有较好的时间和空间效率,并且该算法能满足多数场景下的挖掘需求。
其他文献
刑事强制医疗是一个新生事物,公安机关的强制医疗所是一个非常特殊的单位。强制医疗所关押的都是严重肇事肇祸的重度精神病人,入所前多触犯了故意伤害、故意杀人等严重罪名,
校长专业发展是指校长的职业伦理道德、专业意识、专业知识和专业技能等不断提升的过程,具体体现为校长经过系统的培训、自主学习和实践历练,促使自己的专业理念、专业知识和
随着移动通信技术的快速发展和智能设备的普及,用户日益增长的移动数据需求给蜂窝网络造成流量过载和网络堵塞,因此,机会网络数据分流及共享成为近年来的研究热点。为了达到数据分流的目的,机会网络采用了“存储-携带-转发”转发方式。但是由于转发节点的带宽、电量等自身资源有限,节点会表现出自私性,降低了节点在机会网络中数据分流及共享中的积极性。为了解决上述转发节点的自私问题,研究者提出了多种激励机制来降低节点
商事仲裁作为现今争议处理的主要方式之一,作为其存在之根本的仲裁协议的法律效力是通过相关国内法所赋与的,当事人的意思自治必需受国内法的制约。而且,国内司法机关更是仲
监察体制改革背景下,国家反腐力量发生重大调整,隶属于检察机关的职务犯罪侦查职能转隶至监察机关,由监察机关对职务犯罪行使调查职能,改革更替了以往职务犯罪案件侦诉一体化模式,避免了同体监督的困境。同时,也应当看到职务犯罪案件追诉呈现出了部门之间配合与制约的新模式。对此,本文第一章节通过解读监察机关和检察机关的宪法定位,并对监检机关的职能进行梳理,重点剖析职务犯罪调查职能的性质以及检察机关行使法律监督职
随着移动智能设备(手机、平板电脑)的普及,不断增长的数据流量消耗使得蜂窝网络不堪重负,造成了严重的流量负载和网络拥塞问题。为了有效解决此问题,数据分流(Data Offloading)应运而生并成为一个热门的研究方向。移动数据分流,又称为蜂窝数据分流(Mobile Cellular Data Offloading),指的是将原本通过蜂窝网络进行传输的数据转移到其他补足网络的过程,以此来降低蜂窝网络
我国运动员不断在国际网球大赛取得优异的成绩,推动了国内网球运动的发展,校园网球教学也受到重视。近几年国家先后出台《教育部办公厅关于开展全国青少年校园网球试点工作的
在买卖标的物出现瑕疵时,我国《合同法》第111条赋予了买受人减少价款或报酬(以下简称“减价”)的权利,但本条对于减价之界定、适用及计算方法等均未做出明确规定。2012年《最高人民法院关于审理买卖合同纠纷案件适用法律问题的解释》(以下简称“买卖合同司法解释”)出台,第23条中对减价的计算方式进行了规范,然而由于规定与理论上存在较大差异,反而引起了学术界更广泛的关注和讨论。除立法上规范之不足以外,在司
随着电子监控技术和司法体制改革工作的开展,在社区矫正领域,电子监管技术得到了研究和应用。随着社区矫正服刑人员位置信息的累积,如何利用这些数据给社区矫正的工作提供帮助是一个很有意义的研究方向。面对此需求,本文对社区矫正领域的行为轨迹的处理在DBSCAN算法的基础上进行了一些改进来进行分段和聚类。该方法能够对社区矫正的人员出行轨迹进行识别和特征提取。并将其与POI数据结合分析其语义信息,给社区矫正的轨
目前,各种移动定位设备在人们的日常生活中无处不见。然而在使用这些设备的过程中,生成的轨迹数据也被第三方服务器悄悄地收集着。这些轨迹数据包含着用户丰富的个人信息,如若这些数据在未经处理的情况下直接发布,则会泄露用户的个人隐私。目前移动对象轨迹隐私保护的热点话题包括:数据可用性、隐私模型、用户个性化。通过对热点话题的研究与分析,本文分别针对这三个方面提出了不同的轨迹隐私保护方法:(1)针对轨迹匿名后的