抽样技术在数据挖掘中的应用研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:ig226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库规模的急剧膨胀使利用已有数据挖掘算法处理大规模数据集的时空代价较大,而抽样技术是一种解决大规模数据挖掘的重要手段,适当的抽样技术可以保证挖掘结果准确性并且降低算法的时空代价。本文主要对数据挖掘中的抽样技术进行研究。 本文主要工作如下: (1)将最优统计样本数的概念引入抽样过程,以克服已有抽样挖掘算法主观因素过重的缺陷。以最优统计样本数为样本容量的抽样挖掘算法不仅能反映数据本身的分布特点,而且能在保证挖掘结果准确性的同时降低抽样的样本容量。 (2)提出一种面向分类规则提取的分层抽样算法。该算法以在保证重要分类规则不丢失的前提下降低样本容量为目的,采用最优统计样本数确定样本容量并且利用分层抽样提高分类算法在不均匀数据集上分类的准确率。 (3)提出一种加权挖掘频繁项集的抽样算法。该算法以在大规模数据集中挖掘大频繁项集为目的,同时兼顾了样本的质量和容量两个方面的因素,能够在保持频繁项集基本不丢失的基础上降低处理的数据规模。 (4)提出一种新的基于随机抽样的网格聚类算法。该算法继承了网格聚类算法对大规模和高维数据聚类良好的伸缩性,并利用随机抽样确定网格划分粒度的方法进一步提高基于网格聚类方法聚类的精确度。 实验结果验证了上述算法的有效性。
其他文献
我国加入WTO后很多国外医疗卫生机构、跨国医药企事业单位公司、人才服务机构及其他健康相关产业以各种方式进入我国市场,加剧了医疗市场和人才的竞争。医院人才竞争日趋激烈
江苏某化工企业设计采用铁炭微电解一Fenton一混凝沉淀一水解酸化一UASB—A/O工艺处理医药中间体生产废水。连续运行结果表明,在进水流量为320m^3/d、高浓进水COD为15000mg/L、
<正> 精液液化异常是指在射精后至少半小时精液不能完全液化或超过一小时方开始液化的现象,它包括精液不液化及液化迟缓。自Bunge(1954)首次提出至少有一部分生育力低下或不