矩阵近似视角下的数据约减

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:addegoflywzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为使现有的数据挖掘方法能有效地分析规模急剧增长的数据,扩展这些方法的应用范围,本文从矩阵近似的角度出发,利用矩阵完善的理论与丰富的算法研究了数据约减问题。以最根本的随机矩阵范数的研究为切入点,获得了一个更好的L2范数的指数型上界。在此基础上,估计了一般逐项采样方法的L2和F残差(近似误差)。以优化这些残差为指导,设计了文中称为O/R方法的非均匀采样方法。该方法可为原数据提供稀疏二值矩阵形式的约减,以降低数据挖掘等海量数据分析任务的计算量和存储量。在O/R方法中,采样和量化被自然地结合在一次查询中,而整个数据约减仅需一次遍历原数据即可得到,查询效率和遍历效率均极高。为更好地了解该方法的性能和性质,文中还估计了其在不同范数下的残差以及稀疏率。并通过进一步研究稀疏率和残差间的关系证明了本文提出的O/R方法是一种最优采样方式。该方法根本上克服了现有方法未结合先验知识、可能将原本为零的数据化为非零、可能改变数据符号等对数据挖掘非常不利的缺点。本文还研究了在O/R方法的基础上的降秩矩阵近似并分析了其近似误差,以此为依据设计有效可靠的数据维数约减方法。高维数据集上的数据约减实验结果充分表明本文提出的O/R采样方法能以更少的数据量有效地抓住数据的主要结构刻画其主要特征。在其基础上的降秩近似和维数约减的效果同样也非常显著。在分类与聚类等实际数据挖掘问题中的成功应用再次展示了本文设计的数据约减方法的优良性质,并证明利用这些约减方法可以使现有的数据挖掘算法能有效地用于分析规模巨大的数据,充分显示了其在数据挖掘中的广阔应用前景。这些实验和实际应用结果与理论分析结果日常一致,有力地支持了理论结果,而文中的理论分析也为实验与实际应用结果提供了可信的解释。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
自2009年3月,安徽省人民政府下发了《关于加快茶产业发展的意见》以来,各茶叶主产市、县相继出台相应政策措施,明确了加快茶产业发展的目标和任务,加大支持力度,实施茶产业振
王君,全国中语优秀教师,北京师范大学等几十所师范大学特聘“国培”专家,在教学中提倡青春之语文,青春之作文.本文将对王君“青春之作文”教学方法进行分析,以寻求一线教师作
学位
人脸的表情在过去的十几年里被广泛的研究,但是这个问题一直就很有挑战性,这主要是因为人脸是一个非刚体,表情的图像是一个很高维的数据,它的变化细微而复杂,受到光照、姿势、年龄
物理成绩不理想的学生较多,如何面向全体学生,提高物理教学质量,对物理教师来说责任重大。当前,人们对物理实验教学的改革认识并未提到应有的高度,认为物理实验本身就是一种
西北大学钟广学教授等人研制成功自动数字量热计,可广泛用于各种生物过程研究及生物物质活性监测。生物量热学是随着近代生物技术的发展而兴起的一门新兴学科,其实质是近代量
随着我国庞大的基础设施建设的发展,交通运输、能源水利、铁路、公路基础设施等项目的开工建设,尤其是金属矿山和煤矿开发利用,对非公路矿用车的需求量越来越大, With the d
独立学院作为我国高等教育发展的重要组成部分,将成为今后一个时期高等教育发展的一大亮点.独立学院的办学质量取决于教师的专业化水平及决策层的教育理念,而教师的专业化水
校长带着我们四位教师到外地听课取经。汽车行驶在路上,五个人聊天,内容难免和工作有关:家庭教育、学校教育、宏观教育、初中教育、小学教育 The principal took our four t