基于统计感知的大数据系统计算框架

来源 :深圳大学学报:理工版 | 被引量 : 0次 | 上传用户:kmyzchenpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为在一定计算资源条件下实现大数据可计算化,本研究提出一种基于统计感知思想的Tbyte级大数据系统计算框架Bigdata-α,该框架的核心为大数据随机样本划分模型和逼近式集成学习模型.前者保证了划分后每个子数据块所包含的样本与大数据总体概率分布的一致性.后者通过分析若干个随机样本数据块替代了Tbyte级全量数据分析.使用1Tbyte模拟数据集验证随机样本划分模型的有效性,通过逐渐增加随机样本块的个数,提升了Higgs数据集基分类器的分类准确度,证明该方法能克服大数据分析中计算资源的限制瓶颈.
其他文献
<正>2013年被称为"大数据元年".经过近5年的飞速发展,大数据已经成为大众最为关注的一门新技术,大数据的应用预示着信息时代进入了一个新阶段.目前,大数据应用已经渗透到人类