大规模信息网络挖掘的分布式计算框架的设计

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:ianying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的高速发展,大规模信息网络在各个领域不断地涌现,如万维网、社交网络、即时通讯和生物信息网络等。这些由大量的相互作用的不同类型的个体组成的信息网络往往隐含着一定的模式和规律。对于这些大规模信息的研究无论是对于自然科学的探索还是对于人类社会行为的研究都具有重要的意义。自然界中广泛存在的信息网络,如生物信息网络、神经网络等已经成为科学界发现新模式和新规律的一个重要窗口。而大规模在线社交网络为社会学家研究了人类的行为方式和社会发展提供了一个难得的契机。同时在商业领域,对互联网中的大规模信息网络的挖掘在公司的商业决策和产品推广中扮演着越来越重要的角色。大规模信息网络的分析给学术领域和工业领域都带来巨大的挑战。首先,传统的数据分析方法并不能很好的应用于当前的大规模信息网络的分析。传统的数据分析算法往往复杂度过高,不能够应对数据规模巨大的信息网络。其次,基于单个高性能计算机的计算能力已经不足以容纳和分析如此大规模的网络数据,分布式计算的成为数据分析的新趋势,这对数据存储和系统设计提出了新的要求。针对上述挑战,本文主要研究在分布式计算环境下的大规模信息网络挖掘在数据划分、计算模型和分析方法上所面临的问题。在数据划分方面,本文提出了一个大规模并行图数据分割算法,能够高效地和并行地在分布式环境下进行数据的划分,有效地减少了系统的通信开销,提高了系统的计算性能。在计算模型方面,本文提出了一个多路消息传播机制,该消息传播机制能够一次迭代计算中进行多路消息传播,提高了系统的并行计算效率。在分析方法上,除了传统的基于图的分析方法外,本文还提出了一个矩阵分解的算法框架。该矩阵分解算法框架通过不同规则项的设计来融合不同信息网络之间的信息,供了大规模信息网络分析的一个通用的算法框架。最后本文基于上述的研究成果,设计了一个用于大规模信息网络挖掘的分布式计算框架,用户只需编写少量的代码便可以进行大规模信息网络的分析,而不必考虑分布式系统的具体细节。
其他文献
物联网被誉为是继计算机、互联网之后的第三次信息技术革命,已经引起各国政府、工业界和学术界的高度关注。随着以RFID、无线传感网络为代表的感知技术和通信技术的飞速发展,有
近年来,随着企业信息化系统建设的不断推进,工作流系统已经得到了越来越广泛的应用。企业针对不同领域开发出各式各样的工作流程应用于日常的生产实践中,极大地提高了企业办
伴随着新纪元的到来,人类已经全面进入互联网的新世界,人们生活的方方面面都在被互联网的思维改变着。随着国家“宽带网络校校通、优质资源班班通、网络学习空间人人通”的“三
MCAI技术从90年代初期发展至今,已日渐成熟.它主要涉及到多媒体、数据库、人工智能、数据通信以及教育心理等多学科.目前主要研究方向有系统模型、标准化、多媒体的数据压缩
随着互联网的发展、存储规模的骤增,大型数据中心硬盘频繁损坏导致的数据丢失给企业带来的损失已成为不可忽视的重大问题。硬盘厂商生产的各种型号硬盘通常都会支持SMART(全称
对于搜索引擎来说,检索性能和检索质量是影响其发展至关重要的两个指标。本文的研究关注两者的权衡,即搜索引擎返回的网页是否能满足用户需求,同时又有较好的性能。现代搜索引擎
近年来,伴随着信息技术的迅猛发展,以文本、图像、音频、视频等为载体的数字技术得到广泛应用,给人们带来了极大的便利。然而,在带来了便捷的同时,也带来了侵权、盗版等问题
移动智能终端已成为人们的主要上网工具。移动智能终端上的APP数量和质量上都有巨大进步。传统的APP推荐方法使用APP下载量和特定个人信息等数据来为用户提供推荐,无法准确把
无线传感器网络(WSNs)是一种以现代传感器技术、微机电系统、嵌入式计算、分布式信息处理和网络通信技术等为基础的多学科综合信息获取和处理技术。大量低成本、低功耗的微型
代码复用是一种重要的软件复用方式。复用者需要理解软件代码实现的功能。近些年,如何辅助复用者理解代码功能成为了软件复用的研究热点之一。基于主题建模技术的程序理解方法