论文部分内容阅读
近年来,随着网络科学的兴起,基于网络和图挖掘的分析方法受到了越来越多的关注,并被广泛应用到物理、生物、政治经济、互联网络、工程开发和社会生活的各个领域。在过去的十年中,研究人员通过把现实数据抽象成网络结构,并利用来自图论、数据挖掘、机器学习、模式分类、信息检索和统计推断等方法来揭示数据背后所隐藏的模式和交互规律,从而为人们对认知对象提供了一个前所未有认识。与此同时,随着分析方法的成熟和应用场景的延伸,网络分析带给研究人员的另一个挑战是如何在超大规模数据(PB级)中进行有效地挖掘。为了应对这些挑战,工业界和学术界越来越倾向于使用基于分布式密集数据计算模型,如MapReduce等,来进行大规模数据挖掘。本文从社会网络角度出发,对大规模电信数据进行了全面的,多维度的分析。不同于以往的网络分析,本文利用通话数据的多维属性,如年龄、性别、通话时间、通话时长、频率和移动基站等,从多个视角对人们日常的通话行为进行了刻画,从而深刻揭示了人们交往行为的模式和内在特征。此外,具有时间特性的模式发现在社会结构研究中占有重要地位。网络演化过程中潜在的模式发现问题受到了人们越来越多的关注。本文提出了一个全新的复杂网络分析框架来跟踪动态网络的演化规律,发现其在演化过程中的时间特性。整个框架首先利用有效快速的方法发现网络的timeline,然后利用图近似算法刻画timeline中的平稳演化段落。这样可以有效的降低个体行为的不确定性所带来的网络演化噪声。同时,综合考虑到网络中个体的多维属性,本文还提出一种高效的社团发现算法,用以发现动态网络中的社团结构,并采用了全新的社团演化评价方法,以发现社团演化过程的动态特征。为了应对TB级甚至PB级电信数据的分析,本文还提出了一种基于MapReduce的分布式图挖掘模型,从而能够对超大规模网络模型进行特征分析和典型结构挖掘。在具体图挖掘算法中,区别于传统图算法较难分布化计算的观点,本文提出了一种‘’Tow-leap"结构的近似计算方法。该方法在保证准确性的前提下能够极大地提高大图挖掘效率。此外,为了把科学模型转化为实际的计算平台,本文还提出了一个全新的分布式数据挖掘系统,DisTec,用以在大规模电信数据中进行知识发现和数据挖掘过程。该系统的主要基础架构基于MapReduce构建,并采用分层实现技术,对多种数据管理、数据挖掘、机器学习和网络分析方法进行了并行化融合。本文通过大量实验示例了该系统在实际海量电信数据分析和管理中的应用。