基于复杂网络的大规模电信数据分析研究

被引量 : 14次 | 上传用户:dygaalove4390
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络科学的兴起,基于网络和图挖掘的分析方法受到了越来越多的关注,并被广泛应用到物理、生物、政治经济、互联网络、工程开发和社会生活的各个领域。在过去的十年中,研究人员通过把现实数据抽象成网络结构,并利用来自图论、数据挖掘、机器学习、模式分类、信息检索和统计推断等方法来揭示数据背后所隐藏的模式和交互规律,从而为人们对认知对象提供了一个前所未有认识。与此同时,随着分析方法的成熟和应用场景的延伸,网络分析带给研究人员的另一个挑战是如何在超大规模数据(PB级)中进行有效地挖掘。为了应对这些挑战,工业界和学术界越来越倾向于使用基于分布式密集数据计算模型,如MapReduce等,来进行大规模数据挖掘。本文从社会网络角度出发,对大规模电信数据进行了全面的,多维度的分析。不同于以往的网络分析,本文利用通话数据的多维属性,如年龄、性别、通话时间、通话时长、频率和移动基站等,从多个视角对人们日常的通话行为进行了刻画,从而深刻揭示了人们交往行为的模式和内在特征。此外,具有时间特性的模式发现在社会结构研究中占有重要地位。网络演化过程中潜在的模式发现问题受到了人们越来越多的关注。本文提出了一个全新的复杂网络分析框架来跟踪动态网络的演化规律,发现其在演化过程中的时间特性。整个框架首先利用有效快速的方法发现网络的timeline,然后利用图近似算法刻画timeline中的平稳演化段落。这样可以有效的降低个体行为的不确定性所带来的网络演化噪声。同时,综合考虑到网络中个体的多维属性,本文还提出一种高效的社团发现算法,用以发现动态网络中的社团结构,并采用了全新的社团演化评价方法,以发现社团演化过程的动态特征。为了应对TB级甚至PB级电信数据的分析,本文还提出了一种基于MapReduce的分布式图挖掘模型,从而能够对超大规模网络模型进行特征分析和典型结构挖掘。在具体图挖掘算法中,区别于传统图算法较难分布化计算的观点,本文提出了一种‘’Tow-leap"结构的近似计算方法。该方法在保证准确性的前提下能够极大地提高大图挖掘效率。此外,为了把科学模型转化为实际的计算平台,本文还提出了一个全新的分布式数据挖掘系统,DisTec,用以在大规模电信数据中进行知识发现和数据挖掘过程。该系统的主要基础架构基于MapReduce构建,并采用分层实现技术,对多种数据管理、数据挖掘、机器学习和网络分析方法进行了并行化融合。本文通过大量实验示例了该系统在实际海量电信数据分析和管理中的应用。
其他文献
可视电话、IPTV和视频点播等宽带应用业务的推动,刺激了全球对宽带接入网发展的需求。同时,网络融合已经成为电信业的必然趋势。EPON系统由于其高带宽、低成本的优点成为有线
创意产业园区在我国一些城市正在蓬勃兴起,但对该类型园区的研究还处于起步阶段。组织生态理论将生物学基本原理应用到对产业园区成长、企业行为的分析中,运用组织生态理论分
【目的】半矮秆水稻品种的选育和应用是水稻育种的最重大成果之一。半矮秆品种大多是半矮秆基因SD1(semi-dwarf1)功能缺失突变体,为了获得sd1突变体,本研究对SD1基因进行了定向
伴随着世界海洋经济的发展以及人们对海洋认识的深化,以海洋经济为主体的“蓝色经济”正日益成为各国实施可持续发展战略的重要领域,国内江苏沿海、辽宁沿海、海峡西岸、黄河
酒鬼酒馥郁香型成果已通过专家鉴定。其风格特征为“芳香秀雅、绵柔甘洌、醇厚细腻、后味怡畅、香味馥郁、酒体净爽”。其酿酒发酵工艺集清香型小曲酒和浓香型大曲酒工艺为一
话务拥塞是移动通信网络当中一个非常重要的问题,拥塞会严重影响网络质量,造成手机不能接入网络,经常的拥塞会严重影响网络声誉,降低用户对运营商的信任和忠诚度,长此以往,将
此文研究运用了一种快速在线的三磷酸腺苷(ATP)分析方法应用于造纸。这种分析检测方法所需时间不到1min。分析出的数据能够立即用于杀菌体系。此次研究给出了造纸厂所使用的各
<正>在众神狂欢的视觉文化图景中,纪录片是高品位的影视形态。纪录片真实记录的特点,使得它可以折射社会生活,反映时代变迁。尤其现实题材的纪录片,它记录的人们生活生存问题
消费是人类活动的基本内容之一,在市场经济快速发展的今天,消费的作用显得尤为重要,特别是2008年金融危机以来,扩大内需,刺激消费成为国家和地方拉动经济的主要政策之一。但