GitHub用户数据分析与研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户：jeffreykao95

【摘要】

：

近年来,随着互联网行业的飞速发展,开发者成为被社会关注的热门群体之一。而社交网络也成为了人与人之间联系的主流,开发者社交网络应运而生。GitHub作为近年来快速发展的开

【作者】

：

王姗姗

【出处】

：

大连理工大学

【发表日期】

：

2004年期

【关键词】

：

GitHub 社交网络用户影响力分析用户分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着互联网行业的飞速发展,开发者成为被社会关注的热门群体之一。而社交网络也成为了人与人之间联系的主流,开发者社交网络应运而生。GitHub作为近年来快速发展的开源项目托管平台和开发者社交网络,已有上千万的注册用户以及开源项目,其中包含大量与开发者相关的信息,并且信息仍持续更新,信息量不断增加。为了充分挖掘GitHub数据中蕴藏的价值并加以利用,本文针对GitHub用户数据进行分析和研究。由于GitHub数据量较大(总数据集超过100G),涉及多种对象,对象之间交互关系错综多变,网络结构复杂,这对我们的研究提出了巨大挑战。当前对GitHub用户的研究分析较少,没有比较全面的用户特征,这也是本文需要解决的主要问题之一。本文从多种角度分析GitHub用户数据,以及用户相关数据,提取并分析用户特征,以及用户影响力分析。在用户分类中,针对缺少用户标注数据集以及如何将用户特征化这两大关键问题,本文通过爬取GitHub数据构建了标注数据集,并分别基于用户内容以及网络结构,完成了用户自动分类。用户特征和影响力分析,用户分类,对GitHub中搜索,个性化推荐,信息传播等有重要意义。本文主要成果和结论如下:(1)GitHub用户数据预处理与特征分析。本文使用的数据是自2008年4月GitHub上线截止到2017年1月19日的所有用户数据。文中首先进行用户特征提取,并完成用户特征的统计分析,用户特征分布及特征之间的关系分析,并进行了用户数据过滤。用户特征分析是整文数据分析的基础。(2)用户影响力分析。本文基于对GitHub用户数据的分析,从用户follow关系,用户项目star、fork情况,用户活跃性等方面多角度衡量用户的影响力,比较其相关性,并最终综合衡量了GitHub中用户的影响力。(3)用户分类。本文基于GitHub用户数据,构建了用户-主题数据集。并进行了基于用户内容的用户表示和基于用户关系图的用户表示。通过两种方式将用户嵌入到了一个潜在的特征向量空间,然后用机器学习方法对用户进行了半监督分类,并将该方法与已有的社区发现算法进行比较,结果表明本文的方法可以较好地完成对用户的分类。

其他文献

浅谈高建东教授治疗多囊肾经验

<正>高建东,上海曙光医院肾内科主任医师、医学博士、博士生导师,上海市中医药研究院中医肾病研究所副所长。擅长治疗肾脏疾病,尤其善于各种疑难杂症,对多囊肾病颇有研究,临

期刊

多囊肾泌尿系超声肾脏疾病多囊肾病猫爪草白花蛇舌草王不留行随证加减大腹皮金钱草

晋北硅铁建造型铁矿床铁矿石相、沉积环境判别及铁矿找矿方向的研究

<正> 硅铁建造型铁矿床是太古代——早元古代火山作用、构造作用,沉积作用、变质作用的结果。硅铁建造型铁矿石担的研究对确定铁矿床成因类型、判别沉积环境、评价利用铁矿石

期刊

铁矿床吕梁地区沉积环境找矿方向云母石英片岩绿泥片岩绿泥石磁铁石英岩铁矿石文溪组

试析环境史研究热的缘由与走向——兼论环境史研究的学科属性

环境史是国内外关注的学术热点。环境史之所以受到关注,一方面体现了人类的终极关怀,另一方面表明历史地理学的延伸。在当代的学科群中,环境史是一门交叉学科、边缘学科,也是

期刊

环境史当代学术学科建设

从称谓语看中西人际关系的差异

作为人际交往中最重要的部分,称谓语具有人际关系的指示功能。作为中西方典型代表的汉英称谓体系存在明显差异,这是由于其所处的不同文化背景而产生的,而这种差异也导致了中

期刊

称谓语文化差异人际关系

高铁隧道IV级V级围岩全断面机械化施工掌子面高压注浆工艺试验研究

为解决郑万高铁复杂地质隧道建造中IV级V级围岩全断面机械化施工的难题,制定针对全断面机械化配套施工的隧道施工掌子面预加固的措施和方法。采用跳孔注浆、由下层到上层、由

期刊

软弱围岩隧道施工全断面机械化施工高压注浆工艺试验

浅谈中国音乐市场营销概况

中国音乐逐步要走上市场经济,需要适应并转型为市场经济音乐。随着国际文化的发展,中国音乐市场营销又要面临着怎样状况,将是音乐投资者、音乐中间商所面临的较为严峻的问题,

期刊

中国音乐市场文化布局影响因素

一种鲁棒的病态混叠信号欠定盲源分离算法

噪声环境下的病态混叠信号具有较强的空间复共线性,因此基于聚类的稀疏分量分析(SCA)方法难以在欠定条件下对其进行有效的分离。针对这一问题,该文首先建立了噪声环境下病态

期刊

信号处理欠定盲源分离病态混叠非正交联合对角化稀疏分量分析

初中语文教学中情感的融入及其途径探析

初中语文是非常具有情感和体验性的课程,在教学中不仅要注重文化知识的传授,还要注意情感教育的融入。本文从初中语文教学中的情感内涵出发,指出初中语文教学中情感的融入具

期刊

初中语文情感教学途径

张家港市农户融资需求影响因素研究

论文以信贷配给理论、农村金融理论、效用理论、博弈论等为理论基础,从理论上研究农户融资需求的影响因素,在分析农户融资成本和风险的基础上对农户融资需求缺口进行测度研究

学位

农户融资需求信贷配给

农户生计转型对农村居民点用地演变的作用机理及调控措施

农村居民点用地演变作为士地利用覆被变化(LUCC)的重要组成部分,其研究有利于完善土地利用覆被变化理论体系。目前已有研究中,对于土地利用体系中城市用地和农用地演变体系的

学位

农户生计转型农村居民点用地演变作用机理调控措施

GitHub用户数据分析与研究

其他学术论文