GitHub用户数据分析与研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:jeffreykao95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网行业的飞速发展,开发者成为被社会关注的热门群体之一。而社交网络也成为了人与人之间联系的主流,开发者社交网络应运而生。GitHub作为近年来快速发展的开源项目托管平台和开发者社交网络,已有上千万的注册用户以及开源项目,其中包含大量与开发者相关的信息,并且信息仍持续更新,信息量不断增加。为了充分挖掘GitHub数据中蕴藏的价值并加以利用,本文针对GitHub用户数据进行分析和研究。由于GitHub数据量较大(总数据集超过100G),涉及多种对象,对象之间交互关系错综多变,网络结构复杂,这对我们的研究提出了巨大挑战。当前对GitHub用户的研究分析较少,没有比较全面的用户特征,这也是本文需要解决的主要问题之一。本文从多种角度分析GitHub用户数据,以及用户相关数据,提取并分析用户特征,以及用户影响力分析。在用户分类中,针对缺少用户标注数据集以及如何将用户特征化这两大关键问题,本文通过爬取GitHub数据构建了标注数据集,并分别基于用户内容以及网络结构,完成了用户自动分类。用户特征和影响力分析,用户分类,对GitHub中搜索,个性化推荐,信息传播等有重要意义。本文主要成果和结论如下:(1)GitHub用户数据预处理与特征分析。本文使用的数据是自2008年4月GitHub上线截止到2017年1月19日的所有用户数据。文中首先进行用户特征提取,并完成用户特征的统计分析,用户特征分布及特征之间的关系分析,并进行了用户数据过滤。用户特征分析是整文数据分析的基础。(2)用户影响力分析。本文基于对GitHub用户数据的分析,从用户follow关系,用户项目star、fork情况,用户活跃性等方面多角度衡量用户的影响力,比较其相关性,并最终综合衡量了GitHub中用户的影响力。(3)用户分类。本文基于GitHub用户数据,构建了用户-主题数据集。并进行了基于用户内容的用户表示和基于用户关系图的用户表示。通过两种方式将用户嵌入到了一个潜在的特征向量空间,然后用机器学习方法对用户进行了半监督分类,并将该方法与已有的社区发现算法进行比较,结果表明本文的方法可以较好地完成对用户的分类。
其他文献
<正>高建东,上海曙光医院肾内科主任医师、医学博士、博士生导师,上海市中医药研究院中医肾病研究所副所长。擅长治疗肾脏疾病,尤其善于各种疑难杂症,对多囊肾病颇有研究,临
<正> 硅铁建造型铁矿床是太古代——早元古代火山作用、构造作用,沉积作用、变质作用的结果。硅铁建造型铁矿石担的研究对确定铁矿床成因类型、判别沉积环境、评价利用铁矿石
环境史是国内外关注的学术热点。环境史之所以受到关注,一方面体现了人类的终极关怀,另一方面表明历史地理学的延伸。在当代的学科群中,环境史是一门交叉学科、边缘学科,也是
作为人际交往中最重要的部分,称谓语具有人际关系的指示功能。作为中西方典型代表的汉英称谓体系存在明显差异,这是由于其所处的不同文化背景而产生的,而这种差异也导致了中
为解决郑万高铁复杂地质隧道建造中IV级V级围岩全断面机械化施工的难题,制定针对全断面机械化配套施工的隧道施工掌子面预加固的措施和方法。采用跳孔注浆、由下层到上层、由
中国音乐逐步要走上市场经济,需要适应并转型为市场经济音乐。随着国际文化的发展,中国音乐市场营销又要面临着怎样状况,将是音乐投资者、音乐中间商所面临的较为严峻的问题,
噪声环境下的病态混叠信号具有较强的空间复共线性,因此基于聚类的稀疏分量分析(SCA)方法难以在欠定条件下对其进行有效的分离。针对这一问题,该文首先建立了噪声环境下病态
初中语文是非常具有情感和体验性的课程,在教学中不仅要注重文化知识的传授,还要注意情感教育的融入。本文从初中语文教学中的情感内涵出发,指出初中语文教学中情感的融入具
论文以信贷配给理论、农村金融理论、效用理论、博弈论等为理论基础,从理论上研究农户融资需求的影响因素,在分析农户融资成本和风险的基础上对农户融资需求缺口进行测度研究
农村居民点用地演变作为士地利用覆被变化(LUCC)的重要组成部分,其研究有利于完善土地利用覆被变化理论体系。目前已有研究中,对于土地利用体系中城市用地和农用地演变体系的