潜在语义模型在复杂社会网络中的应用研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:linyuan0213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,众多Web应用为用户提供更加个性化的服务,增强了用户的参与性、交互性,在此基础上形成了基于不同交互模式的虚拟社会网络,如社会标注网络(Social tagging System)、微博、SNS、学术搜索网络(Arnetminer)等。这些网络虽然基于不同的用户协作模式,但其共同点是拥有海量的用户数据信息。因此海量信息的管理与分析变得日益迫切,基于海量信息的数据管理与语义分析也日益成为研究领域的热点,本文选取三类具有代表性的复杂社会网络:社会标注网络(Delicious、Flickr、Youtube)、学术搜索网络(Arnetminer)、社交网络(Twitter)为研究对象,建立基于本体的海量数据库(平均每个数据库拥有1000万左右的信息量),应用潜在语义模型(LatentSemantic Model)对海量数据的动态特征、内在关联及潜在语义进行分析。主要研究包括四个方面:   1.Delicious、Youtube、Flickr动态特性比对研究。为了深入了解社会标注网络(Social tagging)系统的语义特性,我们收集了三个目前最为流行的社会标注网络从2003年到2009年3月的将近6000万条用户标注行为,借鉴系统固有时间(instinct time)的思想,将在现实时间坐标系下分布的数据集,映射到体现系统内在特性的系统固有时间(instinct time)维度上,运用基于系统固有时间(instincttime)的动态概率模型,通过比对分析的方式,从宏观和微观两个层面,分析系统、系统资源的标签(tag)增长与内在语义的关联,分析系统用户标注行为的变化与资源、系统基于标签(tag)内在语义的关联。在这个过程中,我们发现很多有意义的结论,比如对于不同的社会标注系统,其动态特征反应了不同的认知过程。在宏观层面,三个标注系统的标签增长满足增长指数小于1的power-law分布。在微观层面,“热点”资源的标签增长满足类似的power-law分布。在此基础上,我们进行了更进一步的研究,发现标签增长指数及增长特性在不同的时间段具有不同的表象,不同标注系统的增长指数与系统中用户(tagger)的活跃程度成正向相关关系。这些具有一般规律性的结论对于我们深入了解系统特性、系统协助标注网络结构、系统、资源基于标签的内在语义都具有十分重要的指导意义,为相关研究的深入展开,奠定了良好的基础。   2.社会标注网络系统中标签(Tag)的动态语义特征研究。结合社会标注网络系统的特点,我们提出基于潜在语义模型的用户-标签-资源-LDA(TTR-LDA)模型,并构建基于sKL divergence的时间模型。通过该模型,我们获得Delicious系统的150个主题信息分类,并且同时获得每个主题的语义信息。在此基础上,获取用户(Tagger)的兴趣模型,资源的内容模型,标注行为(Post)的主题分布模型等。实验表明,相对于基于词频的语义分析模型,基于主题(Topic)层面的TTR-LDA模型能够挖掘出资源对象潜在的语义关联,具有较强的实用价值。最后,应用基于sKL divergence的动态机制观察主题、用户兴趣模型的演化趋势,进而发现标注行为所产生的语义信息对系统认知过程的影响。   3.基于Dynamic TTR-LDA-Community的Delicious活跃用户群的动态社区研究。相关领域的研究表明,两个用户标注同一个资源,说明他们可能在某些领域存在共同的兴趣偏好。基于以上的考虑,我们构建基于潜在语义的TTR-LDA-Community模型,通过推导(Inference)机制,将基于协作关系的社区发现算法(link-based Community Detection):Girvan-Newman和基于潜在语义模型(Latent Semantic Model)的TTR-LDA模型进行整合,用以分析用户协同标注行为(co-bookmark)所表现的潜在语义关联以及这些关联所体现的“社区(Community)”特性。在该整合模型中,通过用户之间的协同标注行为进行社区的发现;TTR-LDA采用空间映射、变换的方式,将社会标注系统中标注行为(post)、资源(resource)、用户(tagger)的复杂关联,映射到主题层,进而观察这些变量的主题属性。应用推导机制,研究社区(Community)中协同标注(co-tagging)和其主题分布之间的关联。同样地,我们应用sKL divergence构建相应的动态研究体系,研究社区(Community)、主题(Topic)随时间的变化规律。我们用多种指标体系衡量模型的执行效果,验证结果显示,TTR-LDA-Community模型比单独执行TTR-LDA和LDA,拥有更好的标签(tag)、资源(resources)、标注行为记录(post)预测效果。   4.基于Dynamic Community-Topic的Arnetminer和Twitter动态社区研究。针对Dynamic TTR-LDA Community模型仅限于对协同标注行为(co-bookmarking)的语义挖掘和其动态(Dynamic)机制存在运算量大、结果精确度不高的问题,本文提出基于潜在语义的Dynamic Supervised Community-Topic模型。该模型是以空间映射理论,对现有潜在语义模型的扩展。空间映射理论在海量数据语义信息挖掘方面,具有广泛的应用前景,是当前领域研究的热点。其基本思想是将高维空间的数据集,通过空间映射的方法进行降维处理,使之转换到低维空间,进而发现不同变量之间在低维空间的潜在关联。现有研究从不同维度观察复杂系统各变量之间的潜在关联,但很少有相关研究将这些维度进行整合。如何更好地发掘用户动态协作网络(Dynamic collaborate network)的语义信息及社区特性,如何按照现实网络的行为逻辑对这些变量、维度进行整合,进而提升系统的参数估计和预测能力,仍是领域专家关注的关键热点。基于以上的考虑,本文在分析海量数据的动态特性的基础上,提出用于分析复杂社会网络系统特性(主要包括语义特性、社区特性、时间维特性)的高度集成的理论模型体系,该体系以潜在语义模型(Latent Semantic Model)为基础,整合数据库中用户、网站、资源、属性等各方面的信息,以空间映射理论为指导,将所有变量及其之间的复杂关联映射到我们希望观察的不同空间维度。我们构建了基于社区(Community)、主题(Topic)、时间(time)、监督(Supervised)的四维空间理论模型,在潜在语义模型(Latent Semantic Model)相关方法论的基础上,提出基于MCMC的Gibbs EM求解方案。在实际的实验中,我们实现了Dynamic Community-Topic模型(未加入Supervised机制),该模型中我们可以对信息属性、信息语义、信息内在关联进行多维度的整合分析,提炼出体现系统本质特征的信息结构。此外,在时间维,我们采用基于贝鲁利分布的动态(Dynamic)机制,与基于sKL的动态(Dynamic)机制相比,该机制能够显著提高运算效率。该机制考虑时间序列不同时间点前后时刻的相互影响关系,其动态预测精度也有显著提高。应用该模型,我们可以在语义层面对用户进行更精确的社区发现,同时观察社区的成员、主题随时间的变化趋势。该模型对于主要的互联网服务,如人机交互、个性化推荐、网站内容趋势研究、互联网社区研究等都具有一定的理论意义和应用价值。   在以上研究的基础上,本文最后简要探讨了潜在语义模型的主要方法体系在金融领域的推广应用。随着计算机应用的不断发展,金融工程相关研究逐渐深入,利用数理模型结合计算机技术进行金融产品开发、市场模拟与预测,日益成为领域的热点。潜在语义模型的核心思想空间映射理论在金融领域也具有十分重要的应用价值。其核心既是将在高维空间众多变量的复杂关联映射到低维空间,进而实现对问题的简化,这对于金融领域同样具有重要的指导意义。因此,本文采用综述的方式,以资产定价、风险控制两个问题为代表,介绍潜在语义模型的重要方法之一,蒙特卡洛-马尔科夫链(MCMC)在金融领域的应用现状及发展前景。   此外,本文同时介绍了相关研究的数据处理、存储方式。考虑到社会标注网络的数据存储格式的特点,我们对现有网络爬行算法进行改进,使之能够抓取并存储RDF的格式,同时与我们的后台数据库实时保持通讯。我们的后台是通过Jena构建社会标注网络数据的可视化平台,应用ARQ2.0构建基于本体的数据存储平台,实现和潜在语义模型的有机整合。
其他文献
我国经济的迅速发展催生了一个广泛的富裕群体,形成一个巨大的潜在个人理财市场,吸引了大量机构参与其中。监管部门先后放宽了银行、证券、基金等机构从事与个人理财、财富管理
科技计划是政府支持科技创新活动的重要方式。中央纪委监察部下发《关于中央直属机关和中央国家机关纪检监察机构设置的意见》以来,派驻纪检监察机构成为了监察各级科技部门科
20世纪80年代以来,在世界经济自由化的前提下,随着全球贸易量的增加、资本市场的发展,国际资本在全球流动的规模迅速扩大,速度也在不断加快。2008年全球资本净流动规模达到16773
学位
棉花“86—1”是中国农科院植保所从抗病品种“陕65—141”中选出的变异单株,经六年系统选育而成。1977年全国抗病区域试验总结会定名为“86—1”。我省正定县两年试种,其抗
我站于1979和1980两年进行早稻带肥插秧(包蔸、点蔸、蘸秧根)试验,1980年全公社推广带肥插秧9,070亩,占早稻面积的73.5%,基本上解决了全公社3,250亩冷浸发秋田多年来早稻插
在当今经济高速发展的形势下,世界各国都面临能源需求量急剧增加的问题,仅靠开发常规油气资源已不能满足社会发展的需要。可再生能源和非常规油气资源成为油气勘探程度提高、
85—1147:选育单位为九江市农科所。属晚粳中迟熟品种,该品种1988~1989年连续两年参加省区试,平均亩产为329.49公斤,比鄂宜105增产8.79%,比农虎6号增产7.38%。生育期平均为123.
星火科技走过了15年的辉煌历程,它为提高农民的素质、调整农业与农村产业结构、建立农村新的产业体系、科技体系,为农牧民脱贫致富、农村城镇化发展,以及推进我国农业与农村
鉴26是中国农业科学院作物所1971年用中阿1号做母本,st2422/464做父本进行杂交,经过几年的连续选择于1976年育成。这个品种自1978年开始进行多点试验,小面积示范、逐步推广
近几年来,我们公社棉花生产发展较快,产量逐年提高。亩产由1977年的80多斤上升到201斤。其中一条重要的经验是争得了棉花早发。而要实现早发,除适期播种和下足基肥外,早施黄