基于数据社区的领域数据图信息发现算法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:zbiao1222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,各种类型的网络数据也越来越庞大,并且由相关数据构成的领域数据图的结构也越来越复杂。基于领域数据图的信息检索往往会产生大量的检索结果,并且用户难以发现有用的信息。目前的改进方法主要集中在用户查询和检索结果的理解与分析(如查询扩展、相关性反馈)上,而较少关注领域数据本身,因此改进效果还不是很理想。因为不仅用户查询具有歧义性,检索结果具有多样性,领域数据更具有实体联系复杂性、语义丰富性、不确定性和多样性等。信息发现是介于信息检索和知识发现之间的一种技术,它要求比信息检索做更多的预处理工作,例如信息集成、信息抽取和索引、信息聚类。数据社区是高内聚、低耦合的相关子图,其规模比传统的领域数据图的规模要小。领域数据图上的社区发现为信息发现做了更多的预处理工作。本文首先介绍了信息发现和数据社区的相关理论,并且分析和比较了目前几种有代表性的数据社区发现算法;然后提出了基于数据社区的信息发现模型;最后在这个信息发现模型的基础上设计了基于结构和主题相关的数据社区发现算法STBCD和基于数据社区的信息发现算法CBSTAR。STBCD算法依据网络结构特征和节点内容属性相似性把大的领域数据图划分成若干小的数据社区。CBSTAR算法首先查询检索和信息发现关键词相关的Top k个数据社区,然后只把相关的数据社区加载到内存中,在这些数据社区上查询发现候选结果集。在信息发现结果排序时,首先合并各个数据社区中查询发现的候选结果集,充分考虑数据社区和信息发现关键词的相关性以及包含关键词的节点和不包含关键词的节点对整个排序结果的影响,设计了更合理的排序策略。本文用上述方法实现了一个基于数据社区的领域数据图信息发现原型系统,利用DBLP数据集验证了原型系统的发现效果和效率。论文采用P@K评价指标对实验结果进行评价,对比和分析了不同的实验结果。最终的实验结果表明,本文的算法在保证信息发现效果的前提下大大提高了发现效率。
其他文献
由于企业经济在我国社会经济中占据着重要的地位,各个企业开始对与企业经济相关的管理也越来越重视。企业经济管理的目的是对企业的财务和资源进行合理分配,同时促进企业经济
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
为及时评估输电线路绝缘状态,保证系统稳定性,提出一种用于辨识输电线路绝缘的几种闪络方式的方法。首先,利用工频叠加冲击试验平台模拟3种输电线路故障类型,从而获得闪络电
以白油为主要原料对生产硅酮胶的危险性进行分析,采用二甲基硅烷油代替白油为主要原料生产硅酮胶,进行了危险性对比,结果表明,采用甲基硅烷油为主要原料生产硅酮胶,降低了生
分析了密度变化对发电厂过热蒸汽流量测量的影响,给出了根据过热蒸汽压力和温度计算密度的公式;公式采用多项式拟合的方法得出,具有较高精度,可应用于发电厂过热蒸汽流量测量
摘 要:产业结构的变迁与经济增长存在密切的关系,研究经济增长不能不研究产业结构的演进。基于协整理论、Granger因果关系检验,本文根据1990—2016年越南统计局数据,对越南产业结构与经济增长的关系进行了分析。研究结果表明:越南产业结构与经济增长之间存在因果关系。根据VECM的结果表现出越南产业结构与经济增长之间存在短期波动和长期均衡关系。  关键词:产业结果;经济增长;协整检验;Grange
目的探究生血宝合剂联合多维铁口服液对缺铁性贫血(IDA)的疗效。方法选取我院86例IDA患者为研究对象,采用随机数字表法分为多维铁口服液组(对照组,n=43)和生血宝合剂联合多维
文章首先分析了配水管网供水水质污染的成因,并在此基础上提出配水管网供水水质防污染的技术措施。期望通过本文的研究能够对提高配水管网供水质量有所帮助。
婚姻法修正案设立了探望权制度,填补了婚姻家庭制度的空白。但经过几年的实践,探望权仍很难以实现。而身份权与物权等其他权利有着迥乎不同的自身特性,因此探望权的完善应当在充