论文部分内容阅读
随着互联网的发展,各种类型的网络数据也越来越庞大,并且由相关数据构成的领域数据图的结构也越来越复杂。基于领域数据图的信息检索往往会产生大量的检索结果,并且用户难以发现有用的信息。目前的改进方法主要集中在用户查询和检索结果的理解与分析(如查询扩展、相关性反馈)上,而较少关注领域数据本身,因此改进效果还不是很理想。因为不仅用户查询具有歧义性,检索结果具有多样性,领域数据更具有实体联系复杂性、语义丰富性、不确定性和多样性等。信息发现是介于信息检索和知识发现之间的一种技术,它要求比信息检索做更多的预处理工作,例如信息集成、信息抽取和索引、信息聚类。数据社区是高内聚、低耦合的相关子图,其规模比传统的领域数据图的规模要小。领域数据图上的社区发现为信息发现做了更多的预处理工作。本文首先介绍了信息发现和数据社区的相关理论,并且分析和比较了目前几种有代表性的数据社区发现算法;然后提出了基于数据社区的信息发现模型;最后在这个信息发现模型的基础上设计了基于结构和主题相关的数据社区发现算法STBCD和基于数据社区的信息发现算法CBSTAR。STBCD算法依据网络结构特征和节点内容属性相似性把大的领域数据图划分成若干小的数据社区。CBSTAR算法首先查询检索和信息发现关键词相关的Top k个数据社区,然后只把相关的数据社区加载到内存中,在这些数据社区上查询发现候选结果集。在信息发现结果排序时,首先合并各个数据社区中查询发现的候选结果集,充分考虑数据社区和信息发现关键词的相关性以及包含关键词的节点和不包含关键词的节点对整个排序结果的影响,设计了更合理的排序策略。本文用上述方法实现了一个基于数据社区的领域数据图信息发现原型系统,利用DBLP数据集验证了原型系统的发现效果和效率。论文采用P@K评价指标对实验结果进行评价,对比和分析了不同的实验结果。最终的实验结果表明,本文的算法在保证信息发现效果的前提下大大提高了发现效率。