论文部分内容阅读
随着互联网和移动互联网的快速发展,各种各样的资源被发布到网上,并且以爆炸式的速度在增长。为了能方便人们找到满足其个性化需求的资源,现有的很多应用提供了资源推荐系统提供这类服务。已有的推荐系统对于同质资源的推荐研究做得比较深入,而对于异质资源或跨媒体资源的推荐则少有涉及。本文将对从图片到文本的异质资源推荐——图片标注问题进行研究。 图片标注是指对一张照片或图片,为其标注与图片相关的或是反映图片内容的关键词或文本的过程。现有的图片标注算法例如SVM和CM等大多系统集中于对已有图片-标签数据集中标签的标注推荐,对该数据集以外的标签少有涉及,这样给图片标注系统带来了一定的局限性,因为该数据集中的标签往往是有限的。 为解决这一问题,本文首次提出了一种基于Wikipedia语义相似度的图片扩展标注算法S-COIA+,可以对图片进行已有图片-标签数据集以外的扩展标注。同时在计算Wikipedia语义相似度的过程当中,本文提出了基于混合计算的内积算法和基于布隆过滤器的剪枝优化,提高了相似度矩阵计算的时间效率。通过在用户产生的自然数据集MIRFLICKR-25000上的实验结果显示,与已有的图片标注方法SVM和CM方法相比,S-COIA+能够有效地推荐已有图片-标签数据集以外的与图片内容相关的标签;另一方面,经过优化的Wikipedia语义相似度计算方法相比原始方法,在时间效率上也有较大提升。