一个基于语义相似度的图片扩展标注系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:mao_320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动互联网的快速发展,各种各样的资源被发布到网上,并且以爆炸式的速度在增长。为了能方便人们找到满足其个性化需求的资源,现有的很多应用提供了资源推荐系统提供这类服务。已有的推荐系统对于同质资源的推荐研究做得比较深入,而对于异质资源或跨媒体资源的推荐则少有涉及。本文将对从图片到文本的异质资源推荐——图片标注问题进行研究。  图片标注是指对一张照片或图片,为其标注与图片相关的或是反映图片内容的关键词或文本的过程。现有的图片标注算法例如SVM和CM等大多系统集中于对已有图片-标签数据集中标签的标注推荐,对该数据集以外的标签少有涉及,这样给图片标注系统带来了一定的局限性,因为该数据集中的标签往往是有限的。  为解决这一问题,本文首次提出了一种基于Wikipedia语义相似度的图片扩展标注算法S-COIA+,可以对图片进行已有图片-标签数据集以外的扩展标注。同时在计算Wikipedia语义相似度的过程当中,本文提出了基于混合计算的内积算法和基于布隆过滤器的剪枝优化,提高了相似度矩阵计算的时间效率。通过在用户产生的自然数据集MIRFLICKR-25000上的实验结果显示,与已有的图片标注方法SVM和CM方法相比,S-COIA+能够有效地推荐已有图片-标签数据集以外的与图片内容相关的标签;另一方面,经过优化的Wikipedia语义相似度计算方法相比原始方法,在时间效率上也有较大提升。
其他文献
随着计算机视觉相关领域的发展,传统的二维成像技术已经不能满足人们的需要;越来越多的基于三维图像的技术不断涌现,丰富了人们的生活,也促进了科技的发展。另一方面,许多的应用
由于XML数据具有表示灵活和互操作性强等诸多关系数据所不可比拟的优点,因而在企业数据集成和互联网在线服务等领域得到广泛的应用。XML模式是对XML文档结构的描述,它在XML的数
CORBA是OMG对象管理组织提出的应用于不同系统之间互联的解决方案,以中间件的形式实现了异构网络的互联,并且已经广泛应用于分布式商业化管理系统当中,因此,相对于传统的网络系统
手指静脉识别技术作为一种新兴的生物特征识别技术,近年来获得了越来越多研究者的关注,取得了喜人的进步。手指静脉生物特征识别技术具有不易窃取、不易伪造、识别准确率高、适
多核处理器也称为片上多处理器(Chip Multi-processor,简称CMP)或单芯片多处理器。受限于芯片功耗和设计复杂度等因素,传统的超标量结构处理器已经无法有效利用不断增长的晶体管
图像信号处理依赖于图像信号建模,通常图像信号建模是通过对图像数据的降维来获得信号的紧致表达。稀疏表示模型通常利用信号的样本数据训练一个过完备字典,使得信号在该字典下
在网络环境下,一些网页脚本、分布式查询等可能动态生成查询请求或程序。这类查询或程序通常难以提前对其进行静态编译,如XQuery、JavaScript、Python、MATLAB等,它们一般是
在今天的互联网中,随着用户接入网络的物理带宽的提高,大部分的互联网上的内容作为信息密集的形式存在(如视频、音频、文件流),互联网的飞速发展引发了网络数据内容的急剧膨胀。当
对于安全性要求较高的局域网环境,现有的病毒检测方法存在着一些缺陷。各反病毒软件厂商之间病毒库和反病毒技术不共享,而单个反病毒软件不足以应对各种各样的病毒,在检测新出现
随着互联网的发展,互联网同人们日常生活的联系越来越紧密。门户网站为人们提供了新的信息获取方式,搜索引擎改变了人们被动获取信息的模式,社交网络则通过虚拟的方式拉进了人与