论文部分内容阅读
随着信息技术的高速发展,互联网已经完全融入了人们的学习、工作和生活,成为人们获取信息的一个重要途径。互联网上日益丰富的图片资源,使得图片被越来越多地应用于信息的承载和内容的表达,人们对图片的检索需求也日趋强烈。
基于文本的图片检索技术是当前图片检索系统应用的主流技术,如何准确而全面地从网页中提取与图片内容相关的文本,是提高整个图片检索系统性能的关键。本文的主要研究目标就是挖掘图片与文本之间的相关性,从而提高图片相关文本信息的提取效果。
本文提出应用词可见度模型提取图片相关文本信息的算法,避开以往基于分析网页结构提取图片相关文本算法对网页结构的依赖性,直接挖掘图片和文字之间的语义相关性。该算法从网页的主题关键词入手,由于不同的关键词对图片内容描述所起到的贡献不同,本文充分考虑图片本身具有的视觉特性,应用词可见度模型衡量关键词和图片的相关性,得到图片语义关键词,然后进一步提取图片相关的描述文本。
通过在两个不同类型语料库上的实验,本文提出的应用词可见度模型提取图片相关信息的算法对各种类型网页结构的适应性较以前的算法有所提高,尤其是在网页主题与图片内容相关性强的网页集合上,能够较大幅度地提升图片信息提取结果的准确率和召回率。