论文部分内容阅读
随着信息检索技术和多媒体技术的飞速发展,对不同模态的多媒体信息进行检索和索引,已经成为了用户对信息检索和多媒体技术新的需求。虽然经过学者们的不懈努力,多模态信息检索技术已经取得了一些突破,但是多模态信息检索还处于起步阶段,许多相关技术很不成熟。多媒体信息数字化以特性向量的形式存储并表达,而特性向量具有较高的维度。因此,索引高维数据也是多模态领域的研究热点问题。同时,高维数据的存储和索引长期以来都是信息检索领域的一项经典难题,还需要进一步的深入研究。 本文围绕多模态信息索引和检索技术的展开研究,提出了基于极限学习机(ELM)的多模态检索结果分类验证技术,用于提高多模态检索的准确度;应用ELM回归技术学习图像模态和文本模态的语义联系;利用概率潜在语义分析(pLSA),提出了有效的多模态信息检索模型;提出了高维空间中的多媒体数据的索引技术。同时,设计了一系列实验来验证本文的多模态的检索和索引技术的性能。本文的贡献点总结如下: (1)针对多模态信息检索结果的分类验证问题,分析了传统的多模态概率语义模型的缺陷,以图像模态和文本模态为例,提出了多模态信息检索结果分类验证技术。首先,给出了多模态信息检索结果分类验证技术的相关定义和理论。然后,提出了基于ELM的多模态二元分类器作为分类验证技术的实现方式,并给出了多模态二元分类器的训练和分类过程。进而,提出了带有多模态二元分类器的文本检索模型和图像检索模型,并给出了这两种模型的生成、训练、查询处理和分类验证的过程。最后,设计了一系列实验来验证多模态信息检索结果分类验证技术的有效性和高效性,并评估了多模态文本检索和图像检索模型的性能。通过将多模态二元分类器应用于其它多模态概率语义模型对检索结果分类验证,也表明了多模态信息检索结果的分类验证技术的可扩展性。 (2)针对建立不同模态之间对应联系的问题,提出了基于ELM的多模态语义回归技术,并以此为基础,提出了基于ELM回归的多模态检索模型。首先,介绍了基于ELM回归的多模态文本检索和图像检索模型的生成过程和查询处理。然后,详细描述了基于ELM回归的多模态文本检索和图像检索模型的训练过程,并且使用ELM回归技术来建立图像模态和文本模态之间的语义联系。同时,将多模态检索结果的分类验证技术应用于基于ELM回归的多模态检索模型。最后,设计了大量的实验验证了基于ELM回归的多模态检索模型的准确性和高效性,实验结果也验证基于ELM的多模态语义回归技术的有效性。 (3)针对高维多媒体数据的索引问题,基于高维向量的数学特性,提出了一种新的高维索引技术,将高维数据转换为二维向量的表达形式,并给出了一系列查询处理策略。然后,经过概率理论的推导,扩展了该高维索引技术,将高维数据的二维向量转换为一维数值的形式,并且给出了相应的查询处理策略。最后,一系列实验结果表明了新的高维索引技术的有效性和高效性。 (4)针对多模态信息检索的问题,提出了基于多元线性回归的多模态检索技术。首先,基于多元线性回归的多模态检索模型使用pLSA方法,分别对图像模态和文本模态的多媒体信息进行分析,并将信息转换为语义的表达形式。进而,它使用多元线性回归技术,建立图像模态和文本模态之间的语义联系。同时,为了提高检索性能,将多模态信息检索结果的分类验证技术引入基于多元线性回归的多模态检索模型。最后,设计一系列实验验证基于多元线性回归的多模态检索模型的性能。