跨模态检索调研

ryluo 2020-06-14 01:29:22
跨模态学习

跨模态检索任务的定义:将一种类型的数据作为查询去检索另一种相关类型的数据。

跨模态检索的主流方法大致可以分为四类:子空间的方法深度学习的方法哈希变换的方法和主题模型的方法

子空间方法

基本思想:利用不同模态样本对的成对共生信息学习投影矩阵,将不同模态的特征投影到一个共同潜在子空间,然后在该子空间中度量不同模态的相似性,从而实现跨模态检索。

优缺点:主要目的是学习到判别性的共享子空间,主要途径是最大化相关性。这些方法在跨模态检索中取得了较好的效果,但一个共同的不足就是没有考虑各模态内的数据局部结构 和模态间的结构匹配。事实上,与一个模态中的邻域内样本对应的另一个模态内的样本也应该具有相邻关系,反之亦然。另外子空间方法学习到的都是线性映射,无法有效的建模不同模态的高阶相关性。


深度学习方法

基本思想:利用深度学习的特征抽取能力,在底层提取不同模态的有效表示,在高层建立不同模态的语义关联。

两个阶段:首先,对不同模态学习单独的表示,然后利用高层网络最大化不同模态表示的相关性。

优缺点: 深度学习方法相比子空间学习方法取得了更好的检索结果。(大量的训练样本、超级 的计算能力和深度模型的丰富表示能力)。然而上述方法主要关注的还是底层特征学习和高层网络相关性,而对不同模态内的数据局部结构和模态间语义类结构关联缺乏关注和深入研究


哈希变换方法

基本思想: 利用不同模态的样本对信息,学习不同模态的哈希变换,将不同模态特征映射到一个汉明二值空间,然后在汉明空间实现快速的跨模态检索。哈希映射学习的基本依据是相似样本 的哈希编码是相似的。

优缺点:哈希类检索算法具有存储空间小、检索速度快等特点。存在的主要问题是二值化的过程中有精度损失,实值到二值化的过程中原有结构被破坏,没有充分考虑模态内的数据结构和模态问的结构匹配关联,优化计算复杂等。


主题模型

基本思想:将跨模态数据的底层特征映射到一个“隐性语义空间”。与上述方法不同,基于主题模型的方法通过生成式模型来发掘跨模态数据中隐含主题空间,学习得到的“主题 ”具有较强的可解释性 。

跨模态数据呈现底层特征异构 、高层语义相关的特点。如何表示底层特征 、怎样对高层语义建模以及如何对模态间的关联建模 ,这些都是跨模态检索面临的挑战。


难点:

模态数据差异及内容不平衡

由于不同模态数据底层特征之间异构性,即不同媒体的数据具有不同的特征表示形式,它们的相似性难以直接度量。所以度量不同模态之间内容的相似度,即消除异构鸿沟。这是最大的挑战。

为解决这个问题,一种直观的方法是跨媒体统一表征,即把不同媒体数据从各自独立的表示空间映射到一个第三方的公共空间中,使得彼此可以度量相似性。近年来,随着深度学习的快速发展与广泛应用,基于深度学习的统一表征方法已经成为了研究的热点与主流。


模态缺失问题

数据是由一个、两个或者多个模态组成,模态都有其特有的特征表示形式。在现实世界中,部分数据通常会存在缺失某些组成的模态,因此,多模态数据集难以构建,而且在进行跨模态检索时将会使性能降低。


数据库构建和基准标准化

数据量小、类型数量少、数据存在语义重叠和混乱等现象,会降低检索性能。


视觉语义差异

更精细的模态表示。不同模态的精细表示是保持判别性的主要途径。现有方法在单模态 表示时过于粗糙,如用SIFT等表示图像模态。这些统计特征忽略了图像的空间信息,不利于后续跨模态关联建模。


多模态表示的粒度

不同模态的精细表示是保持判别性的主要途径。现有方法在单模态表示时过于粗糙,例如用SIFT等表示图像模态。这些统计特征忽略了图像的空间信息,不利于后续跨模态关联建模。更精细的模态表示。


检索精度和速度有待提升

大规模数据集上的跨模态检索是非常耗时的,且需要大量的存储空间。哈希变换则是解决此问题的方法之一。基于哈希变换的跨模态方法:利用不同模态的样本对信息,学习不同模态的哈希变换,将不同模态特征映射到一个汉明(Hamming)二值空间,然后在汉明空间实现快速的跨模态检索。哈希映射学习的基本依据是相似样本的哈希编码是相似的。

虽然哈希类检索算法具有存储空间小、检索速度快等特点,但是存在的主要问题是二值化的过程中有精度损失,实值到二值化的过程中原有结构被破坏,没有充分考虑模态内的数据结构和模态间的结构匹配关联,优化计算复杂等。


跨膜太检索的热门topic

1) Cross-modal representation, e.g., hybrid feature representations and adversarial sample generation.

2) Cross-modal generation, e.g., visual captioning, text-based image/video generation and visual question answering.

3) Zero/few-shot cross-modal learning, e.g., zero/few-shot cross-modal retrieval/localization.

4) Cross-modal alignment, e.g., referring expression, dense cross-modal retrieval and phrase localization.

5) Cross-modal fusion, e.g., audio-visual speech recognition and text-based image classification.

6) Cross-dataset adaptation in cross-modal learning, e.g., cross-dataset generalization.

7) Binary cross-modal learning, e.g., binary cross-modal retrieval.

8) Unsupervised/semi-supervised cross-modal learning.

9) New applications of existing cross-modal learning methods.