banner
NEWS LETTER

MKVSE多模态知识增强的视觉语义嵌入图像文本检索方法

Scroll down

MKVSE

MKVSE论文详细总结:多模态知识增强的视觉-语义嵌入图像文本检索方法

一、论文基础信息

  1. 论文标题:MKVSE: Multimodal Knowledge Enhanced Visual-semantic Embedding for Image-text Retrieval(多模态知识增强的视觉-语义嵌入用于图像-文本检索)
  2. 作者:Duoduo Feng、Xiangteng He、Yuxin Peng(北京大学王选计算机研究所,彭玉鑫为通讯作者,同时隶属鹏城实验室)
  3. 发表信息:ACM Transactions on Multimedia Computing, Communications and Applications (TOMM),2023年3月,第19卷第5期
  4. DOI:10.1145/3580501
  5. 核心任务:图像-文本跨模态检索(文本查图像、图像查文本)
  6. 实验数据集:Flickr30k、MSCOCO(1k/5k测试集)
  7. 开源代码https://github.com/PKU-ICST-MIPL/MKVSE-TOMM2023
  8. 基金支持:国家自然科学基金、2022腾讯微信犀牛鸟专项研究计划

二、研究背景与核心问题

1. 任务定义

图像-文本检索是用文本查询检索相关图像、用图像查询检索相关文本,是搜索系统、电商、社交网络的核心基础任务。

2. 现有方法缺陷

  • 传统视觉-语义嵌入(VSE)仅学习图像与文本的联合嵌入空间,忽略隐式多模态知识关联
  • 部分方法仅利用单模态知识(如文本共现、场景图),无法处理图像含文本未直接描述信息的场景(例:图像有水龙头,文本仅写“清洗”);
  • 现有图推理方法未显式建模跨模态隐式关系,无法充分挖掘图像与文本间的语义关联。

3. 核心痛点

当图像包含文本未直接描述的实体时,模型无法通过隐式语义关系(如“清洗-水龙头”“切菜-刀”)建立图像与文本的关联,导致检索精度不足。


三、核心创新贡献

  1. 提出多模态知识图谱(MKG)
    显式建模图像与文本间的模态内语义关系(同义词、上下位)和模态间共现关系(时序、因果、逻辑关联),解决隐式知识缺失问题。
  2. 提出多模态图卷积网络(MGCN)
    采用两步推理机制,分别挖掘模态内、模态间关系,充分利用MKG中的隐式知识增强特征表示。
  3. 多模态知识增强嵌入
    结合多头注意力将MKG知识注入图像/文本全局特征,在Flickr30k、MSCOCO数据集上达到SOTA性能

四、方法框架:MKVSE五大核心组件

MKVSE整体架构分为全局嵌入、多模态知识图谱、多模态图卷积网络、嵌入增强、目标函数五部分:

1. 全局嵌入(Global Embedding)

  • 图像嵌入:用BUTD模型提取36个感兴趣区域(ROI)特征,经全连接层投影后,采用GPO泛化池化得到全局图像特征;
  • 文本嵌入:用预训练BERT提取词特征,经全连接层投影后,同GPO池化得到全局文本特征。

2. 多模态知识图谱(MKG)

(1)实体构建

选取Visual Genome数据集中高频图像物体高频文本单词作为实体,过滤无意义词汇(如is、a),最终设定图像/文本实体数均为300。

(2)关系构建

  • 模态内语义关系:用WordNet路径相似度计算,区分语义不同的实体(如区分“人”和“狗”);
  • 模态间共现关系:统计图像-文本对中实体的共现频率,刻画隐式关联(如“清洗-水龙头”)。

(3)实体表示

  • 文本实体:GloVe预训练词向量;
  • 图像实体:同类物体区域特征的均值池化。

3. 多模态图卷积网络(MGCN)

采用两步分步推理,解决多模态图特征融合问题:

  1. 第一步:模态内关系推理
    分别对图像实体、文本实体做图卷积,学习模态内语义特征,区分不同实体;
  2. 第二步:模态间关系推理
    对完整MKG做图卷积,融合跨模态共现特征,建立图像与文本的隐式关联。

4. 嵌入增强(Embedding Enhancement)

多头注意力机制,将MGCN学习到的MKG实体特征注入图像/文本全局特征,生成知识增强的跨模态嵌入,兼顾原始特征与知识特征。

5. 目标函数

采用双向铰链损失(基于难负样本挖掘),优化图像-文本正对的相似度,拉开负对相似度,实现跨模态嵌入对齐。


五、实验验证与结果分析

1. 实验设置

  • 评估指标:R@1/R@5/R@10(前K个结果命中真值的比例)、RSUM(所有R@K求和);
  • 骨干网络:BUTD图像编码器 + BERT文本编码器;
  • 超参数:MGCN层数1层、知识融合权重λc=0.05、批量大小128。

2. 对比实验(SOTA验证)

  • 单模型:MGCN在Flickr30k、MSCOCO上的R@1指标超越所有现有单模型,RSUM相对提升最高7.6%;
  • 融合模型(MKVSE:在三大测试集上*全面超越所有SOTA方法,Flickr30k图像查文本R@1达84.0%,文本查图像R@1达64.4%;MSCOCO 5k测试集RSUM达443.2。

3. 消融实验

  1. MKG有效性:多模态知识图谱优于仅用文本单模态知识的CVSE方法,验证跨模态隐式知识的价值;
  2. MGCN有效性:两步推理的MGCN比传统图卷积(CGCN)性能提升显著,RSUM提升3.7%;
  3. 参数敏感性:实体数300、λc=0.05、MGCN层数1层时性能最优,过多实体/过深网络会引入噪声或过平滑。

4. 定性结果

可视化检索案例证明:MKVSE能通过隐式知识关联,精准检索到文本未直接描述、但语义相关的图像/文本,解决传统模型的检索盲区。


六、结论与未来工作

1. 研究结论

MKVSE通过MKG显式建模隐式多模态关系+MGCN两步图推理,有效解决图像-文本检索中隐式语义关联缺失的问题,在两大基准数据集上取得最优性能,兼具精度与推理效率。

2. 未来工作

  1. 挖掘更多类型的多模态知识关系,提升模型可解释性;
  2. 拓展至音频、视频等更多模态,丰富多模态知识图谱;
  3. 优化图网络结构,解决深层图卷积的过平滑问题。
其他文章
目录导航 置顶
  1. 1. MKVSE论文详细总结:多模态知识增强的视觉-语义嵌入图像文本检索方法
    1. 1.1. 一、论文基础信息
    2. 1.2. 二、研究背景与核心问题
      1. 1.2.1. 1. 任务定义
      2. 1.2.2. 2. 现有方法缺陷
      3. 1.2.3. 3. 核心痛点
    3. 1.3. 三、核心创新贡献
    4. 1.4. 四、方法框架:MKVSE五大核心组件
      1. 1.4.1. 1. 全局嵌入(Global Embedding)
      2. 1.4.2. 2. 多模态知识图谱(MKG)
        1. 1.4.2.1. (1)实体构建
        2. 1.4.2.2. (2)关系构建
        3. 1.4.2.3. (3)实体表示
      3. 1.4.3. 3. 多模态图卷积网络(MGCN)
      4. 1.4.4. 4. 嵌入增强(Embedding Enhancement)
      5. 1.4.5. 5. 目标函数
    5. 1.5. 五、实验验证与结果分析
      1. 1.5.1. 1. 实验设置
      2. 1.5.2. 2. 对比实验(SOTA验证)
      3. 1.5.3. 3. 消融实验
      4. 1.5.4. 4. 定性结果
    6. 1.6. 六、结论与未来工作
      1. 1.6.1. 1. 研究结论
      2. 1.6.2. 2. 未来工作
请输入关键词进行搜索