banner
NEWS LETTER

KEDs零样本组合图像检索

Scroll down

一、论文基础信息

  • 论文标题:Knowledge-Enhanced Dual-Stream Zero-Shot Composed Image Retrieval(知识增强双流零样本组合图像检索)
  • 发表会议:CVPR 2024
  • 作者单位:浙江大学 ReLER、CCAI 实验室
  • 核心任务:零样本组合图像检索(ZSCIR)
  • 输入:参考图像 + 文本修改描述;输出:符合要求的目标图像
  • 训练约束:不使用三元组标注数据(参考图-文本-目标图),仅用图像-文本对训练
  • 开源代码:https://github.com/suoych/KEDs
  • 基座模型:冻结 CLIP(ViT-L/14)
  • 实验数据集:ImageNet-R、COCO、Fashion-IQ、CIRR

二、研究动机与痛点

  1. 传统组合图像检索需要大量三元组标注,成本高、泛化差
  2. 前人零样本方法(Pic2word)仅将图像全局特征映射为伪词,缺失颜色、数量、布局、材质等细粒度属性
  3. 伪词 token 与真实文本语义对齐不足,推理时图文融合效果差

三、模型整体结构

KEDs = 冻结 CLIP + 双模态知识投影模块 BKP + 双流训练分支 + 混合推理

  • 所有可训练模块仅为 BKP 与线性层,CLIP 全程冻结
  • 训练依赖外部图文数据库,推理不依赖检索

1. 核心模块:BKP 双模态知识引导投影

作用:给伪词注入细粒度属性,解决全局特征粗糙问题

  • 外部库:50 万 CC3M 图像-文本对,CLIP 预编码 + FAISS 检索
  • 输入:训练图像特征 i + Top-16 相似图像/文本知识
  • 流程:
    1. 共享线性层统一特征空间
    2. 双交叉注意力:原图特征分别关注视觉知识、文本知识
    3. 拼接输出:v = concat(原图映射特征, 视觉知识特征, 文本知识特征)
  • 输出:3×d 维富含属性的伪词 token

2. 双流训练分支

(1)φ_M:知识增强图像对比流

  • 训练目标:将图像映射到文本空间,保持视觉语义一致性
  • 流程:图像 → fv → BKP → 伪词 v → 拼提示词 → ft → v̂
  • 损失:对称对比损失 L_contrast
    • 图像→伪词(i2t)+ 伪词→图像(t2i)
    • 核心:让图像特征 i 与伪词文本特征 v̂ 尽可能相似

(2)φ_A:文本概念对齐流

  • 训练目标:让伪词与真实文本语义精准对齐
  • 流程:
    1. 伪三元组挖掘:对标题做句法分析,替换主语为伪词 vₐ
    2. 互补标题:增加 2 条相似描述丰富语义
  • 损失:语义配准损失 L_r
    • 主余弦损失 + 互补标题损失
    • 核心:强制伪词与真实文本概念对齐

3. 推理阶段:混合检索

  1. 参考图像 → φ_M / φ_A → 两路伪词
  2. 伪词替换文本中物体占位符,经 ft 编码得到两路组合特征
  3. 线性融合:v_h = α·ĥ + (1−α)·ĥₐ
  4. 用融合特征与候选图像特征计算相似度,完成检索

四、关键损失函数

  1. φ_M 对比损失
    让图像特征 和 自身伪词的文本特征 对齐,沿用 CLIP 对称对比损失
  2. φ_A 语义配准损失
    让伪词特征 和 真实标题/互补标题的文本特征 对齐,用余弦损失
  3. 总训练目标:同时优化两路损失,使伪词兼具视觉知识与文本语义

五、实验结论

  1. 在 4 个基准数据集上全面超越前人零样本方法
  2. ImageNet-R 平均提升:R@10 +7.9%、R@50 +12.2%
  3. CIRR 上 R@1 达 26.4%,超过部分监督方法
  4. 消融实验验证:外部知识库、双模态知识、双流对齐均为必要组件

六、方法依赖前提

  1. 大量图像-文本对:用于训练与构建外部知识库
  2. 跨模态对齐模型:如 CLIP,能将图文映射到同一语义空间
  3. 文本可解析:能提取核心名词/主体,用于伪三元组挖掘

七、适用与不适用场景

适用场景

  • 通用自然图像、时尚、电商、艺术、普通物体检索
  • 希望零样本、少标注、高泛化的组合检索任务

不直接适用

  • 医学影像、工业检测、遥感、科研专用图像
  • 原因:通用 CLIP 不懂专业数据,无公开高质量专业图文对

专业领域改造要点

  1. 替换基座:MedCLIP / BioMedCLIP 等专业图文模型
  2. 替换数据库:同领域医学图像+报告
  3. 文本处理:适配专业术语/病灶/解剖结构提取
其他文章
目录导航 置顶
  1. 1. 一、论文基础信息
  2. 2. 二、研究动机与痛点
  3. 3. 三、模型整体结构
    1. 3.1. 1. 核心模块:BKP 双模态知识引导投影
    2. 3.2. 2. 双流训练分支
      1. 3.2.1. (1)φ_M:知识增强图像对比流
      2. 3.2.2. (2)φ_A:文本概念对齐流
    3. 3.3. 3. 推理阶段:混合检索
  4. 4. 四、关键损失函数
  5. 5. 五、实验结论
  6. 6. 六、方法依赖前提
  7. 7. 七、适用与不适用场景
    1. 7.1. 适用场景
    2. 7.2. 不直接适用
    3. 7.3. 专业领域改造要点
请输入关键词进行搜索