NEWS LETTER

KEDs零样本组合图像检索

Home
2026

Scroll down

LC的博客

I`m

地址:

北京
年龄:

21
学校:

中国人民大学

03/31

09:45

LC

一、论文基础信息

论文标题：Knowledge-Enhanced Dual-Stream Zero-Shot Composed Image Retrieval（知识增强双流零样本组合图像检索）
发表会议：CVPR 2024
作者单位：浙江大学 ReLER、CCAI 实验室
核心任务：零样本组合图像检索（ZSCIR）
输入：参考图像 + 文本修改描述；输出：符合要求的目标图像
训练约束：不使用三元组标注数据（参考图-文本-目标图），仅用图像-文本对训练
开源代码：https://github.com/suoych/KEDs
基座模型：冻结 CLIP（ViT-L/14）
实验数据集：ImageNet-R、COCO、Fashion-IQ、CIRR

二、研究动机与痛点

传统组合图像检索需要大量三元组标注，成本高、泛化差
前人零样本方法（Pic2word）仅将图像全局特征映射为伪词，缺失颜色、数量、布局、材质等细粒度属性
伪词 token 与真实文本语义对齐不足，推理时图文融合效果差

三、模型整体结构

KEDs = 冻结 CLIP + 双模态知识投影模块 BKP + 双流训练分支 + 混合推理

所有可训练模块仅为 BKP 与线性层，CLIP 全程冻结
训练依赖外部图文数据库，推理不依赖检索

1. 核心模块：BKP 双模态知识引导投影

作用：给伪词注入细粒度属性，解决全局特征粗糙问题

外部库：50 万 CC3M 图像-文本对，CLIP 预编码 + FAISS 检索
输入：训练图像特征 i + Top-16 相似图像/文本知识
流程：
1. 共享线性层统一特征空间
2. 双交叉注意力：原图特征分别关注视觉知识、文本知识
3. 拼接输出：v = concat(原图映射特征, 视觉知识特征, 文本知识特征)
输出：3×d 维富含属性的伪词 token

2. 双流训练分支

（1）φ_M：知识增强图像对比流

训练目标：将图像映射到文本空间，保持视觉语义一致性
流程：图像 → fv → BKP → 伪词 v → 拼提示词 → ft → v̂
损失：对称对比损失 L_contrast
- 图像→伪词（i2t）+ 伪词→图像（t2i）
- 核心：让图像特征 i 与伪词文本特征 v̂ 尽可能相似

（2）φ_A：文本概念对齐流

训练目标：让伪词与真实文本语义精准对齐
流程：
1. 伪三元组挖掘：对标题做句法分析，替换主语为伪词 vₐ
2. 互补标题：增加 2 条相似描述丰富语义
损失：语义配准损失 L_r
- 主余弦损失 + 互补标题损失
- 核心：强制伪词与真实文本概念对齐

3. 推理阶段：混合检索

参考图像 → φ_M / φ_A → 两路伪词
伪词替换文本中物体占位符，经 ft 编码得到两路组合特征
线性融合：v_h = α·ĥ + (1−α)·ĥₐ
用融合特征与候选图像特征计算相似度，完成检索

四、关键损失函数

φ_M 对比损失
让图像特征和自身伪词的文本特征对齐，沿用 CLIP 对称对比损失
φ_A 语义配准损失
让伪词特征和真实标题/互补标题的文本特征对齐，用余弦损失
总训练目标：同时优化两路损失，使伪词兼具视觉知识与文本语义

五、实验结论

在 4 个基准数据集上全面超越前人零样本方法
ImageNet-R 平均提升：R@10 +7.9%、R@50 +12.2%
CIRR 上 R@1 达 26.4%，超过部分监督方法
消融实验验证：外部知识库、双模态知识、双流对齐均为必要组件

六、方法依赖前提

大量图像-文本对：用于训练与构建外部知识库
跨模态对齐模型：如 CLIP，能将图文映射到同一语义空间
文本可解析：能提取核心名词/主体，用于伪三元组挖掘

七、适用与不适用场景

适用场景

通用自然图像、时尚、电商、艺术、普通物体检索
希望零样本、少标注、高泛化的组合检索任务

不直接适用

医学影像、工业检测、遥感、科研专用图像
原因：通用 CLIP 不懂专业数据，无公开高质量专业图文对

专业领域改造要点

替换基座：MedCLIP / BioMedCLIP 等专业图文模型
替换数据库：同领域医学图像+报告
文本处理：适配专业术语/病灶/解剖结构提取

其他文章

cover

MKVSE多模态知识增强的视觉语义嵌入图像文本检索方法

26/03/31
23:22

cover

基于知识增强的视觉语言导航

26/03/30
14:40

目录导航置顶

1. 一、论文基础信息
2. 二、研究动机与痛点
3. 三、模型整体结构
4. 四、关键损失函数
5. 五、实验结论
6. 六、方法依赖前提
7. 七、适用与不适用场景