一、论文基础信息
- 论文标题:Knowledge-Enhanced Dual-Stream Zero-Shot Composed Image Retrieval(知识增强双流零样本组合图像检索)
- 发表会议:CVPR 2024
- 作者单位:浙江大学 ReLER、CCAI 实验室
- 核心任务:零样本组合图像检索(ZSCIR)
- 输入:参考图像 + 文本修改描述;输出:符合要求的目标图像
- 训练约束:不使用三元组标注数据(参考图-文本-目标图),仅用图像-文本对训练
- 开源代码:https://github.com/suoych/KEDs
- 基座模型:冻结 CLIP(ViT-L/14)
- 实验数据集:ImageNet-R、COCO、Fashion-IQ、CIRR
二、研究动机与痛点
- 传统组合图像检索需要大量三元组标注,成本高、泛化差
- 前人零样本方法(Pic2word)仅将图像全局特征映射为伪词,缺失颜色、数量、布局、材质等细粒度属性
- 伪词 token 与真实文本语义对齐不足,推理时图文融合效果差
三、模型整体结构
KEDs = 冻结 CLIP + 双模态知识投影模块 BKP + 双流训练分支 + 混合推理
- 所有可训练模块仅为 BKP 与线性层,CLIP 全程冻结
- 训练依赖外部图文数据库,推理不依赖检索
1. 核心模块:BKP 双模态知识引导投影
作用:给伪词注入细粒度属性,解决全局特征粗糙问题
- 外部库:50 万 CC3M 图像-文本对,CLIP 预编码 + FAISS 检索
- 输入:训练图像特征 i + Top-16 相似图像/文本知识
- 流程:
- 共享线性层统一特征空间
- 双交叉注意力:原图特征分别关注视觉知识、文本知识
- 拼接输出:v = concat(原图映射特征, 视觉知识特征, 文本知识特征)
- 输出:3×d 维富含属性的伪词 token
2. 双流训练分支
(1)φ_M:知识增强图像对比流
- 训练目标:将图像映射到文本空间,保持视觉语义一致性
- 流程:图像 → fv → BKP → 伪词 v → 拼提示词 → ft → v̂
- 损失:对称对比损失 L_contrast
- 图像→伪词(i2t)+ 伪词→图像(t2i)
- 核心:让图像特征 i 与伪词文本特征 v̂ 尽可能相似
(2)φ_A:文本概念对齐流
- 训练目标:让伪词与真实文本语义精准对齐
- 流程:
- 伪三元组挖掘:对标题做句法分析,替换主语为伪词 vₐ
- 互补标题:增加 2 条相似描述丰富语义
- 损失:语义配准损失 L_r
- 主余弦损失 + 互补标题损失
- 核心:强制伪词与真实文本概念对齐
3. 推理阶段:混合检索
- 参考图像 → φ_M / φ_A → 两路伪词
- 伪词替换文本中物体占位符,经 ft 编码得到两路组合特征
- 线性融合:v_h = α·ĥ + (1−α)·ĥₐ
- 用融合特征与候选图像特征计算相似度,完成检索
四、关键损失函数
- φ_M 对比损失
让图像特征 和 自身伪词的文本特征 对齐,沿用 CLIP 对称对比损失 - φ_A 语义配准损失
让伪词特征 和 真实标题/互补标题的文本特征 对齐,用余弦损失 - 总训练目标:同时优化两路损失,使伪词兼具视觉知识与文本语义
五、实验结论
- 在 4 个基准数据集上全面超越前人零样本方法
- ImageNet-R 平均提升:R@10 +7.9%、R@50 +12.2%
- CIRR 上 R@1 达 26.4%,超过部分监督方法
- 消融实验验证:外部知识库、双模态知识、双流对齐均为必要组件
六、方法依赖前提
- 大量图像-文本对:用于训练与构建外部知识库
- 跨模态对齐模型:如 CLIP,能将图文映射到同一语义空间
- 文本可解析:能提取核心名词/主体,用于伪三元组挖掘
七、适用与不适用场景
适用场景
- 通用自然图像、时尚、电商、艺术、普通物体检索
- 希望零样本、少标注、高泛化的组合检索任务
不直接适用
- 医学影像、工业检测、遥感、科研专用图像
- 原因:通用 CLIP 不懂专业数据,无公开高质量专业图文对
专业领域改造要点
- 替换基座:MedCLIP / BioMedCLIP 等专业图文模型
- 替换数据库:同领域医学图像+报告
- 文本处理:适配专业术语/病灶/解剖结构提取