banner
NEWS LETTER

基于CLIP的图文组合检索

Scroll down

这篇论文提出基于 CLIP 的轻量级 Combiner 网络,实现图像+文本修改指令的组合图像检索,在时尚(FashionIQ)与通用场景(CIRR)均达到 SOTA,模型简单、训练高效、极易落地。

基于CLIP的轻量级Combiner网络

1. 解决的任务

条件/组合图像检索

  • 输入:参考图像 + 文本修改描述
  • 输出:符合“原图+修改”的目标图像
  • 典型场景:电商时尚搜索(红裙子→蓝裙子)

2. 核心创新

  1. 轻量 Combiner 融合网络
    • 输入:CLIP 图像特征、CLIP 文本特征(均冻结)
    • 计算:图像特征 + 文本×门控 + 图文交叉 MLP(加法式融合)
    • 输出:同维度目标图预测特征(仍在 CLIP 公共空间)
  2. BBC 批量对比学习损失
    • 用三元组(参考图、文本、目标图)训练
    • 正样本:融合特征 ↔ 自身目标图特征
    • 负样本:同 batch 内其他目标图特征
    • 只训 Combiner,CLIP 全程不动
  3. 优化图像预处理
    • 不直接中心裁剪,先按长宽比 1.25 补零 padding
    • 保留完整图像内容,提升检索精度

3. 训练流程

  1. 数据:(I_ref, T_modify, I_target)
  2. 冻结 CLIP 提取:img_feat / txt_feat / target_feat
  3. 前向:img_feat + txt_feat → Combiner → query_feat
  4. 损失:BBC 让 query_feat 靠近 target_feat、远离其他
  5. 仅更新 Combiner 参数

4. 推理/应用流程

  1. 用户输入:参考图 + 修改文本
  2. 冻结 CLIP 提取图文特征
  3. Combiner 输出检索向量
  4. 预计算 CLIP 特征图库中做最近邻搜索
  5. 返回最相似图像

5. 效果(SOTA)

  • FashionIQ(时尚):R@10 35.39%、R@50 59.03%,大幅领先
  • CIRR(通用):R@1 33.59%、Subset R@1 62.39%,细粒度极强

6. 亮点与价值

  • 架构极简,无 Transformer/GNN/空间信息
  • 训练成本低,仅训小网络
  • 速度快:单查询 <70ms,低配置 GPU 可跑
  • 落地性强:电商搜索、交互式检索、多轮对话搜索

ps.
Combiner 加法式融合公式:
$$\mathbf{f}{out} = \mathbf{f}{img} + \left( \mathbf{f}{txt} \odot \sigma\left( \text{MLP}(\mathbf{f}{img},\mathbf{f}{txt}) \right) \right) + \text{MLP}(\mathbf{f}{img},\mathbf{f}_{txt})$$


符号说明(简洁版,存文档用)

  • $\mathbf{f}_{img}$:CLIP 图像特征
  • $\mathbf{f}_{txt}$:CLIP 文本特征
  • $\sigma$:sigmoid 门控函数(输出 0~1 权重)
  • $\odot$:逐元素相乘
  • $\text{MLP}(\cdot)$:轻量多层感知机(图文交叉信息)
  • $\mathbf{f}_{out}$:最终融合检索特征
其他文章
目录导航 置顶
  1. 1.
  • 1. 解决的任务
  • 2. 核心创新
  • 3. 训练流程
  • 4. 推理/应用流程
  • 5. 效果(SOTA)
  • 6. 亮点与价值
    1. 1. 符号说明(简洁版,存文档用)
  • 请输入关键词进行搜索