这篇论文提出基于 CLIP 的轻量级 Combiner 网络，实现图像+文本修改指令的组合图像检索，在时尚（FashionIQ）与通用场景（CIRR）均达到 SOTA，模型简单、训练高效、极易落地。

1. 解决的任务

条件/组合图像检索

输入：参考图像 + 文本修改描述
输出：符合“原图+修改”的目标图像
典型场景：电商时尚搜索（红裙子→蓝裙子）

2. 核心创新

轻量 Combiner 融合网络
- 输入：CLIP 图像特征、CLIP 文本特征（均冻结）
- 计算：图像特征 + 文本×门控 + 图文交叉 MLP（加法式融合）
- 输出：同维度目标图预测特征（仍在 CLIP 公共空间）
BBC 批量对比学习损失
- 用三元组（参考图、文本、目标图）训练
- 正样本：融合特征 ↔ 自身目标图特征
- 负样本：同 batch 内其他目标图特征
- 只训 Combiner，CLIP 全程不动
优化图像预处理
- 不直接中心裁剪，先按长宽比 1.25 补零 padding
- 保留完整图像内容，提升检索精度

3. 训练流程

数据：(I_ref, T_modify, I_target)
冻结 CLIP 提取：img_feat / txt_feat / target_feat
前向：img_feat + txt_feat → Combiner → query_feat
损失：BBC 让 query_feat 靠近 target_feat、远离其他
仅更新 Combiner 参数

4. 推理/应用流程

用户输入：参考图 + 修改文本
冻结 CLIP 提取图文特征
Combiner 输出检索向量
在预计算 CLIP 特征图库中做最近邻搜索
返回最相似图像

5. 效果（SOTA）

FashionIQ（时尚）：R@10 35.39%、R@50 59.03%，大幅领先
CIRR（通用）：R@1 33.59%、Subset R@1 62.39%，细粒度极强

6. 亮点与价值

架构极简，无 Transformer/GNN/空间信息
训练成本低，仅训小网络
速度快：单查询 <70ms，低配置 GPU 可跑
落地性强：电商搜索、交互式检索、多轮对话搜索

ps.
Combiner 加法式融合公式：
$$\mathbf{f}{out} = \mathbf{f}{img} + \left( \mathbf{f}{txt} \odot \sigma\left( \text{MLP}(\mathbf{f}{img},\mathbf{f}{txt}) \right) \right) + \text{MLP}(\mathbf{f}{img},\mathbf{f}_{txt})$$

符号说明（简洁版，存文档用）

$\mathbf{f}_{img}$：CLIP 图像特征
$\mathbf{f}_{txt}$：CLIP 文本特征
$\sigma$：sigmoid 门控函数（输出 0~1 权重）
$\odot$：逐元素相乘
$\text{MLP}(\cdot)$：轻量多层感知机（图文交叉信息）
$\mathbf{f}_{out}$：最终融合检索特征

基于CLIP的图文组合检索

LC的博客