banner
NEWS LETTER

EET大规模细粒度图像检索

Scroll down

一、论文基础信息

  • 论文标题:Rethinking Vision Transformer for Large-Scale Fine-Grained Image Retrieval(重新思考视觉Transformer用于大规模细粒度图像检索)
  • 发表期刊:IEEE Transactions on Multimedia(TMM,CCF B类,多媒体顶刊)
  • 发表年份/卷期:2026年,Vol.28
  • 作者:Xin Jiang, Hao Tang, Yonghua Pan, Zechao Li(通讯作者)
  • 单位:南京理工大学、香港理工大学、广西科学院
  • 开源代码https://github.com/WhiteJiang/EET
  • 核心任务:大规模细粒度图像检索(FGIR)+ 深度哈希 + ViT高效化
  • 模型名称EET(Efficient and Effective ViT)

二、论文要解决的核心问题

  1. 细粒度检索本身极难
    同类物体长得极像(不同鸟/不同车几乎一样),只靠微小特征区分,普通模型分不清。
  2. ViT强但太慢、太耗算力
    ViT能抓细粒度,但自注意力计算量随token平方增长,大规模场景跑不动。
  3. 一剪枝就变“瞎”
    传统token剪枝只删背景,容易把关键细微特征删掉,精度暴跌。
  4. 精度与效率无法兼顾
    现有方法要么准但慢,要么快但不准,没法落地大规模细粒度检索。

三、核心解决方案:EET 整体框架

EET = Teacher ViT(老师,准但慢)+ EViT(学生,快且准)

  • 训练阶段:老师教学生,学生边学边剪枝瘦身
  • 推理阶段:只保留学生EViT,无额外开销,又快又准

三大核心模块

  1. CTP(Content-based Token Pruning)基于内容的token剪枝
    • 按内容重要性打分,不只看注意力
    • 在第4、8、10层分层剪枝,先删背景,再删低判别区域
    • 不丢细粒度关键特征,速度提升42.7%
  2. DKT(Discriminative Knowledge Transfer)判别性知识迁移
    • 用原图让学生哈希码逼近老师哈希码
    • 把老师的细粒度判别能力“复制”给学生
  3. DRG(Discriminative Region Guidance)判别性区域引导
    • 遮住图片最显眼区域,只给学生看
    • 强迫学生学习微小、易忽略的判别特征
    • 只监督分类,不对比哈希,老师不参与

四、训练 / 推理 完整流程

训练阶段(双模型+双分支并行)

  1. 输入一张原图
  2. 并行走两个分支:
    • DKT分支(原图)
      原图→Teacher ViT→老师哈希码
      原图→EViT(带CTP)→学生哈希码
      损失:让两者哈希码尽可能一致
    • DRG分支(遮罩图)
      用Teacher注意力找到显眼区→生成遮罩图
      遮罩图→EViT→分类预测
      损失:让分类正确即可
  3. 总损失 = 哈希损失 + 分类损失 + DKT损失 + DRG损失
  4. 训练完成后丢弃Teacher,只保留EViT

推理/使用阶段(仅EViT)

  1. 输入查询图
  2. 经EViT+CTP剪枝提取特征
  3. 生成二进制哈希码
  4. 用汉明距离做大规模快速检索

五、核心创新点

  1. 提出CTP内容感知剪枝,细粒度场景下只删冗余、不丢关键特征
  2. 提出无推理开销的判别性迁移策略(DKT+DRG),训练增强、推理不耗时
  3. 首次在ViT上实现大规模细粒度检索的精度与效率双赢
  4. 哈希检索与细粒度特征学习一体化,适合百万级数据

六、实验效果

  • 速度:ViT-Small推理延迟降低42.7%,GFLOPs从4.25→3.07
  • 精度:在CUB-200-2011、Stanford Cars、NABirds、VegFru、Food101、iNat2017共6个细粒度数据集上达到或超越SOTA
  • 优势:在超大规模、高相似、类别不平衡数据上依然稳健

七、适用场景与扩展

  • 适合:大规模、高相似、需细微区分的图像检索
  • 迁移前提:必须有对应领域效果好的ViT作为Teacher

其他文章
目录导航 置顶
  1. 1. 一、论文基础信息
  2. 2. 二、论文要解决的核心问题
  3. 3. 三、核心解决方案:EET 整体框架
    1. 3.1. 三大核心模块
  4. 4. 四、训练 / 推理 完整流程
    1. 4.1. 训练阶段(双模型+双分支并行)
    2. 4.2. 推理/使用阶段(仅EViT)
  5. 5. 五、核心创新点
  6. 6. 六、实验效果
  7. 7. 七、适用场景与扩展
请输入关键词进行搜索