NEWS LETTER

EET大规模细粒度图像检索

Home
2026

Scroll down

LC的博客

I`m

地址:

北京
年龄:

21
学校:

中国人民大学

04/01

11:20

LC

一、论文基础信息

论文标题：Rethinking Vision Transformer for Large-Scale Fine-Grained Image Retrieval（重新思考视觉Transformer用于大规模细粒度图像检索）
发表期刊：IEEE Transactions on Multimedia（TMM，CCF B类，多媒体顶刊）
发表年份/卷期：2026年，Vol.28
作者：Xin Jiang, Hao Tang, Yonghua Pan, Zechao Li（通讯作者）
单位：南京理工大学、香港理工大学、广西科学院
开源代码：https://github.com/WhiteJiang/EET
核心任务：大规模细粒度图像检索（FGIR）+ 深度哈希 + ViT高效化
模型名称：EET（Efficient and Effective ViT）

二、论文要解决的核心问题

细粒度检索本身极难
同类物体长得极像（不同鸟/不同车几乎一样），只靠微小特征区分，普通模型分不清。
ViT强但太慢、太耗算力
ViT能抓细粒度，但自注意力计算量随token平方增长，大规模场景跑不动。
一剪枝就变“瞎”
传统token剪枝只删背景，容易把关键细微特征删掉，精度暴跌。
精度与效率无法兼顾
现有方法要么准但慢，要么快但不准，没法落地大规模细粒度检索。

三、核心解决方案：EET 整体框架

EET = Teacher ViT（老师，准但慢）+ EViT（学生，快且准）

训练阶段：老师教学生，学生边学边剪枝瘦身
推理阶段：只保留学生EViT，无额外开销，又快又准

三大核心模块

CTP（Content-based Token Pruning）基于内容的token剪枝
- 按内容重要性打分，不只看注意力
- 在第4、8、10层分层剪枝，先删背景，再删低判别区域
- 不丢细粒度关键特征，速度提升42.7%
DKT（Discriminative Knowledge Transfer）判别性知识迁移
- 用原图让学生哈希码逼近老师哈希码
- 把老师的细粒度判别能力“复制”给学生
DRG（Discriminative Region Guidance）判别性区域引导
- 遮住图片最显眼区域，只给学生看
- 强迫学生学习微小、易忽略的判别特征
- 只监督分类，不对比哈希，老师不参与

四、训练 / 推理完整流程

训练阶段（双模型+双分支并行）

输入一张原图
并行走两个分支：
- DKT分支（原图）
  原图→Teacher ViT→老师哈希码
  原图→EViT（带CTP）→学生哈希码
  损失：让两者哈希码尽可能一致
- DRG分支（遮罩图）
  用Teacher注意力找到显眼区→生成遮罩图
  遮罩图→EViT→分类预测
  损失：让分类正确即可
总损失 = 哈希损失 + 分类损失 + DKT损失 + DRG损失
训练完成后丢弃Teacher，只保留EViT

推理/使用阶段（仅EViT）

输入查询图
经EViT+CTP剪枝提取特征
生成二进制哈希码
用汉明距离做大规模快速检索

五、核心创新点

提出CTP内容感知剪枝，细粒度场景下只删冗余、不丢关键特征
提出无推理开销的判别性迁移策略（DKT+DRG），训练增强、推理不耗时
首次在ViT上实现大规模细粒度检索的精度与效率双赢
哈希检索与细粒度特征学习一体化，适合百万级数据

六、实验效果

速度：ViT-Small推理延迟降低42.7%，GFLOPs从4.25→3.07
精度：在CUB-200-2011、Stanford Cars、NABirds、VegFru、Food101、iNat2017共6个细粒度数据集上达到或超越SOTA
优势：在超大规模、高相似、类别不平衡数据上依然稳健

七、适用场景与扩展

适合：大规模、高相似、需细微区分的图像检索
迁移前提：必须有对应领域效果好的ViT作为Teacher

其他文章

cover

ResNet模型

26/04/01
11:45

cover

MKVSE多模态知识增强的视觉语义嵌入图像文本检索方法

26/03/31
23:22

目录导航置顶

1. 一、论文基础信息
2. 二、论文要解决的核心问题
3. 三、核心解决方案：EET 整体框架
1. 3.1. 三大核心模块
4. 四、训练 / 推理完整流程
1. 4.1. 训练阶段（双模型+双分支并行）
2. 4.2. 推理/使用阶段（仅EViT）
5. 五、核心创新点
6. 六、实验效果
7. 七、适用场景与扩展