一、论文基础信息
- 论文标题:Rethinking Vision Transformer for Large-Scale Fine-Grained Image Retrieval(重新思考视觉Transformer用于大规模细粒度图像检索)
- 发表期刊:IEEE Transactions on Multimedia(TMM,CCF B类,多媒体顶刊)
- 发表年份/卷期:2026年,Vol.28
- 作者:Xin Jiang, Hao Tang, Yonghua Pan, Zechao Li(通讯作者)
- 单位:南京理工大学、香港理工大学、广西科学院
- 开源代码:https://github.com/WhiteJiang/EET
- 核心任务:大规模细粒度图像检索(FGIR)+ 深度哈希 + ViT高效化
- 模型名称:EET(Efficient and Effective ViT)
二、论文要解决的核心问题
- 细粒度检索本身极难
同类物体长得极像(不同鸟/不同车几乎一样),只靠微小特征区分,普通模型分不清。 - ViT强但太慢、太耗算力
ViT能抓细粒度,但自注意力计算量随token平方增长,大规模场景跑不动。 - 一剪枝就变“瞎”
传统token剪枝只删背景,容易把关键细微特征删掉,精度暴跌。 - 精度与效率无法兼顾
现有方法要么准但慢,要么快但不准,没法落地大规模细粒度检索。
三、核心解决方案:EET 整体框架
EET = Teacher ViT(老师,准但慢)+ EViT(学生,快且准)
- 训练阶段:老师教学生,学生边学边剪枝瘦身
- 推理阶段:只保留学生EViT,无额外开销,又快又准
三大核心模块
- CTP(Content-based Token Pruning)基于内容的token剪枝
- 按内容重要性打分,不只看注意力
- 在第4、8、10层分层剪枝,先删背景,再删低判别区域
- 不丢细粒度关键特征,速度提升42.7%
- DKT(Discriminative Knowledge Transfer)判别性知识迁移
- 用原图让学生哈希码逼近老师哈希码
- 把老师的细粒度判别能力“复制”给学生
- DRG(Discriminative Region Guidance)判别性区域引导
- 遮住图片最显眼区域,只给学生看
- 强迫学生学习微小、易忽略的判别特征
- 只监督分类,不对比哈希,老师不参与
四、训练 / 推理 完整流程
训练阶段(双模型+双分支并行)
- 输入一张原图
- 并行走两个分支:
- DKT分支(原图)
原图→Teacher ViT→老师哈希码
原图→EViT(带CTP)→学生哈希码
损失:让两者哈希码尽可能一致 - DRG分支(遮罩图)
用Teacher注意力找到显眼区→生成遮罩图
遮罩图→EViT→分类预测
损失:让分类正确即可
- DKT分支(原图)
- 总损失 = 哈希损失 + 分类损失 + DKT损失 + DRG损失
- 训练完成后丢弃Teacher,只保留EViT
推理/使用阶段(仅EViT)
- 输入查询图
- 经EViT+CTP剪枝提取特征
- 生成二进制哈希码
- 用汉明距离做大规模快速检索
五、核心创新点
- 提出CTP内容感知剪枝,细粒度场景下只删冗余、不丢关键特征
- 提出无推理开销的判别性迁移策略(DKT+DRG),训练增强、推理不耗时
- 首次在ViT上实现大规模细粒度检索的精度与效率双赢
- 哈希检索与细粒度特征学习一体化,适合百万级数据
六、实验效果
- 速度:ViT-Small推理延迟降低42.7%,GFLOPs从4.25→3.07
- 精度:在CUB-200-2011、Stanford Cars、NABirds、VegFru、Food101、iNat2017共6个细粒度数据集上达到或超越SOTA
- 优势:在超大规模、高相似、类别不平衡数据上依然稳健
七、适用场景与扩展
- 适合:大规模、高相似、需细微区分的图像检索
- 迁移前提:必须有对应领域效果好的ViT作为Teacher