NEWS LETTER

Action-Aware Embedding Enhancement for Image-Text Retrieval总结

Home
2026

Scroll down

LC的博客

I`m

地址:

北京
年龄:

21
学校:

中国人民大学

03/27

14:29

LC

《Action-Aware Embedding Enhancement for Image-Text Retrieval》总结

AME动作增强图像检索

一、核心问题

现有图像-文本检索只靠物体（名词）匹配，严重忽略动作（动词）的关键作用。
图文动作信息不对称：文本有明确动作描述，图像只有隐含动作。
细粒度匹配方法精度高，但推理太慢，不实用。

二、整体思路

把动作信息显式加进图像和文本特征，解决动作不对称

三、整体流程

1. 基础特征提取

图像：Faster R-CNN 提取区域特征向量 → 变成“区域序列”
文本：GloVe+Bi-GRU 或 BERT 提取词特征向量 → 变成“单词序列”
目的：让图像、文本都变成序列结构，方便统一处理

2. 共享 Transformer 编码（空间对齐）

图像序列、文本序列共用同一套 Transformer Encoder（权重共享）
输出：同一语义空间的图像区域token、文本单词token
作用：强制图文特征对齐，方便后续算相似度

3. 动作预测

对图像/文本的全局特征做预测，输出动作分数向量（每个动作对应0~1概率）
作用：得到图文的显式动作信息

4. 动作感知记忆库

结构：key=动作短语，value=对应文本的特征向量
用途：用预测的动作，召回动作相似文本，用来强化原图/原文特征

5. 动作感知特征融合

用 Transformer 把原图/原文特征 + 动作相似文本特征融合
输出：动作增强后的嵌入向量

6. 最终表示

把动作感知嵌入 + 动作预测分数直接拼接
得到最终向量，用于计算余弦相似度、排序检索

四、损失函数

三元组排序损失：让匹配图文更近，不匹配图文更远
二元交叉熵损失：监督动作预测，让动作分数更准
加权联合训练

传统图文检索 + 显式动作建模 + 动作相似文本增强 → 解决动作不对称 → 更准更快的图像-文本检索

其他文章

cover

CARA论文

26/03/27
20:45

cover

经典模型

26/03/24
09:45

目录导航置顶

1. 《Action-Aware Embedding Enhancement for Image-Text Retrieval》总结