NEWS LETTER

多模态知识图谱增强多模态大模型

Home
2026

Scroll down

LC的博客

I`m

地址:

北京
年龄:

21
学校:

中国人民大学

04/08

13:42

LC

MR-MKG

多模态知识图谱增强多模态大模型框架

一、基础信息

论文标题：Multimodal Reasoning with Multimodal Knowledge Graph (MR-MKG)
发表会议：ACL 2024
核心任务：多模态问答（ScienceQA）、多模态类比推理（MARS）
核心标签：多模态大模型、知识图谱增强、RAG、轻量适配器、跨模态对齐

二、论文解决的问题

多模态大模型（LLaVA、BLIP-2等）存在幻觉、知识陈旧/不足
传统**文本知识图谱（KG）**只有文字，无视觉信息，无法支撑跨模态推理
现有知识增强方案参数大、训练成本高，图文与知识未统一空间

三、整体思路

用外部多模态知识图谱（MMKG）提供图文知识 → 检索相关子图 → 编码为向量 → 对齐到LLM文本空间 → 拼接输入LLM推理 → 用跨模态对齐优化效果

轻量、无全量微调、解决幻觉、提升多模态推理精度

四、方法总流程

分别编码
- 文本（问题）→ 语言编码器 → 文本向量
- 图片 → 视觉编码器 → 图片向量
- MMKG子图 → RGAT（一种GNN）图编码器 → 知识向量
适配器对齐
- 图片向量 → 视觉适配器 → 文本空间
- 知识向量 → 知识适配器 → 文本空间
拼接输入LLM
- 文本向量 + 对齐后图片向量 + 对齐后知识向量 → 送入LLM
跨模态对齐训练
- 在MMKG内部做：图片实体 ↔ 文本实体匹配
- 用Triplet Loss拉近对应、拉远不对应，让三者空间统一

五、模型详细结构

1. Language Encoder

直接用LLM的词嵌入层（FLAN-T5/LLaMA-2）
全程冻结

2. Visual Encoder

用CLIP的ViT
输出图片特征 → 经线性层+单头注意力 → 适配文本空间
全程冻结

3. KG Encoder

输入：从MMKG检索的相关子图（Top10~20三元组）
模型：RGAT（关系图注意力网络）
作用：把图结构（实体+关系+图片）编码成知识节点向量

4. Knowledge Adapter + Visual Adapter

两个小线性层+注意力
作用：把图片、知识向量映射到LLM词嵌入空间
仅训练这部分，参数极小（≈LLM的2.25%）

任务：MMKG中随机选图片实体，匹配对应文本实体
损失：Triplet Loss（三元组损失）
目标：让图文知识在同一空间，减少歧义、提升匹配精度

六、训练方式

两阶段训练
- 预训练：在MMKG-grounded数据集上学基础图文知识
- 微调：在ScienceQA/MARS上做任务微调
损失函数
- 生成损失Lg：LLM正常回答损失
- 对齐损失La：跨模态匹配损失
- 总损失：L = Lg + λLa
核心特点
- 冻结LLM + 冻结视觉编码器
- 仅训练适配器、RGAT、对齐层 → 超轻量、低成本

七、关键要点

不是全图输入，每次只取相关小子图（≈10条三元组）
不是输入字符串，是拼接向量直接进LLM嵌入层
本质是多模态知识增强RAG，但用结构化MMKG而非文本库
创新不在发明算法，而在：
- 首次将MMKG内部图文实体对齐用于LLM多模态推理
- 超轻量参数训练仍达到SOTA

八、核心效果

ScienceQA：超过LLaVA、MM-CoT等SOTA，平均精度↑1.95%
MARS：Hits@1↑10.4%
仅训练≈2.25% LLM参数，训练成本极低

其他文章

cover

多模态知识图谱增强具身智能

26/04/08
17:46

cover

多模态知识图谱药物作用预测

26/04/08
13:16

目录导航置顶

1. MR-MKG