NEWS LETTER

多模态知识图谱RAG增强大模型

Home
2026

Scroll down

LC的博客

I`m

地址:

北京
年龄:

21
学校:

中国人民大学

04/08

12:22

LC

论文完整整理

一、基础信息

论文标题：Augmenting general-purpose large-language models with domain-specific multimodal knowledge graph for question-answering in construction project management
期刊：Advanced Engineering Informatics
发表时间：2025年
核心对象：建设工程项目管理问答（CPM-QA）
核心技术：多模态知识图谱（CPM-KG）+ RAG + 通用大模型（GLM）
数据集：2435题中国注册建造师考试（CRCEE）试题
开源：CPM-KG、测试集、代码均公开

二、论文解决的问题

CPM-QA知识库缺陷：规模小、仅文本、无多模态
传统模型能力弱：规则/小模型无法处理全领域复杂问答
大模型短板：无领域专业知识、易幻觉、不可更新规范
无统一基准：缺少公开可对比的CPM问答测试集

三、整体思路

用多模态CPM知识图谱增强通用大模型，基于RAG实现外部知识注入，在建造师考试问答上大幅提升准确率，并提供可复用的知识库与基准测试集。

四、核心方法

1. 多模态CPM-KG构建（Method 3.1）

（1）概念层

5类节点：一级领域、二级领域、三级领域、文档、文档内容
3类关系：has subfield of、involves、contains
4类三元组：领域层级/领域-文档/文档-内容

（2）实例层

知识体系：1级→7个二级→36个三级CPM子领域
文档：195份规范/法规/教材，约260万字
多模态：339张工程图→存URL，文本插入标记
最终三元组：
- 242个：[三级领域, involves, 文档]
- 1375个：[文档, contains, 文档内容]

（3）存储与规模

数据库：Neo4j-v5
规模：1602节点、1696边、纯文本存储、图片仅存URL
无同级节点相连，仅上下级层级关联

2. 基于RAG的三阶段融合

阶段1：CPM-KG向量化

从Neo4j取出三元组→拼接为纯文本串
文本切块：250词/块，重叠50词
向量模型：Dmeta-embedding-zh
输出：知识向量库

阶段2：问题相关知识检索

用户问题→同模型转向量
余弦相似度匹配→召回Top3相关知识片段

阶段3：构造Prompt输入大模型

分单选/多选题设计模板
格式：指令 + 检索知识 + 问题
输入8种大模型：GPT-4-turbo、ERNIE-Bot 4.0、ChatGLM3等

3. 测试集构建

来源：2013–2023年CRCEE一建/二建试题
规模：2435道多选题，标注：年份、级别、子领域、单/多选、是否含图
格式：CSV/JSON，公开可复用

4. 评估方法

指标：准确率AR、精确率、召回率、F1
评分：沿用官方考试计分
统计检验：Wilcoxon符号秩检验

五、关键结果

平均准确率提升30.0%
最优模型（ERNIE-Bot 4.0/GPT-4系列）通过建造师考试
多模态KG优于纯文本KG
对多选题、图文题提升更显著

六、核心贡献

提出KG+RAG+大模型的CPM-QA框架
构建多模态、可复用的CPM专业知识图谱
发布2435题公开基准测试集
验证领域知识对大模型工程应用的关键作用

其他文章

cover

图神经网络

26/04/08
12:39

cover

多模态知识图谱滚动轴承故障诊断

26/04/08
00:51

目录导航置顶

1. 论文完整整理