论文完整整理
一、基础信息
- 论文标题:Augmenting general-purpose large-language models with domain-specific multimodal knowledge graph for question-answering in construction project management
- 期刊:Advanced Engineering Informatics
- 发表时间:2025年
- 核心对象:建设工程项目管理问答(CPM-QA)
- 核心技术:多模态知识图谱(CPM-KG)+ RAG + 通用大模型(GLM)
- 数据集:2435题中国注册建造师考试(CRCEE)试题
- 开源:CPM-KG、测试集、代码均公开
二、论文解决的问题
- CPM-QA知识库缺陷:规模小、仅文本、无多模态
- 传统模型能力弱:规则/小模型无法处理全领域复杂问答
- 大模型短板:无领域专业知识、易幻觉、不可更新规范
- 无统一基准:缺少公开可对比的CPM问答测试集
三、整体思路
用多模态CPM知识图谱增强通用大模型,基于RAG实现外部知识注入,在建造师考试问答上大幅提升准确率,并提供可复用的知识库与基准测试集。
四、核心方法
1. 多模态CPM-KG构建(Method 3.1)
(1)概念层
- 5类节点:一级领域、二级领域、三级领域、文档、文档内容
- 3类关系:has subfield of、involves、contains
- 4类三元组:领域层级/领域-文档/文档-内容
(2)实例层
- 知识体系:1级→7个二级→36个三级CPM子领域
- 文档:195份规范/法规/教材,约260万字
- 多模态:339张工程图→存URL,文本插入标记
- 最终三元组:
- 242个:[三级领域, involves, 文档]
- 1375个:[文档, contains, 文档内容]
(3)存储与规模
- 数据库:Neo4j-v5
- 规模:1602节点、1696边、纯文本存储、图片仅存URL
- 无同级节点相连,仅上下级层级关联
2. 基于RAG的三阶段融合
阶段1:CPM-KG向量化
- 从Neo4j取出三元组→拼接为纯文本串
- 文本切块:250词/块,重叠50词
- 向量模型:Dmeta-embedding-zh
- 输出:知识向量库
阶段2:问题相关知识检索
- 用户问题→同模型转向量
- 余弦相似度匹配→召回Top3相关知识片段
阶段3:构造Prompt输入大模型
- 分单选/多选题设计模板
- 格式:指令 + 检索知识 + 问题
- 输入8种大模型:GPT-4-turbo、ERNIE-Bot 4.0、ChatGLM3等
3. 测试集构建
- 来源:2013–2023年CRCEE一建/二建试题
- 规模:2435道多选题,标注:年份、级别、子领域、单/多选、是否含图
- 格式:CSV/JSON,公开可复用
4. 评估方法
- 指标:准确率AR、精确率、召回率、F1
- 评分:沿用官方考试计分
- 统计检验:Wilcoxon符号秩检验
五、关键结果
- 平均准确率提升30.0%
- 最优模型(ERNIE-Bot 4.0/GPT-4系列)通过建造师考试
- 多模态KG优于纯文本KG
- 对多选题、图文题提升更显著
六、核心贡献
- 提出KG+RAG+大模型的CPM-QA框架
- 构建多模态、可复用的CPM专业知识图谱
- 发布2435题公开基准测试集
- 验证领域知识对大模型工程应用的关键作用