banner
NEWS LETTER

多模态知识图谱增强具身智能

Scroll down

Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI

场景知识图谱

一、基础信息

  • 论文标题:Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI
  • 发表期刊:IEEE Transactions on Knowledge and Data Engineering (TKDE)
  • 期刊评价:CCF A类、中科院1区Top、JCR Q1,数据/知识工程顶刊,学术认可度极高
  • 发表时间:2024年11月
  • 作者单位:复旦大学、之江实验室、香港科技大学
  • 核心标签:具身智能、多模态知识图谱、场景驱动、机器人知识增强

二、论文解决的核心问题

  1. 通用知识库缺陷:稀疏、粒度粗、缺场景细节、无多模态,不适合机器人
  2. 大模型参数知识缺陷:幻觉、不可靠、难维护、不可解释、难实时纠错
  3. 具身智能刚需:机器人需要场景专属、可解释、可纠错、图文结合的外部常识

三、整体思路

  1. 提出场景驱动多模态知识图谱(Scene-MMKG):专为机器人定制、单场景聚焦、文本+图像融合
  2. 构建流程:LLM提示生成Schema → 通用+场景知识填充 → 分层聚合优化
  3. 落地应用:做机器人版多模态RAG,把图谱注入导航、操作任务,提升决策能力

四、核心方法

1. 基于提示的模式设计

  • 输入:场景描述(如“卧室”)
  • LLM零样本提取:物体、类别、关系
  • 概念扩展+聚类:自动生成场景知识框架

2. Knowledge Population

  • 通用知识:从ConceptNet等库自动抽取常识
  • 场景专属知识:LLM生成+少量人工校对,补充位置、用法、操作规则
  • 多模态:给实体配图(标准图+场景图),同一实体带文本+图像两种信息

3. Quality Control and Refinement

  • Hierarchicalization(分层):实体→部件→属性,结构更清晰
  • Aggregation(聚合):语义相似属性合并,去冗余、解决长尾
  • 全程:算法自动执行,人工仅定规则+校验

五、知识增强模型

核心逻辑 = 机器人多模态RAG

  1. Scene Knowledge Retrieval(SKR):根据指令/观测检索图谱知识
  2. Multimodal Denoising:过滤无关图像/文本,保留当前场景有效信息
  3. Knowledge Encoding:GCN编码,供模型决策使用

两大落地任务

  • VLN(视觉语言导航):对应移动能力,靠图谱找路、找目标
  • 3D Object Language Grounding:对应操作能力,靠图谱精准识别、定位物体

六、实例与实验

  • 实例图谱:ManipMob-MMKG(室内场景,兼顾操作+移动)
  • 实验结论:
    • 建库成本低、效率高
    • 导航SPL、物体定位准确率显著优于通用KG与大模型参数知识
    • 多模态 > 单模态,去噪与优化有效
其他文章
目录导航 置顶
  1. 1. Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI
    1. 1.1. 一、基础信息
    2. 1.2. 二、论文解决的核心问题
    3. 1.3. 三、整体思路
    4. 1.4. 四、核心方法
      1. 1.4.1. 1. 基于提示的模式设计
      2. 1.4.2. 2. Knowledge Population
      3. 1.4.3. 3. Quality Control and Refinement
    5. 1.5. 五、知识增强模型
      1. 1.5.1. 核心逻辑 = 机器人多模态RAG
      2. 1.5.2. 两大落地任务
    6. 1.6. 六、实例与实验
请输入关键词进行搜索