大语言模型与知识图谱强强联手:问答系统的完美协作与未来机遇

2025-06-05ASPCMS社区 - fjmyhfvclm

在2025年5月26日,一个由丹麦奥尔堡大学的马传涛和阿里吉特·汗,中国东南大学的陈永瑞和吴天星,以及中国同济大学的王浩芬组成的国际研究团队,在arXiv预印本平台发表了一篇题为《大语言模型遇上知识图谱的问答系统:综合与机遇》(Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities)的研究论文。这篇论文全面梳理了大语言模型(LLMs)与知识图谱(KGs)在问答系统中的结合方式,为这一快速发展的领域提供了系统性的指导。有兴趣深入了解的读者可通过arXiv:2505.20099v1 [cs.CL]访问完整论文。

想象一下,你向ASPCMS社区助手或Siri提问:"谁是世界上最富有的人?他是如何积累财富的?"这看似简单的问题背后,隐藏着人工智能必须克服的巨大挑战。大语言模型(LLMs)凭借其强大的自然语言理解和生成能力,在问答任务上表现出色。然而,就像一个博览群书但记忆有时会出错的朋友,LLM在面对复杂问题时,常常会"编造"答案、使用过时知识,或者在推理过程中迷失方向。

知识图谱就像是一本精确的百科全书,里面记录着各种实体(如人物、地点、组织)之间的关系,形成一张巨大的关系网络。如果我们能让LLM在回答问题时参考这本"百科全书",是不是就能避免它"编故事"的问题呢?

这正是研究团队探讨的核心问题。他们发现,虽然检索增强生成(RAG)技术已经能够让LLM参考外部文档来回答问题,但在处理复杂问题时,RAG方法仍存在知识冲突、检索内容质量不佳、缺乏迭代推理能力等限制。而将LLM与知识图谱结合,形成一种"图检索增强生成"(GraphRAG)或"知识图谱检索增强生成"(KG-RAG)的方法,能够更好地解决这些挑战。

论文作者创新性地提出了一个结构化分类法,基于问答类型和知识图谱在与LLM结合时所扮演的角色进行分类。他们系统性地综述了当前最先进的LLM+KG问答方法,比较分析了这些方法的优势、局限性及知识图谱要求,并讨论了这些方法如何应对不同类型复杂问答任务的主要挑战。

让我们一起深入了解这个令人兴奋的交叉领域,看看当语言的艺术家(LLM)遇上知识的守护者(KG)时,会碰撞出怎样的智慧火花。

️一、复杂问答系统的挑战与分类

aspcms.cn

想象你是一个历史爱好者,向AI助手提问:"谁是二战期间法国的领导人,他们与英国首相丘吉尔的关系如何?"这个问题涉及多个人物、时间段和复杂关系,如果AI仅靠自己"记忆"中的知识回答,很可能会出现错误。研究团队将这类需要多步骤、多来源信息处理的问题称为"复杂问答"。

根据处理挑战的不同,研究者将复杂问答系统分为六大类:

首先是多文档问答系统。这类系统就像一位图书馆管理员,能够从多本书中找出相关信息并综合回答。例如,KGP系统(由Wang等人在2024年开发)通过LLM驱动的图遍历代理来检索知识图谱中的相关知识,减少了检索延迟并提高了检索内容质量。CuriousLLM(Yang和Zhu在2025年提出)则整合了知识图谱提示、推理增强的LLM代理和图遍历代理,增强LLM处理多文档问题的能力。

第二类是多模态问答系统。它们就像能同时理解文字、图像甚至声音的全能翻译官。视觉问答(VQA)是这类系统的典型代表。例如,MMJG(Wang等人在2022年提出)引入了自适应知识选择机制,从视觉和文本知识中联合选择信息。RAMQA(Bai等人在2025年开发)通过多任务学习方式增强了多模态检索增强问答系统。KVQA(Dong等人在2024年提出)则通过两阶段提示和伪孪生图谱媒介融合来平衡模态内和模态间推理。

第三类是多跳问答系统。这类系统就像解决一个需要多步骤的数学题,将复杂问题分解为多个简单问题,逐步求解后再整合答案。GraphLLM(Qiao等人在2024年提出)利用LLM将多跳问题分解为多个子问题,并通过图神经网络和LLM检索子图,基于图推理生成子问题的答案。HOLMES(Panda等人在2024年提出)利用基于实体-文档图构建的上下文感知超关系知识图谱增强LLM的多跳问答能力。GMeLLo(Chen等人在2024年提出)通过事实三元组提取、关系链提取和查询答案生成,有效整合KG的显式知识与LLM的语言知识。

第四类是多轮对话和会话式问答系统。这类系统就像一个擅长"听懂言外之意"的交谈伙伴,能够理解问题和中间交互。CoRnNetA(Liu等人在2024年提出)引入了基于LLM的问题重构、强化学习代理和软奖励机制,以改善多轮交互的解释。会话式问答涉及多轮交互,通过多次对话来精炼并获得准确答案。LLMs-Graph-Reasoning(Chen等人在2024年提出)引入知识聚合模块和图推理,实现图与LLM之间的联合推理,解决理解问题和上下文的挑战。SELF-multiRAG(Roy等人在2024年提出)利用LLM从会话历史摘要中检索并重用检索到的知识进行增强。

第五类是可解释问答系统。这类系统不仅能给出答案,还能像一位耐心的老师解释推理过程。RoHT(Zhang等人在2023年提出)基于构建的分层问题分解树实现概率推理,从而实现多源知识的有效整合。EXPLAIGNN(Christmann等人在2023年提出)从检索的KB知识和用户解释构建异构图,并基于带有问题级注意力的GNN生成解释性证据。RID(Feng等人在2025年提出)直接基于强化学习驱动的知识蒸馏将无监督检索与LLM整合。

最后一类是时间问答系统。这类系统能理解问题中隐含的时间约束,并有效地将其与时间知识结合进行推理。TimeR4(Qian等人在2024年提出)通过检索-检索-重排管道,通过基于时间知识的微调来增强LLM的时间推理能力。GenTKGQA(Gao等人在2024年提出)引入时间GNN和虚拟知识指示器捕获时间知识嵌入,并将检索到的子图动态集成到LLM中进行时间推理。KG-IRAG(Yang等人在2025年提出)使LLM能够增量检索知识并评估其充分性,以增强LLM回答涉及时间依赖的时间敏感和事件驱动查询的能力。

️二、LLM与知识图谱结合的方法论

如果将LLM比作一位博学多才但偶尔会记错事的演讲者,知识图谱则像一本事实详尽的参考书。研究者们发现,根据知识图谱在与LLM结合时扮演的角色不同,可以将LLM+KG的方法分为三大类:背景知识、推理指南以及验证者和优化器。

### 知识图谱作为背景知识

当知识图谱作为背景知识时,它就像是LLM的"外部记忆库",提供准确的事实信息供LLM参考。这类方法主要有两种技术范式:知识整合与融合,以及检索增强生成。

知识整合与融合就像是将参考书的内容直接"植入"到演讲者的大脑中。研究者们通过局部子图提取和实体链接对知识图谱和文本进行对齐,然后输入到跨模态编码器中,双向融合文本和知识图谱以联合训练语言模型。为了解决知识遗忘和噪声知识问题,InfuserKI(Wang等人在2024年提出)和KEFF(Zhao等人在2025年提出)分别引入了自适应选择和知识增强过滤器,选择新知识并将其与LLM整合。用文本和知识图谱微调LLM可以提高其在特定任务上的表现。例如,KG-Adapter(Tian等人在2024年提出)通过向LLM引入知识适应层改进了参数高效微调。GAIL(Zhang等人在2024年提出)基于从知识图谱检索的SPARQL-问题对微调LLM,用于轻量级KGQA模型。

检索增强生成(RAG)则像是演讲者在演讲过程中不断查阅参考书。它首先基于向量相似度检索从文本块中检索相关知识,然后通过将检索到的上下文与LLM整合来增强LLM。然而,主流RAG方法从文本块中检索相关知识,忽略了这些文本块的结构化信息和相互关系。为了缓解这一限制,研究者提出了Graph RAG和KG-RAG。Graph RAG直接从图数据中检索相关知识。GRAG(Hu等人在2024年提出)从文本图中检索top-k相关子图,然后通过基于GNN聚合和对齐图嵌入与文本向量将检索到的子图与查询集成。LEGO-GraphRAG(Cao等人在2024年提出)将检索过程分解为子图提取、路径过滤和路径细化模块,从而提高LLM利用检索知识的推理能力。KG2RAG(Zhu等人在2025年提出)从知识图谱中检索相关子图,并用检索到的知识图谱扩展文本块以增强生成。

### 知识图谱作为推理指南

知识图谱不仅可以提供事实信息,还可以指导LLM的推理过程。就像是一位导游不仅告诉你景点的信息,还会指导你如何规划最佳游览路线。根据知识图谱参与LLM推理过程的方式,这类方法可分为离线知识图谱指南、在线知识图谱指南和基于代理的知识图谱指南。

离线知识图谱指南在LLM推理过程前提供潜在路径或子图,LLM从中选择最相关的路径进行推理。例如,SR(Zhang等人在2022年提出)训练了独立于下游推理过程的子图检索器,而Keqing(Wang等人在2023年提出)使用预定义模板分解复杂问题,从知识图谱中检索候选实体和三元组。EtD(Liu等人在2024年提出)首先使用GNN识别有前途的候选项并提取与问题相关的细粒度知识,然后创建知识增强的多项选择提示引导LLM生成最终答案。最近的研究开始探索新型指南格式的应用。GCR(Luo等人在2024年提出)首先将知识图谱转换为KG-Trie,然后开发图约束解码和轻量级LLM来生成多个推理路径和候选答案。KELDaR(Li等人在2024年提出)引入问题分解和原子检索模块提取隐式信息,并从知识图谱中检索相关子图以增强LLM进行问答。

在线知识图谱指南强调知识图谱直接参与LLM的推理过程,而不仅仅依赖现有静态知识。例如,Oreo(Hu等人在2022年提出)使用知识图谱上的上下文化随机游走,并通过特定层进行单步推理。KBIGER(Du等人在2022年提出)考虑第(k-1)步推理图构建第k步推理指令,并纠正中间实体的错误预测。LLM-ARK(Huang在2023年提出)将推理任务视为顺序决策过程,并采用近端策略优化进行优化。ToG(Sun等人在2024年提出)允许LLM在知识图谱上迭代执行波束搜索,生成最有希望的推理路径和最可能的推理结果。相比之下,ToG-2(Ma等人在2025年提出)利用实体作为中介,基于文档与知识图谱之间的迭代检索引导LLM生成精确答案。KG-CoT(Zhao等人在2024年提出)利用外部知识图谱生成推理路径,实现LLM和知识图谱的联合推理,增强LLM的问答推理能力。

基于代理的知识图谱指南将知识图谱集成到LLM的推理过程中,作为代理系统的组件。这种集成允许代理利用结构化知识增强LLM的决策和问题解决能力。KG-Agent(Jiang等人在2024年提出)是一个多功能工具箱,集成LLM与基于知识图谱的执行器和知识记忆系统,自主选择工具并更新记忆以增强LLM在知识图谱上的推理。ODA(Sun等人在2024年提出)通过全局观察方法融合知识图谱推理能力,采用观察、行动和反思的循环范式改进推理能力。GREASELM(Zhang等人在2025年提出)通过引入多种模态交互层,有效整合来自语言模型和图神经网络的编码表示,无缝融合结构化知识与语言上下文。

### 知识图谱作为验证者和优化器

知识图谱还可以扮演"事实核查员"的角色,帮助LLM验证和细化中间答案。这类方法分为知识图谱驱动的过滤和验证,以及知识图谱增强的输出细化。

知识图谱驱动的过滤和验证通过结构化和已验证的信息过滤和验证LLM的候选答案,提高输出的准确性和可靠性。例如,ACT-Selection(Salnikov等人在2023年提出)基于从Wikidata提取的类型过滤和重新排序答案候选。Q-KGR(Zhang等人在2024年提出)通过基于问题和知识之间相关性得分排名过滤掉不相关知识,提高LLM的推理能力。知识图谱可以提高生成答案的事实准确性,如KG-Rank(Yang等人在2024年提出)集成医疗知识图谱与重排技术,增强生成响应的可信度。此外,KGR(Guan等人在2024年提出)自主提取和验证事实陈述,显著提升事实问答性能。

知识图谱增强的输出细化则是将知识图谱与LLM集成,以提高LLM输出的清晰度和准确性。EFSUM(Ko等人在2024年提出)将LLM作为事实摘要器,从知识图谱生成相关摘要,从而提高零样本问答性能。InteractiveKBQA(Xiong等人在2024年提出)实现迭代知识交互,使LLM能够生成逻辑形式并基于用户反馈细化输出。LPKG(Wang等人在2024年提出)用知识图谱派生的规划数据微调LLM,增强LLM在复杂问答中的复杂推理规划能力。

### 混合方法与优化技术

除了单一角色外,研究者们还探索了知识图谱在与LLM结合时扮演多重角色的混合方法。例如,KG-RAG(Sanmartin在2024年提出)引入了探索链(Chain-of-Explorations,CoE)基于向量相似度对节点或关系进行排名并获取top-k项,从而选择最相关知识并输入LLM生成最终答案。LongRAG(Zhao等人在2024年提出)基于混合检索器检索top-k最相关块,并通过引入CoT引导过滤器分析它们与查询的相关性。此外,知识图谱增强提示被引入LLM以增强最终答案的生成。在KG-Rank(Yang等人在2024年提出)中,引入多种排序方法来细化检索到的三元组,以最相关知识增强推理。FRAG(Zhao在2024年提出)引入推理感知和灵活检索模块从知识图谱中检索推理路径,从而引导和增强LLM的高效推理和答案生成。KGQA(Ji等人在2024年提出)结合CoT提示与图检索,提高检索质量和LLM的多跳推理能力。

为了缓解现有方法在统一LLM和知识图谱进行复杂问答时的低效率和高计算成本问题,研究者们提出了几种优化技术:

基于索引的优化旨在加速学习嵌入和向量存储过程。例如,PG-RAG(Liang等人在2024年提出)提出基于LLM的动态自适应知识检索索引,能有效处理复杂查询并改善RAG系统在问答任务中的整体性能。

基于提示的优化主要通过提示工程增强提示质量。例如,KGP(Wang等人在2024年提出)提出知识图谱提示方法增强LLM提示并优化知识检索,引入知识图谱构建模块和基于LLM的图遍历代理。

基于成本的优化旨在通过减少对LLM的调用次数和加速知识检索来最小化计算成本。特别是,SPOKE KG-RAG(Soman等人在2024年提出)提出基于令牌的优化KG-RAG框架,将知识图谱的显式和隐式知识与LLM集成,增强LLM的成本效益问答能力。

️三、评估指标与基准数据集

为了全面评估LLM+KG问答系统的性能,研究者们开发了一系列评估指标和基准数据集。

评估指标主要分为三类:答案质量指标、检索质量指标和推理质量指标。答案质量指标包括BERTScore、答案相关性、幻觉度、准确性匹配和人工验证完整性等。检索质量指标包括上下文相关性、忠实度得分、精确度、上下文召回率、平均倒数排名和标准化折扣累积增益等。推理质量指标则包括跳跃准确率和推理准确率等。

基准数据集方面,研究者们总结了许多专为评估LLM+KG问答系统设计的数据集,如WebQSP、BioASQ-QA、CAQA、CR-LT KGQA、EXAQT等。这些数据集覆盖了不同类型的问答任务,包括基于知识库的问答、多选题问答、多跳问答、多模态问答、时间问答等,为研究者提供了全面的评估环境。

此外,研究团队还展示了LLM+KG问答系统在工业和科学应用中的实际案例。例如,蚂蚁集团的KAG是一个领域知识增强生成框架,利用知识图谱和向量检索双向增强LLM用于知识密集型任务。微软的PIKE-RAG则是一个专门知识和基本原理增强生成系统,专注于提取、理解和应用领域特定知识引导LLM生成准确响应。NebulaGraph的GraphRAG-QA整合了多种查询引擎,增强问答能力。此外还有南洋理工大学等机构开发的MedRAG,弗劳恩霍夫IAIS和拜耳共同开发的Fact Finder,以及滑铁卢大学的AprèsCoT等应用案例。

️四、未来挑战与机遇

尽管LLM+KG问答系统取得了显著进展,但研究者们指出,这一领域仍面临几个关键挑战:

首先是有效性和效率的平衡问题。LLM+KG系统在检索事实和执行多跳推理时面临严格的延迟和内存预算限制。三个瓶颈正在浮现:结构感知检索、分摊推理和轻量级答案验证。研究者们建议通过层次图分区、动态邻域扩展和学习路径先验提案网络等方式暴露结构给检索器,同时保持索引的次线性特性。此外,通过缓存子图、重用中间嵌入和利用增量计算友好的硬件可以缓解迭代推理的二次级爆炸。轻量级答案验证方面,概率逻辑程序或布隆过滤器草图可以提供具有O(1)附加参数的设备内验证。一个机会是设计检索器和验证器,使前者的不确定性估计指导后者的选择性执行。

其次是知识对齐和动态集成的挑战。一旦知识图谱快照被注入LLM,它就开始过时,而现实世界的知识图谱通常涉及添加新实体、删除关系和解决矛盾。未来工作应量化对齐度,不仅评分语义重叠,还评估LLM中的参数知识与知识图谱中的符号知识之间的结构兼容性。对比探测与合成反事实或拓扑感知对齐损失可能填补这一空白。此外,参数高效调整(如按图增量键控的LoRA模块)和检索时修补(带有时间索引的流式知识图谱)是朝向流时间知识对齐的早期步骤。检测和解决冲突方面,贝叶斯信任网络、源感知知识蒸馏和多代理辩论协议可以估计和协调跨模态和来源的置信度分数。将这些纳入解码目标是一个具有高回报的开放挑战。

最后是可解释和公平感知的问答系统。LLM的规模对问答中的可解释性和公平性提出了挑战。虽然集成知识图谱提供了通向可解释推理的路径,但它也引入了计算挑战和公平性问题。未来工作可以考虑以下方向:子图推理、公平感知知识检索和多轮问答。从大规模知识图谱检索子图计算昂贵,常导致过于复杂或难以理解的解释。结构感知检索和重排方法应用于识别与黄金路径一致的子图。此外,CoT提示可引导LLM生成基于检索子图的显式推理步骤。LLM可以从训练数据中捕获社会偏见,但知识图谱可能包含不完整或有偏的知识,导致RAG中的公平性问题仍然存在。将公平感知技术纳入知识图谱检索(如基于偏见检测的重排)并将其与反事实提示集成可减轻偏见。单轮问答限制了多样化视角的探索和推理过程的探索。开发具有能动态检测和调整偏见的检索策略的多轮问答,可通过多轮交互进一步提高可解释性和公平性。

️五、结论

归根结底,这项研究系统地审视了LLM和知识图谱在问答系统中的结合,提出了一个基于问答类型和知识图谱角色的新型分类法。通过分析当前方法的优势和局限性,研究者们强调了利用知识图谱增强LLM以克服有限推理能力、过时知识和幻觉等挑战的潜力。

这一交叉领域已取得显著进展,但仍面临高效推理、知识对齐和可解释问答等挑战。未来研究应着眼于开发能动态整合最新知识的自适应框架,以及建立高效的方法来扩展推理、解释和公平性。

对于我们普通用户来说,这项研究意味着未来的AI助手将更加可靠、透明且公平。它们不仅能回答"谁是世界上最富有的人"这样的简单问题,还能处理"比较不同时期政治制度对经济发展的影响"这样的复杂多步骤问题,同时清晰解释其推理过程并避免社会偏见。

你是否想过,当AI能够自动更新和整合新知识,同时保持推理的准确性和可解释性时,它会如何改变我们获取和处理信息的方式?这个领域的发展无疑将重塑我们与AI交互的未来。

全部评论