LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

2025-05-21ASPCMS社区 - fjmyhfvclm

在科技和学术文档中发现细微的技术错误一直是个难题,尤其是那些需要多模态解读的内容(如图像中的化学分子式)。2025年5月18日,来自下诺夫哥罗德洛巴切夫斯基国立大学的叶夫根尼·马尔哈辛(Evgeny Markhasin)在他的最新研究中,探索了一种令人振奋的解决方案。这项概念验证研究发表在个人学术论文中,读者可通过其ORCID(0000-0002-7419-3605)或LinkedIn主页了解更多详情。

马尔哈辛教授注意到了一个有趣现象:当今的大型语言模型(LLM)虽然功能强大,但它们有个与生俱来的"纠错倾向"。这就像是一个过于热心的朋友,即使你故意说错话,他也会自动理解你真正想表达的意思,而不是指出你的错误。这种特性在日常交流中很有用,但在需要严格验证文档中的技术错误时,却成了一个障碍。

想象一下,你请一位专家审核一份重要文件,但这位专家不知不觉地修正了所有错误,然后告诉你"一切都很完美"——这显然不是你想要的结果!在科学领域,尤其是化学公式验证中,这种问题尤为严重。

为了解决这个问题,马尔哈辛教授提出了一种巧妙的方法:通过"持续工作流程提示"(PWP)原则进行"LLM情境调节"。这听起来可能有些专业,但其实很像是给AI设定一个特定的"思维模式",就像教导一个朋友:"今天我需要你戴上'挑错眼镜',而不是你平常的'理解眼镜'。"

这项研究的独特之处在于,它不需要复杂的API访问或模型修改,只利用了通用LLM(如Gemini 2.5 Pro和ChatGPT Plus o3)的标准聊天界面。研究者选择了一篇包含已知文本和图像错误的复杂测试论文,并开发了几种提示策略来测试这一方法。

最初的简单提示策略效果不佳,就像是模糊地告诉助手"找找有什么错误",结果并不理想。但当研究者使用适应PWP结构的方法,严格调节LLM的分析思维模式时,情况发生了显著变化。这种方法不仅提高了两种模型识别文本错误的能力,更有趣的是,Gemini 2.5 Pro甚至能够反复识别出一个之前在人工审阅中被忽略的、隐藏在图像中的分子式错误。相比之下,ChatGPT Plus o3在同样的测试中则未能发现这个图像中的错误。

这项研究的初步发现揭示了阻碍LLM进行细致验证的特定运行模式,并表明PWP信息的情境调节提供了一种有前途且高度易用的技术,用于开发更强大的LLM驱动分析工作流程,特别是那些需要在科学和技术文档中进行细致错误检测的任务。

一、研究背景:为什么我们需要更聪明的AI错误检测?

在科学研究领域,准确性至关重要。想象一下,如果一篇化学论文中的分子式出现错误,可能会导致其他研究人员在此基础上设计实验,结果耗费大量时间和资源却一无所获。这就像是按照错误的食谱烘焙一个蛋糕——无论你的厨艺多么精湛,结果都会令人失望。

传统上,捕捉这类错误依赖于同行评审——专业人士仔细阅读文档并找出问题。但随着学术出版物数量的爆炸性增长,这种人工方法变得越来越不可行。这时,人们自然而然地想到:为什么不利用人工智能来帮忙呢?

但这里存在一个微妙的障碍。当今的大型语言模型,如ASPCMS社区的Gemini和OpenAI的ChatGPT,虽然处理信息能力惊人,但它们的设计初衷是理解并满足用户意图,而不是吹毛求疵地找错。这些模型会自动"纠正"或对它们认为的输入不完美之处做出合理推断。这就像是一个过于热心的助手,不仅会理解你说的话,还会自动修正你的口误,即使当你特意想让他指出这些口误时。

举个简单例子:如果你问ChatGPT"伦敦是大不列颠的首都吗?"(虽然正确说法应该是"英国"或"联合王国"),它很可能直接回答"是的",而不是指出术语使用不当。在日常交流中,这种特性很有用,但在科学文献验证中,却成了一个明显的缺点。

马尔哈辛教授受到了最近一篇预印本论文的启发,该论文提出了"持续工作流程提示"(PWP)作为一种方法,通过专家驱动、基于提示的引导来指导通用大型语言模型。他决定将这一方法应用于一个更具体的挑战:在一篇已知包含文本和图像错误的复杂测试论文中验证化学分子式。

二、研究方法:让AI戴上"挑错眼镜"

研究团队的方法就像是教导一个聪明但过于热心的助手如何成为一名严格的科学编辑。他们使用了同一篇包含已知错误的测试论文,这篇论文共有44页,其中隐藏着几个微妙的化学分子式错误。

具体来说,测试论文的第S-8页将硫酸亚铁铵的分子式错误地写成了Fe(NH?)?SO?,漏掉了一个硫酸根。正确的硫酸亚铁铵(莫尔盐)分子式应该是(NH?)?Fe(SO?)?·6H?O或无水形式(NH?)?Fe(SO?)?。第二个已知错误出现在第235页的图2(c)中,作为光谱标签的六甲基二硅氧烷被错误地标记为(CH?)?Si?O,而正确的分子式应为((CH?)?Si)?O或(CH?)?Si?O。

这个测试文档非常理想,因为它既包含了文本形式的错误,又包含了图像中的错误,使得研究团队可以测试模型的多模态分析能力。此外,考虑到测试论文的篇幅(44页),这也相当于在干草堆中寻找针——一个真实世界中的挑战性任务。

研究者们尝试了几种不同的提示策略:

首先是最基础的直接提示,就像简单地告诉助手:"找出化学分子式和名称中的错误。"这种方法特意提到了名称,因为名称通常可以用来解析分子式错误。

第二种策略是分解式提示,专注于提取公式与提取名称的对比。考虑到在化学交流中,大多数分子式(可能除了最基本的)都应该有相应的化学名称,研究者设计了一种策略,引导模型提取每个分子式的化学名称,并通过比较这两者来识别问题。

第三种策略也是分解式的,但采用了不同的错误检测工作流程。它让模型从提取的分子式生成名称,再从生成的名称重新生成分子式,然后比较提取的和生成的分子式来识别潜在错误。

最后,也是最复杂的一种方法,是基于PWP的提示与LLM情境调节。这种方法借鉴了先前工作中的情境调节原则,通过全面的情境设置来减轻输入偏见。研究者们开发了一个名为"ChemicalFormulasValidationPrompt"的提示,与之前工作中的"PeerReviewPrompt"类似,但专门针对分子式验证进行了调整。

这种PWP提示的结构非常精心,包含了几个关键部分:核心目标、角色设定、批判性审查框架等。它还引入了一个专门针对分子式和名称验证的"化学标识符分析"子部分,提供了专门的工作流程,包括对文档(包括文本和图像)的仔细扫描,以及对公式和名称的详细错误分类。

三、研究发现:有效破解AI的"纠错习惯"

研究团队发现,当使用基本的直接提示时,结果不一致且普遍不可靠。虽然基于文本的目标错误偶尔被识别出来,但响应中经常包含大量的"幻觉"——AI编造出的不存在的错误。有趣的是,这些幻觉往往很具体,且看起来合理,与目标文本设定的背景相匹配。

比如,LLM特别关注氧原子符号(大写字母O)在化学分子式中被错误地替换为碳原子符号(大写字母C)、数字零,甚至偶尔是铀符号等问题。虽然这些错误在真实文档中可能会出现,但在测试案例中实际上并不存在。

两种模型还表现出"懒惰"的特点。有时它们会产生大量输出,充斥着幻觉问题;有时它们声称没有发现任何问题;有时它们只报告了几个候选问题。ChatGPT Plus o3甚至在其部分暴露的思考过程中表现出拟人化的抱怨,它推理说"手动"浏览整个文件搜索候选公式会"永远"耗时,因此需要考虑不同的策略。

通过分析Gemini的"展示思考"日志(一个提供模型处理步骤洞察的功能),研究者发现了一个一致的模式。使用分解提示时,LLM通常能正确提取目标公式(例如,"Fe(NH?)?SO?:硫酸亚铁铵(莫尔盐)")。然而,在后续的验证步骤中,它有时会错误地将这对标记为正确。

这种观察到的行为可能源于LLM的核心优势:它们固有的纠错能力和在输入存在轻微不准确的情况下理解意图的能力。就像当你问"英国的首都是什么?",尽管"英国"的正式名称是"大不列颠及北爱尔兰联合王国",LLM仍会回答"伦敦",自动纠正了你的不准确表述。虽然这种特性通常很有用,但当目标是检测此类错误时,却成了一个障碍。

这就是情境调节发挥作用的地方。通过"ChemicalFormulasValidationPrompt"(化学分子式验证提示)创建的详细情境,LLM似乎能够暂时抑制其纠错倾向,采取更批判性的分析姿态。在使用这种PWP基础的方法进行测试时,两种模型都能一致地识别出基于文本的目标错误。

更令人惊讶的是,由于明确指示进行多模态分析(特别是分析图像),Gemini 2.5 Pro模型在多次试验中,还识别出了之前在人工审查中被忽略的基于图像的错误。这就像是一个非常细心的助手发现了一个连专业人士都漏掉的微小细节!相比之下,虽然ChatGPT Plus o3也被宣传为具有多模态分析能力,但在这项特定研究中,它未能识别出图像中的错误。

四、Gemini不同接口的表现差异

研究中的一个有趣发现与Gemini 2.5 Pro模型通过不同Google接口访问时的表现有关。虽然公众可用的Gemini Advanced应用程序(通过gemini.aspcms.cn)和面向开发者的Google AI Studio理论上提供对相同底层前沿模型的访问,且AI Studio提供广泛的定制选项(尽管本研究中使用了默认设置),但研究者注意到行为上存在质的差异。

虽然不是系统性的基准测试,但观察性评估表明,通过AI Studio(使用默认参数)访问的Gemini 2.5 Pro模型在本研究的复杂分析任务中表现出更一致、更精确的行为,比通过Gemini Advanced应用程序访问的版本更胜一筹。这种感知到的增强性能表现为运行之间可能更大的稳定性,更紧密地遵循提示指令和用户意图,以及更准确地提取细粒度细节。

这种差异在有限的多模态分析测试中尤为明显。虽然两个接口都使模型能够识别测试论文中低分辨率图像内的基于图像的公式错误,但捕获的细节水平各不相同。具体来说,通过Gemini Advanced应用程序访问的Gemini 2.5 Pro模型重复将图像中的公式识别为(CH?)?SiO,省略了最后一个下标。相比之下,通过AI Studio(默认设置)访问时,相同的名义模型重复将有缺陷的公式更准确地识别为(CH?)?Si?O,正确包含了最后一个下标。

这些特定观察结果,尽管基于有限的概念验证,表明访问接口及其默认配置可能会影响LLM在精细、面向细节的任务上的表现。这一观察结果凸显了研究人员在报告或尝试复制使用通过不同平台访问的名义相同模型的发现时的一个实际考虑因素。

五、研究影响与未来展望

这项概念验证研究的观察结果,特别是关于LLM情境调节在管理某些LLM行为(如错误抑制和输入偏见)方面的明显有效性,指向其在化学分子式验证任务之外的潜在效用。虽然本文的发现是初步的,并且来自有限的测试范围,但通过PWP信息技术引导LLM注意力和操作模式的原则可能对更广泛的应用有所帮助。

例如,类似的方法可能在医学AI领域有价值,用于需要从患者记录中精细处理和验证信息的工作流程,这些工作流程中精确性至关重要。另一个相关领域可能是从半结构化或结构不良的来源提取和验证数据,这在制药或技术文档中很常见,在这些情况下,鼓励LLM标记差异而不是静默"纠正"它们可能是非常理想的。

然而,重要的是要重申这项探索性工作中固有的限制。主要限制是依赖单一测试论文评估提示策略。因此,虽然所呈现的"ChemicalFormulasValidationPrompt"在这一特定上下文中看似有效,但没有更广泛的测试,这些观察结果不能被概括。提示本身,特别是"化学标识符分析"工作流程,仍然是需要进一步完善的初步草案。

未来的研究应该优先在更广泛的科学文档范围内对这些PWP信息情境调节方法进行严格测试,以定量评估它们的性能和通用性。这项工作还应该包括对不同LLM的更系统比较。对提示架构的进一步完善和对特定调节指令如何影响不同LLM行为(例如,错误抑制、不一致的努力、幻觉)的更受控调查也是增强这些技术在复杂科学内容分析和验证中的准确性和确保更广泛适用性的基本后续步骤。

总的来说,虽然这项研究是初步的,基于对使用测试论文的观察评估,但它为未来发展提供了有希望的方向,表明相对简单的情境调节可能有助于使通用LLM更适合精细的验证任务,而无需复杂的模型修改或提示工程。

六、结论:通用AI的未来发展方向

这项探索性概念验证研究调查了基于LLM的复杂科学文档中化学分子式验证,使用了一个包含已知错误的单一测试案例。观察表明,更简单的提示策略对目标错误产生了不可靠的结果,通常受到LLM纠错倾向和不一致分析努力的影响,尽管它们偶尔能识别出其他未针对的问题,如不平衡的化学方程式,这表明它们在广泛探索性测试中的潜在效用。相比之下,具有情境调节的PWP基础方法似乎改善了对目标错误类型的识别。

值得注意的是,尽管多模态分析指令主要是从先前工作改编而来,没有专门针对此任务进行优化,但PWP信息提示引导Gemini 2.5 Pro重复识别出图像中的一个微妙错误——这个错误先前在人工审查中被忽略。这一发现突显了系统性开发、情境条件提示揭示甚至未针对或意外错误的潜力。

这些初步观察强调了LLM在面向细节的验证任务中面临的显著挑战,但也表明情境调节可能是增强其可靠性的宝贵技术。尽管相对未经优化,所呈现的"ChemicalFormulasValidationPrompt"促成了这些初步定性评估。超出这个有限概念验证范围的进一步研究需要验证这些发现并探索此类方法的全部潜力。

对于关心科学研究完整性的普通读者来说,这项研究展示了AI不仅可以创造内容,还可以帮助我们更准确地验证内容,但前提是我们提供正确的指导。就像一个朋友可以帮你检查文章中的错误,但前提是你明确告诉他们要寻找什么,以及如何以批判性的眼光阅读你的作品。这种方法可能会对科学出版物中错误的减少产生深远影响,让科学知识更加可靠和值得信赖。

全部评论