DeepSeek官方推荐:R1要这样设置
Datawhale分享
️官方推荐:DeepSeek、OpenAI,整理:Datawhale
信息来源|量子位、新智元
到底该如何部署 DeepSeek-R1,才能体验最佳?
对于这个问题,DeepSeek 官方发话了:
DeepSeek 推荐的设置非常简单,只有四项内容。
其中三项,其实在此前相关文档中有所涉及,我们在这里 ️再来回顾一下。
首先,是 ️别用系统提示词(No system prompt),所有的指令都应该包含在用户提示词中。
至于原因,网友认为是因为 R1 就是这么被训练而来的。
其次,是 ️把 Temperature 设置为 0.6。
DeepSeek 在 GitHub 文档中的解释是:
将Temperature设置在0.5-0.7(建议0.6)的范围内,以防止无休止的重复或输出不一致。
第三点,则是一份 ️缓解模型绕过思维的指南,包含两个细分内容:
对于数学问题,建议在你的提示中包含一个指令,如:“请一步一步地推理,并将你的最终答案放在 \boxed{} 内。”
在评估模型性能时,建议进行多次测试并对结果进行平均。
新的设置推荐
除了上述已有的三点之外,这次 DeepSeek 官方在推文中引入了一个新的推荐——
️官方提示搜索和文件上传。
DeepSeek 表示:
上传文件时,请按照模板创建提示,其中 {file_name}, {file_content} 和 {question} 是参数。
对于 Web 搜索,{search_results}, {cur_data}和{question} 是参数。
对于中文查询,使用提示词:
对于英文查询,使用提示词:
相应内容在 DeepSeek 官方 GitHub 的 README 文档中也有更新,感兴趣的小伙伴可以进一步了解下~
DeepSeek 官方 GitHub:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/README.md
同一天,OpenAI 也公布了 推理模型的最佳实践
巧的是,就在同一天的早些时候,OpenAI 也发布了官方指南,汇总了使用 o 系列模型的最佳实践。
包括推理模型与非推理模型之间的区别、何时使用推理模型、以及如何有效地使用提示来引导推理模型。
️推理模型与 GPT 模型
OpenAI 介绍道,与 GPT 模型相比,o 系列模型在不同任务上表现出色,且需要使用不同的提示。
这两类模型没有优劣之分——它们各有所长。
o 系列模型更像是一个「规划者」,能深入思考复杂任务;相比之下,GPT 模型则是一个「执行者」,能直接执行任务,延迟低、性价比更高。
在不同情况下,具体选择哪个模型,推荐如下。
️速度和成本:选择 GPT 模型,因为它们处理速度更快,成本更低
️执️行明确任务:选择 GPT 模型,它们在处理界定清晰的任务时表现出色
️准确性和可靠性:选择 o 系列模型,它们是可靠的决策专家
️复杂问题解决:选择 o 系列模型,它们善于处理模糊和复杂的问题
大多数AI工作流,可以使用二者的结合。
️何时使用推理模型
OpenAI 列出了一些从客户和内部观察到的成功使用模式,是一些针对 o 系列模型的实用指导。
️1. 处理模糊任务
推理模型特别擅长处理信息有限或零散的情况,只需通过简单的提示词就能理解用户意图并妥善处理指令中的信息缺口。
值得注意的是,推理模型通常会在做出未经验证的猜测或填补信息空缺之前,主动提出澄清性问题。
️2. 大海捞针
当需要处理大量非结构化信息时,推理模型特别擅长理解内容并精准提取出回答问题所需的关键信息。
比如,AI 金融平台发现,为了分析一家公司的收购,o1 审查数十份文件(合同和租赁协议),找到了可能影响交易的复杂条款
️3. 在大型数据集中发现关系和细微差别
税务研究平台发现,o1 在综合多个文档的推理上表现要好得多
推理模型还特别擅长理解细微的政策和规则,并将其准确应用于具体任务中以得出合理结论。
投资管理 AI 平台提问:融资如何影响现有股东,尤其是在行使反稀释权的情况下?o1和 o3-mini 完美完成任务,而顶级财务分析师需要花 20-30 分钟计算
️4. 多步骤AI智能体规划
推理模型在AI智能体规划和策略制定中发挥着关键作用。
将推理模型作为「计划者」时效果显著:它能为问题制定详细的多步骤解决方案,并根据具体需求(高智能或低延迟)选择和分配合适的 GPT 模型(执行者)来完成各个步骤。
o1 很擅长选择数据类型,将大问题分解为小块
️5. 视觉推理能力
截至目前,o1 是唯一一个具备视觉处理能力的推理模型。
与 GPT-4o 相比,o1 的独特优势在于它能够准确理解最具挑战性的视觉内容,包括结构不规则的图表和表格,以及质量欠佳的图片。
SafetyKit 会自动化审核数百万种产品的风险与合规性,包括奢侈品仿制品、濒危物种以及受管制物品。最困难的图像分类任务上,o1 达到了 88% 的准确性
最令人惊喜的发现是,o1 能够自动关联不同图纸之间的信息:它可以将建筑图纸某页的图例信息正确应用到其他页面,而无需特别指示。
️6. 代码审查、调试和质量改进
推理模型在审查和改进大规模代码方面表现突出。考虑到这类模型的较高延迟特性,通常将代码审查任务安排在后台运行。
虽然 GPT-4o 和 GPT-4o mini 凭借较低的延迟可能更适合直接编写代码,但在那些对延迟要求相对不那么严格的代码生成场景中,o3-mini 表现同样出色。
Windsurf 发现,o3-mini 非常擅长计划和只需复杂的软件设计系统
️7. 评估和基准测试其他模型的响应
OpenAI 还发现,推理模型在对其他模型的输出进行基准测试和评估方面表现优异。
数据验证对确保数据集的质量和可靠性至关重要,这一点在医疗保健等敏感领域尤其重要。
传统验证方法主要依赖预设规则和模式,而 o1 和 o3-mini 等先进模型则能够理解上下文并进行数据推理,从而提供更灵活、更智能的验证方案。
️如何编写推理模型的 prompt
推理模型在处理简明直接的提示词时表现最佳。某些提示工程(如要求模型「一步一步思考」)可能并不会提升性能,有时反而会降低效果。
简单来说,你可以可以这样理解:
推理模型就像一位经验丰富的高级同事——你只需告诉他们最终目标,就能相信他们自主完成所有细节工作。
GPT 模型则更像一位新手同事——你需要提供明确详细的指示,才能让他们准确完成特定的输出任务。
构建 prompt 的具体建议如下:
️用开发者消息取代系统消息:自 o1-2024-12-17 版本起,推理模型开始支持开发者消息(developer message)而非系统消息(system message)。
️保持提示词简洁明确:推理模型最擅长理解和响应简短、清晰的指令。
️避免使用 CoT 提示:由于模型内置推理能力,因此无需特别提示它们「一步一步思考」或「解释推理过程」。
️善用分隔符增强清晰度:使用 Markdown、XML 标签和章节标题等分隔符来明确区分输入的不同部分,这有助于模型准确理解各个章节的内容。
️优先尝试零样本学习:推理模型通常无需少样本示例即可产出优质结果,因此建议先尝试不含示例的提示词。如果对输出结果有更复杂的要求,再考虑在提示词中添加输入和期望输出的示例。请注意确保示例与提示词指令严格匹配,因为不一致可能导致性能下降。
️提供明确约束条件:如果需要对模型的响应施加具体限制(例如「提供预算控制在 500 美元以内的解决方案」),请在提示词中明确列出这些约束条件。
️明确定义目标:在指令中,请详细说明判定响应成功的具体参数,并引导模型持续优化推理过程,直到达成设定的成功标准。
️Markdown 格式说明:从 o1-2024-12-17 版本开始,API中的推理模型默认不会生成带有Markdown格式的响应。如果确实需要在响应中包含Markdown格式,请在开发者消息的首行添加「Formatting re-enabled」字符串。
以下是代码重构、执行规划、STEM 研究的 prompt 示例:
左右
️推理工作原理
推理模型在输入和输出token之外,还引入了推理token用于「思考」。
在生成推理token后,模型会生成可见的补全内容作为最终答案,同时从上下文中清除推理token。
下面是用户与AI助手之间多轮对话的示例。可以看到,每轮对话的输入和输出token都会被保留,而推理token则会被移除。
参考资料:
https://platform.openai.com/docs/guides/reasoning-best-practices
https://platform.openai.com/docs/guides/reasoning
️一起“