阿里团队Qwen2.5-1M系列大模型技术报告

2025-03-07ASPCMS社区 - fjmyhfvclm

报告共计：19页

该技术报告主要介绍了阿里团队的Qwen2.5-1M系列大模型，具体内容包括：

- 模型特点

- 上下文扩展：Qwen2.5-1M系列将上下文长度扩展到100万标记，显著增强了长上下文处理能力，能处理复杂的实际场景，如代码生成、文档研究等。

- 开源与API模型：发布了开源模型Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M，以及API访问模型Qwen2.5-Turbo。

- 训练与优化

- 预训练

- 数据优化：结合自然和合成数据，通过Fill in the Middle、基于关键词和位置的检索、段落重新排序等合成数据任务，增强模型对远距离依赖性的理解，提高数据效率，降低计算成本。

- 培训策略：采用逐步扩展上下文长度的策略，包括五个阶段，确保模型能有效适应更长的上下文。

- 后训练

- 数据合成：使用合成的长上下文问答对进行训练，提高模型在长上下文任务上的性能。

- 两阶段微调：通过两阶段训练方案，增强模型在长上下文任务上的性能，同时不影响短任务表现。

- 强化学习：使用离线强化学习提高模型与人类偏好的一致性。

- 推理和部署

- 长度外推：采用双块关注（DCA）和YaRN中的注意力缩放方法，实现长度外推，使模型能处理超过训练长度的上下文，DCA在处理长上下文任务时能显著提升模型性能。

- 稀疏注意力推理

- 稀疏注意力机制：基于MInference实现稀疏注意力机制，加速预填充阶段，减少计算成本。

- 与分块预填充和DCA集成：将分块预填充与MInference集成，增加有限VRAM资源内的最大支持序列长度，通过恢复连续相对位置解决DCA中相对位置非连续性问题，优化稀疏配置提高准确性。

- 推理引擎优化：BladeLLM引擎针对长序列预填和解码进行优化，包括内核优化、动态分块管道并行性和调度优化，提高推理性能。

- 评估结果

- 长文本任务：Qwen2.5-1M系列模型在长文本任务中表现出色，优于128K版本模型，Qwen2.5-14B-Instruct-1M在长文本检索任务中超过GPT-4。

- 短文本任务：在短文本任务上，Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M与128K版本类似，Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任务上与GPT-4o-mini性能相当，且支持更长上下文。

- 速度比较：该方法在处理1M上下文长度时实现了3.2至6.7倍的加速，Qwen2.5-Turbo在性能和效率上具有优势。

总之，Qwen2.5-1M系列模型通过优化训练和推理部署，在长文本和短文本任务中都取得了较好的性能。

以下为报告节选内容