阿里团队Qwen2.5-1M系列大模型技术报告

2025-03-07ASPCMS社区 - fjmyhfvclm

阿里团队Qwen2.5-1M系列大模型技术报告

报告共计:19页

该技术报告主要介绍了阿里团队的Qwen2.5-1M系列大模型,具体内容包括:

- 模型特点

- 上下文扩展:Qwen2.5-1M系列将上下文长度扩展到100万标记,显著增强了长上下文处理能力,能处理复杂的实际场景,如代码生成、文档研究等。

- 开源与API模型:发布了开源模型Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,以及API访问模型Qwen2.5-Turbo。

- 训练与优化

- 预训练

- 数据优化:结合自然和合成数据,通过Fill in the Middle、基于关键词和位置的检索、段落重新排序等合成数据任务,增强模型对远距离依赖性的理解,提高数据效率,降低计算成本。

- 培训策略:采用逐步扩展上下文长度的策略,包括五个阶段,确保模型能有效适应更长的上下文。

- 后训练

- 数据合成:使用合成的长上下文问答对进行训练,提高模型在长上下文任务上的性能。

- 两阶段微调:通过两阶段训练方案,增强模型在长上下文任务上的性能,同时不影响短任务表现。

- 强化学习:使用离线强化学习提高模型与人类偏好的一致性。

- 推理和部署

- 长度外推:采用双块关注(DCA)和YaRN中的注意力缩放方法,实现长度外推,使模型能处理超过训练长度的上下文,DCA在处理长上下文任务时能显著提升模型性能。

- 稀疏注意力推理

- 稀疏注意力机制:基于MInference实现稀疏注意力机制,加速预填充阶段,减少计算成本。

- 与分块预填充和DCA集成:将分块预填充与MInference集成,增加有限VRAM资源内的最大支持序列长度,通过恢复连续相对位置解决DCA中相对位置非连续性问题,优化稀疏配置提高准确性。

- 推理引擎优化:BladeLLM引擎针对长序列预填和解码进行优化,包括内核优化、动态分块管道并行性和调度优化,提高推理性能。

- 评估结果

- 长文本任务:Qwen2.5-1M系列模型在长文本任务中表现出色,优于128K版本模型,Qwen2.5-14B-Instruct-1M在长文本检索任务中超过GPT-4。

- 短文本任务:在短文本任务上,Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M与128K版本类似,Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任务上与GPT-4o-mini性能相当,且支持更长上下文。

- 速度比较:该方法在处理1M上下文长度时实现了3.2至6.7倍的加速,Qwen2.5-Turbo在性能和效率上具有优势。

总之,Qwen2.5-1M系列模型通过优化训练和推理部署,在长文本和短文本任务中都取得了较好的性能。

以下为报告节选内容

全部评论