阿里团队Qwen2.5-1M系列大模型技术报告
阿里团队Qwen2.5-1M系列大模型技术报告
报告共计:19页
该技术报告主要介绍了阿里团队的Qwen2.5-1M系列大模型,具体内容包括:
- 模型特点
- 上下文扩展:Qwen2.5-1M系列将上下文长度扩展到100万标记,显著增强了长上下文处理能力,能处理复杂的实际场景,如代码生成、文档研究等。
- 开源与API模型:发布了开源模型Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,以及API访问模型Qwen2.5-Turbo。
- 训练与优化
- 预训练
- 数据优化:结合自然和合成数据,通过Fill in the Middle、基于关键词和位置的检索、段落重新排序等合成数据任务,增强模型对远距离依赖性的理解,提高数据效率,降低计算成本。
- 培训策略:采用逐步扩展上下文长度的策略,包括五个阶段,确保模型能有效适应更长的上下文。
- 后训练
- 数据合成:使用合成的长上下文问答对进行训练,提高模型在长上下文任务上的性能。
- 两阶段微调:通过两阶段训练方案,增强模型在长上下文任务上的性能,同时不影响短任务表现。
- 强化学习:使用离线强化学习提高模型与人类偏好的一致性。
- 推理和部署
- 长度外推:采用双块关注(DCA)和YaRN中的注意力缩放方法,实现长度外推,使模型能处理超过训练长度的上下文,DCA在处理长上下文任务时能显著提升模型性能。
- 稀疏注意力推理
- 稀疏注意力机制:基于MInference实现稀疏注意力机制,加速预填充阶段,减少计算成本。
- 与分块预填充和DCA集成:将分块预填充与MInference集成,增加有限VRAM资源内的最大支持序列长度,通过恢复连续相对位置解决DCA中相对位置非连续性问题,优化稀疏配置提高准确性。
- 推理引擎优化:BladeLLM引擎针对长序列预填和解码进行优化,包括内核优化、动态分块管道并行性和调度优化,提高推理性能。
- 评估结果
- 长文本任务:Qwen2.5-1M系列模型在长文本任务中表现出色,优于128K版本模型,Qwen2.5-14B-Instruct-1M在长文本检索任务中超过GPT-4。
- 短文本任务:在短文本任务上,Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M与128K版本类似,Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任务上与GPT-4o-mini性能相当,且支持更长上下文。
- 速度比较:该方法在处理1M上下文长度时实现了3.2至6.7倍的加速,Qwen2.5-Turbo在性能和效率上具有优势。
总之,Qwen2.5-1M系列模型通过优化训练和推理部署,在长文本和短文本任务中都取得了较好的性能。
以下为报告节选内容