深度解读DeepSeek-原理与效应
2025-04-06
公众号️『行业报告之家』
报告共44页
️导读:️报告深入剖析了DeepSeek技术原理及其效应。报告从大语言模型发展路线图入手,回顾了从1945年ENIAC到2024年DeepSeek R1的技术演进历程,涵盖Attention、Transformer、Scaling Laws、RLHF等关键节点。DeepSeek V2-V3/R1在模型架构上创新,采用稀疏MoE模型,通过MLA、FP8训练等技术降本增效,绕过美国算力护城河。V2规模达236B参数,V3增至671B参数。R1作为推理模型,通过大规模RL训练发现Scaling Laws,采用4步法训练框架,将推理与对齐合为一体,推理能力可蒸馏至小模型。DeepSeek效应显著,引发算力价格战,打破美国AI第一梯队企业技术封闭,颠覆了对AI研发成本及中国AI水平的认知。未来展望中,AGI/ASI实现可能还需3-5个重大突破,DeepSeek R2有望推动智能驱动科学发展,为科研人员带来新机遇。