DeepSeek基础知识

2025-03-03ASPCMS社区 - fjmyhfvclm

DeepSeek由梁文峰于2023年7月创立,团队成员多来自国内顶尖高校,专注于通用人工智能技术研发应用。自2024年1月起,陆续发布多个大模型,其中DeepSeek-V3和DeepSeek-R1系列备受关注。

DeepSeek-V3是高性能、低成本的开源通用语言模型,参数规模达6710亿,处理单token时仅激活370亿参数,训练成本为278.8万H800 GPU小时,远低于同类模型。在数学推理、代码生成、常识推理等基准测试中表现出色,接近或超越GPT-4 Turbo等顶尖模型,生成吐字速度提升至60TPS。它采用多头潜在注意力和DeepSeekMoE架构,结合无辅助损失策略、多token预测训练目标、FP8混合精度训练等技术,支持千卡级训练,推理环节通过独特策略提升资源利用率。

DeepSeek-R1和DeepSeek-R1-Zero是基于DeepSeek-V3混合专家架构的开源推理大模型。R1-Zero完全依赖强化学习训练,跳过监督微调,探索纯RL的可行性,出现“顿悟”现象;R1在其基础上引入冷启动数据和多阶段优化,结合监督微调与强化学习,提升输出质量,适用于实际场景。R1在数学、代码、自然语言推理等任务上性能比肩OpenAI o1正式版,在Chatbot Arena基准测试中排名全类别大模型第三。其训练方法亮点突出,通过重新设计流程降低内存占用和计算开销,采用多种奖励机制,采用“思考-回答”训练模板,支持蒸馏技术和开放思维链输出。

DeepSeek大模型在市场上引发巨大反响,DeepSeek App上线后日活跃用户增长迅速,在多个国家的应用商店排名领先。其出现改变了AI技术发展方向,打破算力至上认知,提升算法创新地位;改变全球AI格局,威胁美国AI领导地位,缩小中美差距,提升国产AI产业链信心;加速AI端侧应用落地,降低大模型价格,推动应用普及;冲击AI算力供给关系,长期看将增加算力需求;引领开源力量发展,吸引开发者,冲击闭源模型市场。众多云厂商、运营商和生态链企业纷纷接入DeepSeek,应用场景广泛,涵盖文本生成、自然语言处理、代码编程、图表绘制等领域,不同版本的模型适用于不同需求的任务场景。

免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系

全部评论