山东大学(李铁岗):DeepSeek应用与部署
今天分享的是:山东大学(李铁岗):DeepSeek应用与部署
报告共计:80页
该文档围绕DeepSeek展开,涵盖AIGC、语言模型等相关领域知识,详细介绍了DeepSeek的技术、应用、部署等方面内容。
1. 技术创新
- 模型架构:V2版本采用DeepSeekMoE,具备稀疏激活、细粒度专家共享与路由等特性,还通过MLA降低KV cache占用;V3版本在基础设施上减少流水线气泡、实现高效通信及FP8训练,引入MTP一次预测多个token,参数规模不断扩大。
- 推理模型:强化学习框架GRPO取代Value模型,降低计算和存储开销,采用多种奖励模型,避免复杂的过程奖励模型。
2. 应用场景:可赋能职场多场景,如文档制作、营销创作、代码开发、智能客服等。通过与其他工具组合,能拓展应用范式,如制作PPT、短视频、海报等。其能力涵盖多模态数据融合、领域问题建模、复杂系统建模等多个层级,拥有基础模型、深度思考、联网搜索三种模式,适用于不同任务需求。
3. 提示词工程:不同模型提示语有差异,基础模型V3适用于通用任务,提示需明确指令;深度思考模型R1强调深度推理,对提示词要求相对简洁。同时介绍了多种提示词技巧及框架,还列举了十类提示词,可满足不同应用需求。
4. 部署方案:包括本地部署蒸馏小模型、第三方UI客户管接入服务、通过云平台(如阿里云、腾讯云、华为云等)部署等多种方式。各云平台提供不同功能和优势,且都支持DeepSeek不同模型的调用,同时还介绍了API调用方法和Token用量计算方式。
5. 模型蒸馏:将大模型知识“浓缩”教给小模型,降低运算成本和硬件要求,分为数据蒸馏、Logits蒸馏、特征蒸馏,经过蒸馏得到多个小模型,提升小模型推理能力。
6. 行业应用:能为酒企、房产装修、知识产权服务、金融、跨境贸易、健康医美、智库咨询机构等行业提供市场分析、智能营销、质量控制、客户服务等多方面支持,助力行业发展 。
以下为报告节选内容