DeepSeek~V3模型发布,AI军备竞赛持续
DeepSeek-V3模型发布,极致性价比打破算力制约
2024年12月26日,幻方量化旗下的公司深度求索(DeepSeek)发布DeepSeek-V3版本大模型。根据官方的技术报告披露,DeepSeek-V3模型采用MoE架构,参数量达到671B,具备极致的性价比:
1)经济效益凸显,打破算力制约:根据技术报告披露,DeepSeek-V3在预训练阶段,在每万亿tokens上训练仅需18万H800 GPU hour,即拥有2048个H800 GPU的集群上仅需3.7天。因此,预训练阶段在不到两个月的时间内完成,耗时266.4万GPU hour。结合11.9万GPU hour的上下文长度扩展和5000 GPU hour的后训练,DeepSeek-V3的完整训练仅需278.8万GPU hour。技术文档假设H800 GPU的租用价格为每GPU hour 2美元,该模型的总训练成本仅为557.6万美元。这一训练成本大大低于其他的海外模型如Llama-3.1、GPT-4o、Claude-3.5等,具有非常强的经济性。
2)极致性价比,成本下降同时能力提升:根据技术报告披露,DeepSeek-V3率先采用了无辅助损失的负载均衡策略,最大限度地减少了因鼓励负载均衡而导致的性能下降。在预训练阶段,模型设计了一个FP8混合精度训练框架,通过算法、框架和硬件的协同设计,克服了跨节点MoE训练中的通信瓶颈,实现了近乎完全的计算通信重叠。这显著提高了训练效率并降低了训练成本。在后训练阶段,将推理能力从DeepSeek R1系列中的模型提取到DeepSeek-V3中。DeepSeek-V3的多项评测成绩超越Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和头部的闭源模型GPT-4o以及Claude-3.5-Sonne。
利好国产算力和国内AI应用。我们认为DeepSeek-V3的发布,表明在有限算力的情况下,可以实现较好的模型能力,利好国产算力需求的提升,以及加速国内AI应用的发展,关注国产算力:寒武纪、海光信息、中科曙光、神州数码、浪潮信息等;国内AI应用:鼎捷数智、汉得信息、金山办公、科大讯飞、迈富时、佳发教育、万兴科技、美图公司等。
小米加大AI模型投入,军备竞赛持续
2024年12月26日,根据财联社报告,小米正在着手搭建自己的GPU万卡集群,将对AI大模型大力投入。我们认为小米入局表明AI军备竞赛持续,一方面利好算力投入,另一方面AI手机、智能驾驶、AI可穿戴设备等端侧AI或将成为小米重点布局的领域,建议关注相应投资机会。
风险提示:1)宏观经济变化影响企业信息化支出;2)财政与货币政策低于预期;3)供应链波动加大,影响科技产业发展。