云开体育拖慢通盘这个词系统；同期其他GPU因为恭候而空转-开云官网切尔西赞助商(2025已更新(最新/官方/入口)

（原标题：DeepSeek一天能赚若干钱？官方短暂揭秘！潞晨科技暂停DeepSeek API做事）

一齐难得一下对于DeepSeek的最新音尘！

DeepSeek初次走漏：表面本钱利润率545%

当市集认为DeepSeek的开源周内容发布完毕之后，3月1日，DeepSeek布告了“One More Thing”，短暂揭秘V3/R1推理系統，公开了大限制部署本钱和收益。

左证《DeepSeek-V3/R1推理系统概览》的著述，假设GPU租出本钱为2好意思元/小时，总本钱为87072好意思元/天；若是通盘tokens全部按照DeepSeek R1的订价商酌，表面上一天的总收入为562027好意思元/天，本钱利润率为545%。

据官方走漏，DeepSeek-V3/R1推理系统的优化方针是：更大的隐隐，更低的延长。

为了完毕这两个方针，DeepSeek使用大限制跨节点行家并行（Expert Parallelism / EP）。最初EP使得batch size大大增多，从而普及GPU矩阵乘法的遵守，普及隐隐。其次EP使得行家分散在不同的GPU上，每个 GPU 只需要商酌很少的行家（因此更少的访存需求），从而裁减延长。

但EP同期也增多了系统的复杂性。复杂性主要体当今两个方面：

EP引入跨节点的传输。为了优化隐隐，需要筹备符合的商酌经由使得传输和商酌不错同步进行。

EP触及多个节点，因此自然需要Data Parallelism（DP），不同的DP之间需要进行负载平衡。

因此，DeepSeek先容了怎样使用EP增大batch size，怎样荫藏传输的耗时，怎样进行负载平衡。

大限制跨节点行家并行（Expert Parallelism / EP）

由于DeepSeek-V3/R1的行门户量稠密，况兼每层256个行家中仅激活其中8个。模子的高度稀少性决定了必须遴荐很大的overall batch size，智商给每个行家提供饱和的expert batch size，从而完毕更大的隐隐、更低的延时。需要大限制跨节点行家并行（Expert Parallelism / EP）。

遴荐多机多卡间的行家并行计谋来达到以下倡导：

Prefill：路由行家EP32、MLA和分享行家DP32，一个部署单位是4节点，32个冗余路由行家，每张卡9个路由行家和1个分享行家。

Decode：路由行家EP144、MLA和分享行家DP144，一个部署单位是18 节点，32个冗余路由行家，每张卡2个路由行家和1个分享行家。

商酌通讯叠加

多机多卡的行家并行会引入相比大的通讯支出，是以使用了双batch叠加来袒护通讯支出，普及合座隐隐。

对于prefill阶段，两个batch的商酌和通讯交错进行，一个batch在进行商酌的本事不错去袒护另一个batch的通讯支出；

对于decode阶段，不同阶段的实施本事有所分离，是以把attention部分拆成了两个stage，合计5个stage的活水线来完毕商酌和通讯的叠加。

尽可能地负载平衡

由于遴荐了很大限制的并行（包括数据并行和行家并行），若是某个GPU的商酌或通讯负载过重，将成为性能瓶颈，拖慢通盘这个词系统；同期其他GPU因为恭候而空转，酿成合座诳骗率着落。因此需要尽可能地为每个GPU分派平衡的商酌负载、通讯负载。

PrefillLoadBalancer

中枢问题：不同数据并行（DP）实例上的申请个数、长度不同，导致core-attention商酌量、dispatch发送量也不同。

优化方针：各GPU的商酌量尽量疏导（core-attention商酌负载平衡）、输入的token数目也尽量疏导（dispatch发送量负载平衡），幸免部分GPU处理本事过长。

DecodeLoadBalancer

中枢问题：不同数据并行（DP）实例上的申请数目、长度不同，导致core-attention商酌量（与KVCache占用量关系）、dispatch发送量不同。

优化方针：各GPU的KVCache占用量尽量疏导（core-attention商酌负载平衡）、申请数目尽量疏导（dispatch发送量负载平衡）。

Expert-ParallelLoadBalancer

中枢问题：对于给定MoE模子，存在一些自然的高负载行家（expert），导致不同GPU的行家商酌负载不平衡。

优化方针：每个GPU上的行家商酌量平衡（即最小化通盘GPU的dispatch摄取量的最大值）。

线上系统的内容统计数据

DeepSeekV3和R1的通盘做事均使用H800GPU，使用和考试一致的精度，即矩阵商酌和dispatch传输遴荐和考试一致的FP8措施，core-attention商酌和combine传输遴荐和考试一致的BF16，最猛进度保证了做事后果。

另外，由于日间的做事负荷高，晚上的做事负荷低，因此完毕了一套机制，在日间负荷高的本事，用通盘节点部署推理做事。晚上负荷低的本事，减少推理节点，以用来作念筹商和考试。在最近的24小时里（北京本事2025/02/27 12:00至2025/02/28 12:00），DeepSeek-V3和R1推理做事占用节点总和，峰值占用为278个节点，平均占用226.75个节点（每个节点为8个H800GPU）。假设GPU租出本钱为2好意思金/小时，总本钱为87072好意思元/天。

在24小时统计时段内，DeepSeek-V3和R1：

输入token总额为608B，其中342Btokens（56.3%）射中KVCache硬盘缓存。

输出token总额为168B。平均输出速度为20~22tps，平均每输出一个token的KVCache长度是4989。

平均每台H800的隐隐量为：对于prefill任务，输入隐混沌73.7ktokens/s（含缓存射中）；对于decode任务，输出隐混沌14.8ktokens/s。

以上统计包括了网页、APP和API的通盘负载。若是通盘tokens全部按照DeepSeek-R1的订价商酌，表面上一天的总收入为562027好意思元，本钱利润率为545%。固然内容上莫得这样多收入，因为V3的订价更低，同期收费做事只占了一部分，另外夜间还会有扣头。

有网友将DeepSeek与OpenAI进行对比，示意：“‘本钱利润率545%’，等一下，是以你是说我被OpenAI掠夺了？”

潞晨科技暂停DeepSeek API做事

就在DeepSeek走漏大限制部署本钱和收益之后，潞晨科技短暂布告：“尊敬的用户，潞晨云将在一周后罢手提供DeepSeek API做事，请尽快用完您的余额。若是没用完，咱们全额退款。”

此前2月4日晚间，华为商酌微信公众号发文示意，DeepSeek-R1系列模子的开源，因其出色的性能和便宜的成立本钱，已激发世界的病笃究诘和难得。潞晨科技联袂昇腾，融合髻布基于昇腾算力的DeepSeek-R1系列推理API，及云镜像做事。

但近期潞晨科技CEO尤洋指出，满血版DeepSeek-R1每百万token（输出）订价16元，若是逐日输出1000亿token，一个月算下来接入方企业可获取4800万元收入。据他测算，完成1000亿token的输出，需要约4000台搭载H800的机器，以咫尺H800的市价约略折旧来商酌，每月仅机器本钱就达4.5亿元，因此企业方可能濒临每月4亿元的蚀本，“用户越多，做事本钱越高，蚀本越多”。

3月1日下昼4点，潞晨科技CEO尤洋发文报恩DeepSeek公布的表面本钱利润率。

公开贵府浮现，潞晨科技是一家长途于“摆脱AI坐蓐力”的世界性企业，团队中枢成员来自好意思国加州大学伯克利分校，斯坦福大学，清华大学，北京大学等国表里闻明高校。主交易务包括分散式软件系统，大限制东说念主工智能平台，以及企业级云商酌惩办决策。公司旨在打造一个开源低本钱AI大模子成立系统Colossal-AI云开体育，当作深度学习框架的内核，匡助企业最大化东说念主工智能考试遵守的同期最小化东说念主工智能的考试本钱。