FP8模子没有再挑卡!DeepSeek推理本钱减半速率翻番
发布时间:2025-03-14 14:12
呆板之心原创作者:闻菲、张倩「国产年夜模子 + 国产引擎 + 国产芯片」的完全技巧闭环正在减速构成。跟着 DeepSeek 引燃市场对年夜模子私有化安排的热忱,模子安排的效力与本钱成为企业 AI 落地的要害瓶颈。明天,清华系科创企业清程极智与清华年夜学翟季冬教学团队结合发布开源年夜模子推理引擎「赤兔」(Chitu),率先实现了非 H 卡装备(英伟达 Hopper 架构之前的 GPU 卡及各种国产卡)运转原生 FP8 模子的冲破。在 A800 集群上的实测数据表现,用赤兔引擎安排 DeepSeek-671B 满血版推理效劳,比拟于 vLLM 安排计划,不只应用的 GPU 数目增加了 50%,并且输出速率还晋升了 3.15 倍。赤兔引擎代码已宣布至 GitHub 开源社区:https://github.com/thu-pacman/chitu赤兔 (Chitu) 开源:国产年夜模子基本设备又一里程碑以后,领有完全自立可控的 AI 技巧栈已成为国度策略性需要。DeepSeek、QwQ 等优良的国产开源年夜模子正在重塑寰球科技工业格式,但在年夜模子推理安排范畴,业界仍高度依附外洋开源东西。赤兔引擎的开源为业界供给了国产开源新抉择,也象征着「国产年夜模子 + 国产引擎 + 国产芯片」的完全技巧闭环正在减速构成。「咱们看到海内年夜模子范畴获得了明显提高,但在基本设备层面,尤其是推理引擎这一中心环节仍缺少出产级开源产物。」清程极智 CEO 汤雄超表现,「开源赤兔引擎是咱们助力海内 AI 生态建立的主要一步。」作为清华年夜学高机能盘算研讨所所长,翟季冬教学临时努力于高机能盘算与体系软件优化研讨。翟教学指出:「赤兔引擎凝固了团队多年的并行盘算与编译优化技巧积聚,目的是树立一个真正合适海内多元算力情况的高机能推理引擎,可能弥合进步模子与多样化硬件之间的差距,为中国年夜模子的工业落地供给要害支持。」本次开源的版本特殊聚焦于以后市场最急切的需要 —— 即实现 DeepSeek FP8 精度模子在存量英伟达 GPU 上的无损且高效安排。团队还流露,针对多款国产芯片特殊优化的版本也将接踵对外开源。这一冲破不只下降了年夜模子落地门槛,也为国产 AI 算力的开展带来了新的契机。赤兔引擎中心上风:全场景机能优化与架构顺应性跟着 DeepSeek V3 跟 R1 等新一代模子采取 FP8 混杂精度练习并宣布,企业面对新的安排挑衅。这些 FP8 模子针对 NVIDIA Hopper 架构(H100/H200)深度定制,在其余硬件上安排时(包含 NVIDIA 其余架构 GPU 跟国产芯片)须要停止额定的适配。「开始进的模子与最难获取的硬件绑定,这是以后企业年夜模子落地的最年夜痛点之一」汤雄超表现。跟着更新一代模子跟芯片往 FP4 等新型数据精度偏向的开展,这种代际效应将愈发明显。另一个挑衅是现有开源推理引擎对多元算力情况的支撑缺乏。以后,vLLM 等主流引擎重要针对 NVIDIA 最新架构优化,对国产芯片或较老款 GPU 的适配并不睬想。在海内企业私有化安排场景中,NVIDIA 的 Ampere 系列 GPU、国产芯片等多元算力盘踞了相称比例,这些场景亟需愈加机动的处理计划。赤兔从一开端就定位于「出产级年夜模子推理引擎」,而且充足斟酌了企业 AI 落地从小范围实验到年夜范围安排的渐进式特色,专一于供给以下主要特征:多元算力适配:不只支撑 NVIDIA 最新旗舰到旧款的多种型号,也为国产芯片供给优化支撑。全场景可伸缩:从纯 CPU 安排、单 GPU 安排到年夜范围集群安排,赤兔引擎供皇冠体育足球官网给可扩大的处理计划。临时稳固运转:可利用于现实出产情况,稳固性足以承载并发营业流量。在机能优化方面,赤兔的计划理念是「隔靴搔痒」,支撑「低耽误优化」、「高吞吐优化」跟「小显存优化」,能够依据差别场景需要,在差别硬件设置跟体系情况下,针对差别负载的特征,供给响应的最优处理计划。在现实安排中,这象征着赤兔引擎能够依pg电子娱乐平台据体系资本状态,在 GPU 应用率、内存效力跟收集传输之间寻觅最佳均衡点。
购买咨询电话
400-123-4567