英伟达已适配 DeepSeek-V4 AI 模型,GB200 NVL72 开箱性能超 150 tokens / sec / user
2026-04-25 16:25:04
来源:
IT之家
IT之家4 月 25 日消息,英伟达今天(4 月 25 日)发布博文,宣布其 NVIDIA Blackwell 平台已适配 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两款模型,开发者可通过 NVIDIA NIM 微服务下载部署,或利用 SGLang 与 vLLM 框架进行定制化推理。
英伟达在博文指出,DeepSeek-V4-Pro 拥有 1.6T 总参数量与 49B 激活参数,定位高级推理任务;DeepSeek-V4-Flash 版本则为 284B 总参数量与 13B 激活参数,主打高速高效场景。

两款模型均支持 100 万 Token 上下文窗口与最高 38.4 万 Token 输出长度,覆盖长文本编码、文档分析等核心应用,并采用 MIT 开源协议。
实测数据显示,DeepSeek-V4-Pro 在 NVIDIA GB200 NVL72 上开箱即用性能超 150 tokens / sec / user,借助 vLLM 的 Day 0 配方,开发者可在 Blackwell B300 上快速部署。随着 Dynamo、NVFP4 及 CUDA 内核的深度优化,预期性能将进一步提升。

部署生态方面,开发者可通过 NVIDIA NIM 微服务下载部署,或利用 SGLang 与 vLLM 框架进行定制化推理。SGLang 提供低延迟、均衡及最大吞吐量三种配方;vLLM 则支持多节点扩展至 100 个以上 GPU,具备工具调用与推测解码能力。
AI智能分析该文,为您挖掘投资机会该AI功能处于试用阶段,内容仅供参考,请仔细甄别!
展开 

全部评论
机会情报
- 银行股迎来“黄金买点”?摩根大通预计下半年潜在涨幅高达15%,股息率4.3%成“香饽饽”
- 华润电力光伏组件开标均价提升,产业链涨价传导顺利景气度望修复
- 我国卫星互联网组网速度加快,发射间隔从早期1-2个月显著缩短至近期的3-5天
- 光伏胶膜部分企业上调报价,成本增加叠加供需改善涨价空间望打开
- 广东研究通过政府投资基金支持商业航天发展,助力商业航天快速发展
- 折叠屏手机正逐步从高端市场向主流消费群体渗透
- 创历史季度新高!二季度全球DRAM市场规模环比增长20%
- 重磅!上海加速推进AI+机器人应用,全国人形机器人运动会盛大开幕,机器人板块持续爆发!
- 重磅利好!个人养老金新增三大领取条件,开启多元化养老新时代,银行理财产品收益喜人!
- 重磅突破!我国卫星互联网组网速度创新高,广东打造太空旅游等多领域应用场景,商业航天迎来黄金发展期!
