英伟达GPU参数速查表

NVIDIA GPU参数速查表 | 更新日期:20251129
GPU型号产品架构产品形态算力情况,挂*为稀疏值显存显存带宽GPU互联详细参数
GB300Blackwell
Ultra
多芯组合,2个B300和1个Grace CPUFP4:30/38.9P*
FP8:10/20P*
FP16:5/10P*
TF32:2.5/5P*
576G HBM3e16TB/sNvlink 2x1.8TB/s查看
B300Blackwell
Ultra
SXMFP4:15/17.5P?*
FP8:4.5/9P*
FP16:2.25/4.5P*
TF32:1.12/2.25P*
FP64:40T
288G HBM3e8TB/sNvlink 1.8TB/s查看
GB200Blackwell多芯组合,2个B200和1个Grace CPUFP4:20/40P*
FP8:10/20P*
FP16:5/10P*
TF32:2.5/5P*
FP64:90T
384G HBM3e16TB/sNvlink 2x1.8TB/s查看
B200BlackwellSXMFP4:9/18P*
FP8:4.5/9P*
FP16:2.25/4.5P*
TF32:1.12/2.25P*
FP64:40T
192G HBM3e8TB/sNvlink 1.8TB/s查看
B100BlackwellSXMFP16:1.8/3.5P*
TF32:0.9/1.8P*
FP64:30T
192G HBM3e8TB/sNvlink 1.8TB/s查看
H20标准款HopperSXMINT8和FP8:296T
FP16:148T
TF32:59.8T
96G HBM34TB/sNVlink 900GB/s查看
H20大显存HopperSXMINT8和FP8:296T
FP16:148T
TF32:59.8T
141G HBM3e4.8TB/sNVlink 900GB/s
H200HopperSXMFP8和INT8:1/2P*
FP16:1/2P*
TF32:495/989T*
FP64:67T
141G HBM3e4.8TB/sNvlink 900GB/s查看
RTX 4090AdaPCIeFP16:165T/330T*
TF32:82.6/165.2T*
源于AutoDL官网
24G GDDR6x
新增48G
1TB/s64GB/s查看
RTX 4090DAdaPCIeFP16:147/294T*
TF32:73.54/147T*
源于AutoDL官网
24G GDDR6x1TB/s64GB/s查看
RTX 5090BlackwellPCIe 5.0FP16:210T/420T?
TF32:108T
源自网络,供参考
32G GDDR71.8TB/sPCIe 128GB/s查看
RTX 5090DBlackwellPCIe 5.0FP16:150/297T*?
TF32:未找到
源自网络,供参考
32G GDDR71.8TB/sPCIe 128GB/s查看
H100HopperSXMFP8和INT8:1/2P*
FP16:1/2P*
TF32:495/989T*
FP64:67T
80G HBM33.35TB/sNvlink 900GB/s查看
H100HopperPCIeFP16:0.8/1.6P*
TF32:378/756T*
FP64:51T
80G HBM32TB/sPCIe 128GB/s查看
H800HopperSXMFP16:1/2P*
TF32:495/989T*
FP64:1T
80G HBM33.35TB/sNvlink 400GB/s查看
H800HopperPCIeFP16:0.8/1.6P*
TF32:378/756T*
FP64:0.8T
80G HBM32TB/sPCIe 128GB/s查看
A100AmpereSXMFP16:0.3/0.6P*
TF32:156/312T*
FP64:19.5T
80GHBM2e2TB/sNvlink 600GB/s查看
A100AmperePCIeFP16:0.3/0.6P*
TF32:156/312T*
FP64:19.5T
80GB HBM2e2TB/sPCIe 64GB/s查看
A800AmpereSXMFP16:0.3/0.6P*
TF32:156/312T*
FP64:19.5T
80GHBM2e2TB/sNvlink 400GB/s查看
A800AmperePCIeFP16:0.3/0.6P*
TF32:156/312T*
FP64:19.5T
80GB HBM2e2TB/sPCIe 64GB/s查看
L40SAdaPCIeFP16:366/733T*
TF32:181/366*
48G GDDR6x864GB/s64GB/s查看
L40AdaPCIeFP16:181/362T*
TF32:90.5/181*
48G GDDR6x864GB/s64GB/s查看
L20AdaPCIeFP16:119.5T
TF32:59.8T
48G GDDR6x864GB/s64GB/s查看
A40AmperePCIe

FP16:149.7/299.4*

TF32:74.8/149.6*

48G GDDR6x696GB/s

Nvlink

112GB/s

PCIe

64GB/s

查看
L4AdaPCIeFP16:121/242T*
TF32:60.5/121*
24G GDDR6x300GB/s64GB/s查看
L2AdaPCIeFP16:96.5T
TF32:48.3T
24G GDDR6x300GB/s64GB/s查看
V100VoltaPCIe

FP16:32.71T
FP32:16.35T
FP64:8.177T

16/32G HBM21.13TB/s

Nvlink

300GB/s

PCIe

32GB/s

查看

T4

TuringPCIe

FP16:65.13T
FP32:8.141T
FP64:254.4G

16G GDDR6x320GB/s32GB/s查看

请注意:以上内容根据公开数据整理,建议在决策前访问NVIDIA官方网站获取最权威和最新的数据!


1. FLOPS 到底是什么?

FLOPS 的全称是Floating-Point Operations Per Second,翻译过来就是「每秒浮点运算次数」
简单理解:它就像 GPU 的「算数速度表」,1 FLOPS 意味着 GPU 每秒能完成 1 次小数的加减乘除运算;这个数字越大,说明 GPU 的算数能力越强,处理海量数据的速度就越快。
为什么偏偏用它?因为 GPU 的核心使命,就是处理 AI 训练、科学计算、图形渲染这类「需要疯狂算数」的场景——比如跑大模型时,要同时计算上亿个参数,这时候「每秒能算多少次」,就成了最关键的能力指标。

2. 常见单位: K/M/G/T/P 

GPU 算力越来越强,单靠 FLOPS 已经不够用,于是就有了这些「量级单位」,记住换算逻辑,看参数就像看体重一样简单:
「K」= 千:KFLOPS = 每秒 1000 次浮点运算(入门级,现在基本不用)
「M」= 百万:MFLOPS = 每秒 100 万次浮点运算(早期低端显卡)
「G」= 十亿:GFLOPS = 每秒 10 亿次浮点运算(中端显卡入门)
「T」= 万亿:TFLOPS = 每秒 1 万亿次浮点运算(现在主流 GPU 核心单位)
「P」= 千万亿:PFLOPS = 每秒 1000 万亿次浮点运算(超算、GPU 集群级别)
举个直观例子:NVIDIA H100 显卡的峰值算力约 1000 TFLOPS(FP8 精度),意思就是——这张卡每秒能完成 1000 万亿次小数运算,相当于每秒能算完普通人一辈子都算不完的题目。

FP 缩写:FP = Floating-Point,中文意思是「浮点型」,简单说就是「带小数的数字类型」,用来表示有小数点的数值(比如 3.14、0.001),是 GPU 处理算数运算时的核心数据格式。  FP32 / FP16 / FP8 含义(按精度从高到低):  

FP32(单精度):精度最高、速度最慢、算力最低。适合科学计算、高精度仿真、传统图形渲染(比如工业设计、影视后期),追求“算得准”,不追求“算得快”。
FP16 / BF16(半精度):AI 领域最常用的精度。精度足够支撑大模型训练,速度比 FP32 快很多,是目前主流显卡的“主力精度”。
FP8(8位精度):专为大模型加速设计。精度比 FP16 低,但速度暴增,算力数字直接翻倍,适合大模型训练和推理的“提速场景”。
INT8 / INT4(整数精度):精度最低、速度最快、算力最高。适合模型推理、图像识别、语音识别等场景,主打“又快又省”,不用追求高精度,只需要快速输出结果。


参考:

anzhihe 安志合个人博客,版权所有 丨 如未注明,均为原创 丨 转载请注明转自:https://chegva.com/6562.html | ☆★★每天进步一点点,加油!★★☆ | 

您可能还感兴趣的文章!

2 评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注