nvidia-gpu

工欲善其事必先利其器,在深度学习时代下,了解每一种显卡的定位就尤为重要了

我初步将深度学习的nvidia显卡划分成了一下几种

  • 训练卡(AI train)
  • 推理卡(AI Infer)
  • 通用计算卡(HPC)

由于通用计算卡目前的市场需求逐渐变小,云服务商也主要提供AI算力,固不列通用计算卡

一些太老的卡就不统计了,只列目前云服务厂商的服务器还普遍使用的卡,消费级显卡就不列了

nvidia-gpu架构发展

1. Pascal(2016)

架构:Pascal

● 特点:大幅提升 FP32 / FP64,首次引入 NVLink
● 典型卡:

  • Tesla P100(HBM2,高性能计算)
  • Tesla P40(推理优化)

2. Volta(2017)

架构:Volta

● 特点:首次引入 Tensor Core(FP16 AI加速)
● 典型卡:

  • Tesla V100(行业旗舰训练卡)
  • Tesla V100S(强化版)
  • 推理卡:Tesla T4(Volta Turing 混合时代,低功耗推理王者)

3. Turing(2018)

架构:Turing

● 特点:INT8/INT4 推理增强
● 典型卡:

  • T4(最典型的云推理卡)【原 Tesla T4】

4. Ampere(2020)

架构:Ampere

● 特点:第三代 Tensor Core、TF32、稠密/稀疏加速
● 典型卡:

⭐训练卡:

  • A100(旗舰训练/推理/HPC 三合一)
  • A100 PCIe / A100 SXM4

⭐推理卡:

  • A10, A30(推理+轻训练)
  • A2(低功耗)

5. Hopper(2022)

架构:Hopper

● 特点:Transformer Engine、FP8、超大带宽 NVLink
● 典型卡:

  • H100 PCIe / SXM5(AI 旗舰,FP8)
  • H100 NVL(双GPU NVLink,Llama/GPT 推理)

6. Ada Lovelace(2023)

架构:Ada

● 特点:更高效能比,专注推理
● 典型卡:

  • L4(云推理主力)
  • L40 / L40S(AI 推理 + 渲染)

7. Blackwell(2024-2025)

架构:Blackwell(B100 / B200 / GB200)

● 特点:第2代 Transformer Engine、FP4、AI 超算时代
● 典型卡:

  • B100(AI 训练/推理旗舰)
  • B200(性能更强)
  • GB200 NVL36 / GB200 NVL72(Grace+Blackwell 超级 GPU 组合)

典型推理卡

现在各大云厂商在 NVIDIA 推理卡 上,大致是这样一条线:

Turing:T4 → Ampere:A10 → Ada:L4/L40(L40S)
其中 A100/H100/H20/H200、B200/GB200 这一类是**“训推一体的大模型卡”**,也大量用于推理。(Qiita)

1)Pascal 架构 —— P4(老牌推理卡,主要在 GCP)

NVIDIA Tesla P4:当年就是为视频和在线推理做的卡(Google Cloud)

卡 / 架构 AWS Azure Google Cloud 阿里云 腾讯云 Oracle Cloud
P4 (Pascal) 基本不对外主推(AWS 的 P4d 是 A100,不是 P4)(Amazon Web Services, Inc.) 官方现在主推 T4/A10/L4/H100 等,新建项目几乎不会再用 P4 仍可在 N1+P4 模式挂载使用,用于老系统推理/视频等(Google Cloud Documentation) 官方 GPU 实例家族文档已不再突出 P4,主推 T4/A10 以及新一代 LLM 实例(AlibabaCloud) 文档中主推的是 T4/V100/A100/H 系列,未见 P4 新实例(tencentcloud.com) 现有 shape 文档主要列 A10/A100/L40S 等,新项目不会再选 P4(Oracle Docs)

P4 为“存量/兼容”,不是新项目推荐。


2)Turing 架构 —— T4(云推理“神卡”)

NVIDIA T4 / Tesla T4:70W、16GB,云上经典推理卡(Amazon Web Services, Inc.)

卡 / 架构 AWS Azure Google Cloud 阿里云 腾讯云 Oracle Cloud
T4 (Turing) EC2 G4/G4dn:主打“最低成本推理 + 小规模训练”(Amazon Web Services, Inc.) NCasT4_v3 系列:最多 4×T4,官方定位实时推理/AI 服务部署(Microsoft Learn) Compute Engine 支持 T4 GPU,且 G4 系列面向“成本优化的 ML 推理”(Google Cloud Documentation) vGPU 实例族提供 Tesla T4(可 1/4 / 1/2 切分),用于并发推理和图形业务(AlibabaCloud) GN7 机型明确使用 Tesla T4(16GB),适合实时推理等高并发任务(tencentcloud.com) 公开的 shape 主要是 A10/A100/L40S 等;T4 不再是主打产品(Oracle Docs)

可在表里给 T4 标注:“传统云推理主力(2019–2023),很多厂商仍大量在用”


3)Ampere 架构 —— A10 为主,A2/A30/A40 辅助

卡 / 架构 AWS Azure Google Cloud 阿里云 腾讯云 Oracle Cloud
A10 (Ampere) EC2 G5:最多 8×A10G,官方说适合训练+推理(NLP、CV、推荐等)(Amazon Web Services, Inc.) NVadsA10_v5:A10 + EPYC Milan,可做 vGPU,适合图形 + 推理场景(Microsoft Learn) 官方 GPU 列表重点在 A100/H100/T4/L4,A10 比较少被单独突出(更多是历史 G 系列里用过)(Google Cloud Documentation) gn 系列实例使用 A10,文档点名支持 vGPU、TensorRT 等以承载 AI 推理任务(AlibabaCloud) 公共文档主推 T4/V100/A100/H 系列,A10 用途相对低调(可以在表中标“可能通过部分 GPU 实例提供”)(tencentcloud.com) BM.GPU.A10:24GB A10 Tensor Core GPU,适合作为中端推理/渲染卡(Oracle Docs)

4)Ada 架构 —— L4 / L40 / L40S

这里是新一代推理主力,尤其是 L4

卡 / 架构 AWS Azure Google Cloud 阿里云 腾讯云 Oracle Cloud
L4 (Ada) EC2 G6:最多 8×L4,支持 1/8 卡切分,官方定位“成本优化的 ML 推理与图形”(Amazon Web Services, Inc.) Azure Learn 目前主要从 vGPU / Azure Local 的角度支持 L4/L40/L40S(公有云主线 VM 还以 A10/T4/H100 等为主)(NVIDIA Docs) G2 系列:标配 L4,官方写明“面向成本优化的推理、图形和 HPC”,并有博客专门说 G2+L4 是生成式 AI 推理平台(Google Cloud Documentation) 近期重点在 gn8v 等 LLM 实例(多为 H20/H800 系),L4 尚未像 GCP/AWS 那样高调;可以在表中标“暂无公开标准实例”(AlibabaCloud) 公共 GPU 规格中目前看不到明确的 L4 机型,主力仍是 T4/V100/A100/H100 等(tencentcloud.com) 暂无 L4 专门 shape,OCI 在推理方向更强调 L40S/A10/A100/H100 等(Oracle Docs)

“L4:T4 → A10 之后的新一代通用云推理主力,GCP G2 / AWS G6 是代表。”

L40 / L40S:偏“通用大算力 + 训练 + 推理”

卡 / 架构 AWS Azure Google Cloud 阿里云 腾讯云 Oracle Cloud
L40 / L40S (Ada) AWS 目前主推的是 A10/L4/A100/H100,L40/L40S 多见于 on-prem/vGPU 方案 NVIDIA vGPU 支持 Azure Local 上的 L40/L40S,用于本地集群推理/图形(NVIDIA Docs) 公有文档暂未突出 L40/L40S,重点仍是 L4/A100/H100(Google Cloud Documentation) 很多 LLM 训练/推理新闻中提到阿里使用 H20/H800 系 GPU 做 LLM 推理,L40S 在国内云上出现较少(Tom’s Hardware) 暂无公开大规模 L40S 实例信息 OCI:BM.GPU.L40S.4,明确用于生成式 AI、LLM 训练与推理(blogs.oracle.com)

5)用作“大模型推理”的训练卡(A100 / H100 / H20 / H200 / Blackwell)

在实际云上,大模型推理很多直接跑在训练集群卡上

架构 典型云厂商 & 场景(只写跟推理相关)
Ampere A100 AWS P4d、GCP A2、Azure ND A100 v4、阿里/腾讯/OCI 大量用来做 LLM 训练+推理,MLPerf Inference 中 A100 也是主力之一(Amazon Web Services, Inc.)
Hopper H100 GCP A3 系列(H100)、Azure ND H100 v5、AWS P5、OCI H100 VM/裸金属,都是 GPT/LLama 类模型训练 & 高吞吐推理平台(Google Cloud)
Hopper+HBM H200 / H20 / H800 H200 在 AWS/GCP/OCI 被当成“大模型推理优化版 H100”,H20/H800 则大量出现在中国云厂商(如阿里)的大模型推理场景中,用于规避出口限制(Tom’s Hardware)
Blackwell B200 / GB200 / GB300 NVL Azure 上已经部署了 GB300 NVL72 超级集群,面向大规模 FP4 推理/OpenAI 训练;GCP/OCI 也在公布 GB200/B200 形状,用于下一代 LLM 训推一体集群(Tom’s Hardware)

LLM 推理解法:直接使用训练卡集群(A100/H100/H200/B200/GB200/GB300)

典型训练卡

说明:信息来自各云厂商官方文档(截至 2025-11),不同 Region 供应会有差异。

1)Pascal 架构(Tesla P100)

主要卡:Tesla P100 16GB

架构 典型训练卡 AWS Azure GCP 阿里云 腾讯云 Oracle Cloud
Pascal P100 基本不主推(以 V100 起步) 早期有少量 P40/P100,现核心在 V100/A100 提供 P100,可挂在 Compute Engine 上做训练(Google Cloud) ACK/弹性 GPU 中支持 P100(多用于教学/传统 DL)(AlibabaCloud) 以 V100/A100/H100 为主,很少再见 P100 大量 P100 形态:VM.GPU2 / BM.GPU2 等形状(Oracle Docs)

用途:现在多是老项目、成本敏感的传统训练,新项目一般不再选 Pascal。


P100 显卡的具体参数:

p100具体参数

2)Volta 架构(Tesla V100)

主力卡:Tesla V100 16/32GB(曾经的旗舰训练卡)

架构 典型训练卡 AWS Azure GCP 阿里云 腾讯云 Oracle Cloud
Volta V100 P3 系列:最多 8×V100,官方推荐用于 DL 训练(AWS 文档) NDv2 / NCsv3 系列:8×V100,面向高端 AI/HPC 训练(Microsoft Learn) Compute Engine 提供 V100 选项用于训练(Google Cloud) ACK 集群支持 V100(和 P100/A100 同列)(AlibabaCloud) GPU Cloud / GN10X 等实例支持 V100 HPC 集群(tencentcloud.com) VM.GPU3 / BM.GPU3 等形状均为 V100(Oracle Docs)

用途:目前仍大量用于中等规模模型训练,是许多云上“性价比训练卡”的下限。


V100显卡具体参数:

v100具体参数

3)Turing 架构(T4 —— 偏推理/轻训)

主力卡(偏推理):Tesla T4 16GB

架构 典型卡 AWS Azure GCP 阿里云 腾讯云 Oracle Cloud
Turing T4 G4 系列:最多 4×T4,官方定位为推理 GPU(也可小模型训练)(AWS 文档) NCasT4_v3 系列:1–4×T4,Azure 明确用于 AI 服务、推理工作负载(Microsoft Learn) Compute Engine 提供 T4(推理 / 轻训 / 视频处理)(Google Cloud) vGPU/gn 系列中提供 T4(分时/共享 GPU)(AlibabaCloud) 弹性 GPU / 渲染实例支持 T4、P4 等,用于推理和图形任务(Paperspace by DigitalOcean Blog) 主要以 P100/V100/A10/A100/H100 为主,T4 较少出现在训练方案中(docs.public.content.oci.oraclecloud.com)

定位:云推理和轻量训练卡,“推理为主,可用于小模型训练”。


T4的详细参数:

t4具体参数

4)Ampere 架构(A100 为主)

主力训练卡:A100 40/80GB
辅卡:A10/A30(偏推理 & 轻训)

架构 典型训练卡 AWS Azure GCP 阿里云 腾讯云 Oracle Cloud
Ampere A100 P4/P4d/P4de 系列:最多 8×A100,官方深度学习和生成式 AI 主力实例(Amazon Web Services, Inc.) ND A100 v4 / NDm A100 v4:1–8×A100,专为大模型训练设计(Microsoft Learn) Compute Engine 提供 A100 GPU,明确用于混合精度训练(Google Cloud Documentation) ACK 异构集群支持 A100(与 T4/P100/V100 同列)(AlibabaCloud) 高性能 GPU 集群提供 V100 & A100,用于自动驾驶/大模型训练(tencentcloud.com) BM.GPU.A100 / BM.GPU4.8 等 shape:8×A100,官方 AI 训练主力形状之一(Oracle Docs)

结论:Ampere/A100 是当前“主流通用训练卡”,除了最新 Hopper/Blackwell 以外,几乎所有大厂都会把 A100 当成标准训练配置。


A100具体参数:

A100具体参数

5)Hopper 架构(H100 / H200)

主力训练卡:H100 80GB,新一代:H200 141GB

架构 典型训练卡 AWS Azure GCP 阿里云 腾讯云 Oracle Cloud
Hopper H100/H200 P5 系列:8×H100;P5e/P5en 提供 H200,用于大规模 LLM 训练(Amazon Web Services, Inc.) ND H100 v5:最多 8×H100,Azure 文档写明针对“大规模 DL 训练”(Zenn) Compute Engine 公告支持 H100/H200/GB200 等新卡,用于混合精度训练(Google Cloud Documentation) 公网资料显示阿里正在引入 H100/H800/H20 等做大模型训练(区域和配额差异较大) 官方技术文频繁以 A100/H100/V100 作为训练平台示例,GPU 云服务也在引入 H100/H200 实例(tencentcloud.com) BM.GPU.H100.8 / BM.GPU.H200.8:8×H100/H200,面向生成式 AI 训练(Oracle Docs)

结论:H100/H200 是新一代高端训练和大模型专用卡,但价格和配额门槛都比较高,你可以在表里单独拉一个“高端大模型训练”段。

H100参数汇总:

h100具体参数

H200参数汇总:

H200参数规格


6)Blackwell 架构(B200 / GB200 / GB300)

这些是最新一代,目前主要在 GCP / Oracle / 部分超大云上逐步上线,用于超大规模 LLM/多模态训练

架构 典型训练卡 AWS Azure GCP 阿里云 腾讯云 Oracle Cloud
Blackwell B200 / GB200 / GB300 公网信息显示 AWS 计划引入 Blackwell(尚在逐步落地阶段) 尚未全面公开商用细节,多在合作新闻中出现 Compute Engine / Cloud TPU 相关页面列出 GB200/GB300/B200 等 GPU,用于新一代大模型训练(Google Cloud) 尚处于合作/试点阶段 很多技术文章提及将支持 B200/GB200 集群(偏向宣传和路线图) Oracle 官方:提供 BM.GPU.B200.8 / BM.GPU.GB200.4 等形状,面向企业级生成式 AI(Oracle Docs)

这代你可以在汇总中标为“前沿/试点”,和 A100/H100 这种“量产商用”区分开。

B200参数汇总:

B200-B300具体参数

推理卡算力汇总

GPU 架构 INT4 INT8 FP16/BF16 FP8 FP32 备注(推理定位)
T4 Turing 130 TOPS 65 TOPS 8.1 TFLOPS 8.1 TFLOPS 云端经典推理卡(低功耗)
A2 Ampere ~45 TOPS ~90 TOPS ~11 TFLOPS 4.5 TFLOPS 超低功耗边缘推理
A10 Ampere ~312 TOPS ~156 TOPS ~31 TFLOPS FP16 15.7 TFLOPS 云推理性价比王
A30 Ampere ~222 TOPS ~111 TOPS ~23 TFLOPS BF16/FP16 10 TFLOPS 推理 + 轻训练通用大卡
A40 Ampere ~150 TOPS ~75 TOPS ~20 TFLOPS FP16 14.2 TFLOPS 图形 + 推理(视觉任务)
L4 Ada ~242 TOPS ~121 TOPS ~30 TFLOPS FP16 ~15 TFLOPS 新一代云推理主力(GCP G2)
L40 Ada ~500 TOPS ~250 TOPS ~90 TFLOPS FP16 45 TFLOPS 大模型/多模态推理
L40S Ada ~729 TOPS ~364 TOPS ~181 TFLOPS FP16 90 TFLOPS L40 增强版:强推理性能
H100(SXM) Hopper ~989 TFLOPS FP16(带稀疏) ~1979 TFLOPS FP8(稀疏) 67 TFLOPS LLM 推理/训练两用王者
H200(SXM) Hopper 与 H100 同级但受益于更大显存(141GB) FP8 与 H100 类似(~2000 TFLOPS) 面向大模型推理(≥70B)
B200(SXM) Blackwell > 2000 TOPS(FP4 等价) FP16 较 H100 翻数倍 FP4/FP8:H100 的数倍 次时代推理王者(FP4)
github