bigsur 英伟达,bw2021英伟达
chanong
|自去年英伟达市值突破1万亿美元以来,这家加速计算公司越来越受到全球的关注。
今年2 月,NVIDIA 市值一度突破2 万亿,这家加速计算公司的人气再次高涨,来自世界各地的超过11,000 名与会者涌向今天在加州圣何塞举行的GTC 2024。
NVIDIA 创始人兼首席执行官黄仁勋开场说道:“未来将是富有创造力的。这就是为什么这是一个全新的行业。”在确保可持续性的同时继续进行更多计算。 ”
黄仁勋表示,“加速计算已经达到了临界点,通用计算正在失去动力。与通用计算相比,加速计算可以显着提高任何行业的速度。我们可以做到。”
新行业需要更大的模型,而更大的多模式人工智能需要更大的GPU。
Jen-Hsun Huang 从口袋里掏出一块新的Blackwell 芯片,并将其放在Hopper 芯片旁边,后者看起来比后者小。
与基于NVIDIA 上一代H100 GPU 构建的系统相比,DGX SuperPOD 基于NVIDIA GB200 构建,对大型语言模型的性能提升了30 倍,使得具有数万亿个参数的模型能够得到处理。
架构迭代带来了这些显着的性能改进。这证明NVIDIA仍在高速计算的道路上快速前进,并且NVIDIA正在进一步拉大与其追赶者的距离。
NVIDIA还有更雄心勃勃的目标:GTC2024推出的NVIDIA NIM微服务可以通过推理加速普及生成式AI,而这正是生成式AI具有更大商业价值的地方。
“人工智能的下一波浪潮将是人工智能学**物理世界。”黄仁勋也有长远的计划。
Blackwell架构如何支持10万亿参数模型的需求?
最新的Blackwell 架构是两年前推出的Hopper 架构的后继者,延续了Nvidia 以科学家命名架构的传统,新架构以加州大学伯克利分校数学家David 的名字命名,Harold Blackwell 是一位专门研究博弈论和统计学的数学家。是第一位当选为美国国家科学院院士的黑人学者。
与Hopper架构GPU相比,Blackwell架构GPU的单芯片训练性能(FP8)比Hopper架构高2.5倍,推理性能(FP4)比Hopper架构高5倍。
需要一套独特的技术来使Blackwell 架构能够支持高达10 万亿个参数的模型训练和实时LLM 推理。
先进工艺和chiplet技术是关键之一。 Blackwell架构GPU拥有2080亿个晶体管,采用专门定制的双光刻临界尺寸4NP台积电工艺制造。 GPU 芯片通过10 TB/s 芯片间互连进行连接。集成GPU。
为了更好地支持Transformer 模型,Balckwell 架构集成了第二代Transformer 引擎,支持新的微张量缩放,并将NVIDIA 动态范围管理算法集成到NVIDIA TensorRT-LLM 和NeMo Megatron 框架中。新的FP4 AI 推理功能使您的计算能力和模型大小加倍。
为了扩展Blackwell,NVIDIA 构建了一款名为NVLink 开关的新芯片。每个芯片可以以1.8 TB/秒的速度连接四个NVLink(比上一代快近10 倍),减少网络流量并消除流量拥塞,帮助构建GB200。
NVIDIA GB200 Grace Blackwell Superchip 通过900 GB/s 超低功耗NVLink 芯片间互连将两个Blackwell NVIDIA B200 Tensor Core GPU 连接到NVIDIA Grace CPU。
GB200是NVIDIA GB200 NVL72的主要组成部分。
NVIDIA GB200 NVL72 是一款多节点处理器,结合了36 个Grace Blackwell 超级芯片,包括72 个Blackwell GPU 和36 个Grace CPU,通过第5 代NVLink 互连,并集成了NVIDIA BlueField -3 数据处理器的水冷机架规模系统。这使得超大型人工智能云中的云网络加速、统一存储、零信任安全和GPU 计算弹性成为可能。
与相同数量的NVIDIA H100 Tensor Core GPU 相比,GB200 NVL72 可提供高达30 倍的性能提升,并将成本和能耗降低25 倍。
NVIDIA GB200 NVL72 在单个机架中提供720 petaflops 的AI 训练性能和1.4 exaflops 的AI 推理性能。该机器包含600,000 个零件,重3,000 磅。
黄仁勋说:“目前地球上可能只有三台exaflops 机器。而这就是一个机架中的一个exaflops 人工智能系统。”
进一步支持具有10 万亿参数的大型模型需要更强大的DGX SuperPOD。
基于Grace Blackwell的DGX SuperPOD由八个或更多DGX GB200系统构建,每个系统包含36个NVIDIA Grace CPU和72个NVIDIA Blackwell GPU,并采用新型高效液冷机架,采用规模架构。
该系统包括GTC 2024上发布的第5代NVIDIA NVLink、NVIDIA BlueField-3 DPU、NVIDIA Quantum-X800 InfiniBand网络(为每个GPU提供每秒800 GB的带宽)以及新一代DGX,还需要网络计算能力。 SuperPOD 架构改进了4 倍,可扩展至数万个GB200 超级芯片。
用户可以通过NVLink连接8个DGX GB200系统中的576个Blackwell GPU,提供11.5 exaflops的AI超级计算能力和具有FP4精度的240 TB高速内存,并且通过额外的机架进行扩展也可以做到。
2016年,黄仁勋给了OpenAI 0.17 petaflops的DGX算力,现在DGX GB200算力以exaflops计算。
除了GB200之外,NVIDIA还发布了NVIDIA DGX B200系统,这是一个集成的通用AI超级计算平台,用于训练、微调和推理AI模型。
DGX B200是DGX系列的第6代,采用风冷机架设计,配备8个NVIDIA B200 Tensor Core GPU和2个第5代Intel Xeon处理器。
DGX B200 系统提供144 petaflops(FP4 精度)的AI 性能、1.4 TB GPU 内存和64 TB/s 内存带宽,为万亿参数模型系统提供实时推理速度,比前几代快15 倍。产品。
此外,DGX B200 系统还包括高性能网络,包括八个NVIDIA ConnectX-7 网卡和两个BlueField-3 DPU,可通过NVIDIA Quantum-2 InfiniBand 和NVIDIA Spectrum 进行连接。每个网络可提供高达400 Gb/s 的带宽。 X以太网网络平台支持更高的AI性能。
“未来,数据中心将成为人工智能工厂。人工智能工厂的使命不仅是产生收入,而且是产生智能。”黄说。
AI推理微服务挖掘“金矿”
黄詹勋说:“生成式人工智能将改变应用程序的创建方式。”我解释说,将重点关注结果审核。
在GTC 2024 上,我们发布了NVIDIA NIM 微服务。它基于NVIDIA 的加速计算库和生成式AI 模型而构建。我们提供基于NVIDIA 推理软件(例如Triton Inference Server 和TensorRT-LLM)的预构建容器,以便开发人员能够部署Time。时间从几周缩短到几分钟。
“企业IT行业正坐拥一座‘金矿’。他们拥有多年来创造的所有优秀工具(和数据)。如果他们能把这个‘金矿’变成人工智能助手就好了。”黄说。可以为用户提供更多的可能性。 ”
NVIDIA 帮助Cohesity、NetApp、SAP、ServiceNow 和Snowflake 等领先技术公司构建AI 和虚拟助手。其他地区的实施工作也在取得进展。
在通信领域,NVIDIA 推出了6G 研究云。它是一个由AI 和Omniverse 驱动的生成平台,采用NVIDIA 的Sionna 神经无线电框架、NVIDIA Aerial CUDA 高速无线电接入网络和适用于6G 的NVIDIA Aerial Omniverse 数字孪生构建。
在半导体设计和制造领域,NVIDIA 正在与TSMC 和Synopsys 合作,将cuLitho 商业化,这是一个计算光刻平台,可将半导体制造中计算最密集的工作负载加速40-60 倍。
黄仁勋还宣布推出NVIDIA 的地球气候数字孪生Earth-2。它支持交互式高分辨率模拟,并可以在几秒钟内发出预警和更新的预测。传统模型在CPU 上运行可能需要几分钟到几小时。
黄詹勋表示,AI 最大的影响将在医疗领域,NVIDIA 已经在该领域致力于成像系统、基因测序设备以及与主要手术机器人公司的合作。
NVIDIA 推出新的生物学软件。 GTC 2024 发布了20 多个新的微服务,使全球医疗保健公司能够在任何地方、任何云上利用生成人工智能的最新进展。
人工智能的下一波浪潮是从物理世界学**的人工智能
黄说:“我们需要一个模拟引擎来为机器人提供世界的数字表示。然后它有一个‘健身房’来学**如何成为一个机器人。我们称之为Omniverse。”
NVIDIA 宣布将NVIDIA Omniverse Cloud 作为API 提供,从而扩展了全球领先的工业数字孪生应用程序和工作流程创建平台在整个软件制造商生态系统中的覆盖范围。
为了展示它的工作原理,黄分享了机器人仓库—— 的演示。该仓库使用多摄像头传感和跟踪来监控工人并协调能够自主操作的机器人叉车,整个机器人堆栈都在运行。
NVIDIA 还宣布将Omniverse 引入Apple Vision Pro。通过新的Omniverse Cloud API,开发人员将能够将交互式工业数字双胞胎传输到VR 耳机。
Omniverse Cloud API 已被全球最大的工业软件制造商采用,包括Ansys、Cadence、达索系统的3DEXCITE 品牌、Hexagon、微软、罗克韦尔自动化、西门子和Trimble。
机器人的巨大空间
“任何会动的东西都可以变成机器人,汽车行业将成为其中的重要组成部分,”范仁勋说。
雷锋网获悉,比亚迪选择了NVIDIA新一代自动驾驶汽车计算平台,利用DRIVE Thor打造下一代电动车队。浩斌、小鹏汽车、理想汽车、极氪也宣布,未来的汽车产品将基于DRIVE Thor打造。
仿人机器人也是机器人的一个重要方向。
为了实现这一目标,NVIDIA 推出了Project GR00T(General Robot 00 Technology 的缩写),这是一个专为人形机器人设计的通用基础模型。
GR00T脱胎于NVIDIA的Isaac机器人平台工具。 GR00T驱动的人形机器人接受并处理来自文本、音频、视频甚至现场演示的输入,以理解自然语言、模拟人类行为、在现实世界中进行操作、了解世界、进行导航和交互。
黄仁勋还发布了Jetson Thor,这是一款基于NVIDIA Thor 片上系统的新型人形机器人计算机,并对NVIDIA Isaac 机器人平台进行了重大升级。
Jetson Thor 使用Blackwell 架构提供每秒800 万亿次8 位浮点运算的AI 性能,以执行复杂的任务并使用Transformer 引擎处理多个传感器,并运行GR00T 等多模式生成AI 模型。
用一句话来概括GTC的新发布,可以借用黄仁勋的话:“我们创造了一款面向生成式AI时代的处理器。”








