NVIDIA Grace Hopper超级晶片在MLPerf推论基準测试中取得卓越成果

GH200、H100和L4 GPU以及Jetson Orin系统模组在从云端到网路边缘的生产环境中运行人工智慧方面表现出领先的效能。NVIDIANVIDIA GH200 Grace Hopper超级晶片首次亮相于MLPerf产业基準测试中，在所有人工智慧推论加速器测试中均表现优异，进一步扩展了NVIDIA H100 Tensor Core GPU的领先效能。这些结果还展示了NVIDIA 人工智慧平台在从云端到网路边缘的卓越性能和多功能性。NVIDIA另外宣布推出推论软体，能让使用者在效能、能源效率和总持有成本方面上得到显着的提升。
GH200超级晶片在MLPerf基準测试中表现优异
GH200连结Hopper GPU 和Grace CPU成为一个超级晶片。这个组合能提供更多记忆体、频宽，以及能在CPU和GPU之间自动调节电力，以最佳化表现。此外，配备 8 个H100 GPU的HGX H100系统在本轮每个MLPerf推论测试中提供了最高的吞吐量。
Grace Hopper超级晶片和H100 GPU在所有MLPerf的资料中心测试中处于领先地位，包括电脑视觉推论、语音识别和医学成像，以及要求更高的推荐系统应用案例和生成式人工智慧中使用的大型语言模型（LLMs）。
总体来说，这次测试结果延续了NVIDIA自2018年MLPerf基準推出以来，在每轮人工智慧训练和推论方面效能领先的记录。最新的MLPerf测试中包括对推荐系统的更新测试，以及首次针对GPT-J进行的推论基準测试。GPT-J是一个具有60亿参数的大型语言模型，而参数是用来衡量人工智慧模型大小的粗略指标。
TensorRT-LLM大幅提升推论效能
为了减少各种规模的複杂工作负载，NVIDIA开发了TensorRT-LLM，这是一种可最佳化推论的生成式人工智慧软体。这个开源程式码在八月向MLPerf提交测试结果时尚未完成，能使客户能够在无额外成本的情况下，将其已购买的H100 GPU的推论效能提高一倍以上。NVIDIA内部测试显示，在H100 GPU上使用TensorRT-LLM，与以前的GPU运行GPT-J 6B相比，效能提升高达8倍。
这个软体源于NVIDIA与业界领先公司的合作，包括Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML（现为Databricks的一部分）、OctoML、Tabnine和Together AI，以加速和最佳化大型语言模型推论的过程。
MosaicML在TensorRT-LLM的基础上增加所需的功能，并将其纳入现有的服务堆叠。Databricks 工程部门副总裁 Naveen Rao 指出：这绝对是一件轻而易举的事。
TensorRT-LLM 简单易用、功能多样且相当有效率。它为使用 NVIDIA GPU 的大型语言模型服务提供了最先进的效能，让我们能够把省下来的成本回馈给客户。 Rao 说。
TensorRT-LLM是NVIDIA全端AI平台持续不断创新的最新範例。这些不断升级的软体为用户提供了可随时间延长的性能，而无需额外成本，并且能适应当今多样化的人工智慧工作负载。
L4 提升主流伺服器的推论效能
在最新的MLPerf基準测试中，NVIDIA L4 GPU在各种工作负载上表现卓越，提供全面性的出色性能。例如，L4 GPU运行在精巧、功耗为72W的转接卡上，与功耗高出近5倍的CPU相比较，L4 GPU提供高出6倍效能。除此之外，L4 GPU内建专属的媒体引擎，在NVIDIA的测试中与CUDA软体合用能加速电脑视觉应用达120倍。目前可以从Google Cloud和许多系统製造商端使用L4 GPU。它们为从消费者网路服务到药物研发等多个产业的客户提供服务。
在边缘环境中效能提升
此外，NVIDIA应用了新的模型压缩技术，使在L4 GPU上运行BERT LLM的效能提升达4.7倍。这一结果在MLPerf的所谓开放组别（Open Division）中实现，这是用于展示新能力的一个类别。该技术预计将适用于所有人工智慧工作负载。当在尺寸和功耗受限的边缘设备上运行模型时，它尤其有价值。
在另一个边缘运算领先範例中，NVIDIA Jetson Orin系统模组显示物件侦测的效能相对前一轮测试提升高达84%，这是边缘人工智慧和机器人场景中常见的电脑视觉使用案例。
Jetson Orin的先行产品来自採用最新版晶片核心的软体，如可程式设计视觉加速器、NVIDIA Ampere架构GPU和专用深度学习加速器。
多功能的效能，广大的生态系统
MLPerf基準是透明且客观的，因此使用者可以依靠其结果做出明智的购买决策。它们涵盖了广泛的应用案例和情景，因此使用者知道他们可以获得可靠且部署灵活的效能。
在本轮测试中参与提交的合作伙伴包括云端服务供应商Microsoft Azure和Oracle Cloud Infrastructure，以及华硕电脑、Connect Tech、戴尔科技集团、富士通公司、技嘉科技、慧与科技、联想集团、云达科技和美超微等系统製造商。
总体来说，MLPerf得到了超过70家组织的支持，包括阿里巴巴、Arm、思科、Google、哈佛大学、英特尔、Meta、微软和多伦多大学等。
欲了解更多详细资讯以及我们如何获得这些成果，请阅读技术部落格文章。
于此次测试中使用的各种软体公开于MLPerf资源库，每个人都能取得这些世界级的成果。NVIDIA不断将最佳化结果放入NVIDIA NGC （GPU 加速软体目录）的容器中，提供GPU应用。