探索 NVIDIA AI 推理工具和技术

A process diagram showing how NVIDIA AI Inference works

单击放大

了解 AI 推理

当今的 AI 应用由前沿的混合专家（Mixture-of-Experts，MoE）模型驱动，在部署时带来了一个关键挑战：如何在大规模场景下实现不妥协的高性能。其核心难点在于用户体验与整体产出之间存在根本性的权衡。具体来说，你必须在用户交互性（流畅体验所要求的低延迟）与整体吞吐量（系统可处理的最大工作负载）之间持续保持平衡。

有效的 AI 部署不能仅在某一点上实现快速部署，还必须满足各种运营需求。这个完整的性能配置文件由 Pareto Frontier 映射。NVIDIA 推理平台旨在跨所有操作点引领这一前沿领域，确保您可以部署合适的解决方案，以更大限度地提高系统效率，并更大限度地降低每个工作负载的每 token 成本。

适用于每位 AI 开发者的 NVIDIA 推理工具

选择在 NVIDIA 上部署高性能 AI 推理的最佳路径。对于需要完全控制、定制和终极优化 LLM 性能的开发者，NVIDIA Dynamo 和 NVIDIA TensorRT-LLM 使您能够跨任何框架、架构或部署规模为所有 AI 模型提供服务。如果您管理自己的 GPU 加速基础设施，但想要简化软件部署，NVIDIA NIM 可将容器提供给自托管推理微服务，用于预训练和定制的 AI 模型。需要完全托管、即时、无服务器的 AI 推理解决方案的开发者可以通过 NVIDIA DGX 云 Serverle 实现自动扩展、经济高效的 GPU 利用率和多云灵活性为生产环境中的 AI 找到控制、速度和易用性的适当平衡。

详细了解 NVIDIA 的推理性能

NVIDIA TensorRT LLM

TensorRT™ -LLM 是一个开源库，可在 NVIDIA GPU 上进行高性能实时 LLM 推理。借助模块化 Python 运行时、PyTorch 原生创作和稳定的生产 API，它经过优化，可更大限度地提高吞吐量、降低成本并提供快速的用户体验。

开始使用 TensorRT LLM

NVIDIA Dynamo

NVIDIA Dynamo 是一个开源、低延迟的推理框架，用于在分布式环境中服务生成式 AI 模型。它通过优化的资源调度、内存管理和数据传输，跨大型 GPU 集群扩展推理工作负载，并支持所有主要的 AI 推理后端，包括开源框架 SGLang 和 vLLM。

开始使用
NVIDIA Dynamo

NVIDIA NIM

NVIDIA NIM™ 提供易于使用的微服务，可在云、数据中心和工作站中安全、可靠地部署高性能 AI 推理。

开始使用 NIM

NVIDIA DGX 云无服务器推理

NVIDIA DGX™ 云提供高性能、无服务器的 AI 推理，具有自动扩展、经济高效的 GPU 利用率和多云灵活性。

DGX 云无服务器推理入门

NVIDIA Blackwell Ultra 为代理式 AI 提供高达 50 倍的性能提升和 35 倍的成本降低

NVIDIA Blackwell Ultra 专为加速新一代代理式 AI 而打造，可在大幅降低成本的同时提供突破性的推理性能。微软、CoreWeave 和 Oracle Cloud Infrastructure 等云提供商正在大规模部署 NVIDIA GB300 NVL72 系统，用于低延迟和长上下文用例，例如代理式编码和编码助手。

这是通过 NVIDIA Blackwell、NVLink™ 和 NVLink Switch 之间的深度联合设计实现的，用于横向扩展；NVFP4 用于实现低精度精度；NVIDIA Dynamo 和 TensorRT™ LLM 用于实现速度和灵活性，以及使用社区框架 SGLang、vLLM 等进行开发。

探索技术成果

作为 NVIDIA“Think SMART”框架的一部分，数据中心插图展示了图像、音频、视觉等领域的多模态 AI 令牌。

AI 推理