AI 推理

AI 推理推动着现代应用的发展,从即时生成代码和分析复杂文档,到支持实时对话式智能体以及打造高度个性化的网站体验。 在超大规模上部署这些 AI 模型,需要采用覆盖硬件到软件的全栈方法,以实现出色的性能和效率。

A process diagram showing how NVIDIA AI Inference works

单击放大

了解 AI 推理

当今的 AI 应用由前沿的混合专家(Mixture-of-Experts,MoE)模型驱动,在部署时带来了一个关键挑战:如何在大规模场景下实现不妥协的高性能。其核心难点在于用户体验与整体产出之间存在根本性的权衡。具体来说,你必须在用户交互性(流畅体验所要求的低延迟)与整体吞吐量(系统可处理的最大工作负载)之间持续保持平衡。

有效的 AI 部署不能仅在某一点上实现快速部署,还必须满足各种运营需求。这个完整的性能配置文件由 Pareto Frontier 映射。NVIDIA 推理平台旨在跨所有操作点引领这一前沿领域,确保您可以部署合适的解决方案,以更大限度地提高系统效率,并更大限度地降低每个工作负载的每 token 成本。

适用于每位 AI 开发者的 NVIDIA 推理工具

选择在 NVIDIA 上部署高性能 AI 推理的最佳路径。对于需要完全控制、定制和终极优化 LLM 性能的开发者,NVIDIA Dynamo 和 NVIDIA TensorRT-LLM 使您能够跨任何框架、架构或部署规模为所有 AI 模型提供服务。如果您管理自己的 GPU 加速基础设施,但想要简化软件部署,NVIDIA NIM 可将容器提供给自托管推理微服务,用于预训练和定制的 AI 模型。需要完全托管、即时、无服务器的 AI 推理解决方案的开发者可以通过 NVIDIA DGX 云 Serverle 实现自动扩展、经济高效的 GPU 利用率和多云灵活性为生产环境中的 AI 找到控制、速度和易用性的适当平衡。

详细了解 NVIDIA 的推理性能







NVIDIA TensorRT LLM

TensorRT™ -LLM 是一个开源库,可在 NVIDIA GPU 上进行高性能实时 LLM 推理。借助模块化 Python 运行时、PyTorch 原生创作和稳定的生产 API,它经过优化,可更大限度地提高吞吐量、降低成本并提供快速的用户体验。

NVIDIA Dynamo

NVIDIA Dynamo 是一个开源、低延迟的推理框架,用于在分布式环境中服务生成式 AI 模型。它通过优化的资源调度、内存管理和数据传输,跨大型 GPU 集群扩展推理工作负载,并支持所有主要的 AI 推理后端,包括开源框架 SGLang 和 vLLM。

NVIDIA NIM

NVIDIA NIM™ 提供易于使用的微服务,可在云、数据中心和工作站中安全、可靠地部署高性能 AI 推理。

NVIDIA DGX 云无服务器推理

NVIDIA DGX™ 云提供高性能、无服务器的 AI 推理,具有自动扩展、经济高效的 GPU 利用率和多云灵活性。


NVIDIA Blackwell Ultra 为代理式 AI 提供高达 50 倍的性能提升和 35 倍的成本降低

NVIDIA Blackwell Ultra 专为加速新一代代理式 AI 而打造,可在大幅降低成本的同时提供突破性的推理性能。微软、CoreWeave 和 Oracle Cloud Infrastructure 等云提供商正在大规模部署 NVIDIA GB300 NVL72 系统,用于低延迟和长上下文用例,例如代理式编码和编码助手。

这是通过 NVIDIA Blackwell、NVLink™ 和 NVLink Switch 之间的深度联合设计实现的,用于横向扩展;NVFP4 用于实现低精度精度;NVIDIA Dynamo 和 TensorRT™ LLM 用于实现速度和灵活性,以及使用社区框架 SGLang、vLLM 等进行开发。

作为 NVIDIA“Think SMART”框架的一部分,数据中心插图展示了图像、音频、视觉等领域的多模态 AI 令牌。

AI 推理学习资源