vLLM | NVIDIA NGC

NVIDIA

vLLM

Container

NVIDIA

vLLM

vLLM is a fast and easy-to-use library for LLM inference and serving. The NVIDIA vLLM NGC Container is optimized for GPU acceleration, and contains a validated set of libraries that enable and optimize GPU performance.

Layer	Label		Created
sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4	LABEL	`com.nvidia.build.ref=13aa3ebd28c5236ad70c845a1c4ef7be5175729d`	10/23/2025 3:26 AM UTC
sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4	ARG	`NVIDIA_BUILD_REF=13aa3ebd28c5236ad70c845a1c4ef7be5175729d`	10/23/2025 3:26 AM UTC
sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4	LABEL	`com.nvidia.build.id=224204847`	10/23/2025 3:26 AM UTC
sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4	ENV	`NVIDIA_BUILD_ID=224204847`	10/23/2025 3:26 AM UTC
sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4	ARG	`NVIDIA_BUILD_ID=224204847`	10/23/2025 3:26 AM UTC
sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4	ENV	`NVIDIA_VLLM_VERSION=25.10`	10/23/2025 3:26 AM UTC
sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4	ARG	`NVIDIA_VLLM_VERSION=25.10`	10/23/2025 3:26 AM UTC
sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4	LABEL	`com.nvidia.vllm.version=0.10.2+9dd9ca32`	10/23/2025 3:26 AM UTC
sha256:a3ed95caeb02ffe68cdd9fd84406680ae93d633cb16422d00e8a7c22955b46d4	ENV	`NVIDIA_PRODUCT_NAME=vLLM`	10/23/2025 3:26 AM UTC
sha256:1b6bb68f9f470ed60eb58f8fea1b466a70b52930785b533b8781caa1026cc933	RUN	`TARGETARCH=amd64 VLLM_VERSION=0.10.2+9dd9ca32 sed -i -E 's/^([[:space:]]*)from \.modeling_utils import PreTrainedAudioTokenizerBase/\1pass/' /usr/local/lib/python3.12/dist-packages/transformers/processing_utils.py`	10/23/2025 3:26 AM UTC