安装#

LMDeploy 是一个用于大型语言模型（LLMs）和视觉-语言模型（VLMs）压缩、部署和服务的 Python 库。其核心推理引擎包括 TurboMind 引擎和 PyTorch 引擎。前者由 C++ 和 CUDA 开发，致力于推理性能的优化，而后者纯 Python 开发，旨在降低开发者的门槛。

LMDeploy 支持在 Linux 和 Windows 平台上部署 LLMs 和 VLMs，最低要求 CUDA 版本为 11.3。此外，它还与以下 NVIDIA GPU 兼容：

Volta(sm70): V100 Turing(sm75): 20 系列，T4 Ampere(sm80,sm86): 30 系列，A10, A16, A30, A100 Ada Lovelace(sm89): 40 系列

使用 pip 安装（推荐）#

我们推荐在一个干净的conda环境下（python3.10 - 3.13），安装 lmdeploy：

conda create -n lmdeploy python=3.12 -y
conda activate lmdeploy
pip install lmdeploy

从源码安装#

默认情况下，LMDeploy 将面向 NVIDIA CUDA 环境进行编译安装，并同时启用 Turbomind 和 PyTorch 两种后端引擎。在安装 LMDeploy 之前，请确保已成功安装 CUDA 工具包。

成功安装 CUDA 工具包后，您可以使用以下单行命令构建并安装 LMDeploy：

pip install git+https://github.com/InternLM/lmdeploy.git

您还可以通过设置 DISABLE_TURBOMIND 环境变量，显式禁用 Turbomind 后端，以避免 CUDA 编译：

DISABLE_TURBOMIND=1 pip install git+https://github.com/InternLM/lmdeploy.git

如果您希望使用特定版本，而不是 LMDeploy 的 main 分支，可以在命令行中指定：

pip install https://github.com/InternLM/lmdeploy/archive/refs/tags/v0.11.0.zip

如果您希望构建支持昇腾、寒武纪或沐熙的 LMDeploy，请使用相应的 LMDEPLOY_TARGET_DEVICE 环境变量进行安装。

LMDeploy 也支持在 AMD GPU 的 ROCm 环境中安装。

#The recommended way is to use the official ROCm PyTorch Docker image with pre-installed dependencies:
docker run -it \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    --device=/dev/kfd \
    --device=/dev/dri \
    --group-add video \
    --ipc=host \
    --network=host \
    --shm-size 32G \
    -v /root:/workspace \
    rocm/pytorch:latest


#Once inside the container, install LMDeploy with ROCm support:
LMDEPLOY_TARGET_DEVICE=rocm pip install  git+https://github.com/InternLM/lmdeploy.git

安装

目录

安装#

使用 pip 安装（推荐）#

从源码安装#