安装#

LMDeploy 是一个用于大型语言模型(LLMs)和视觉-语言模型(VLMs)压缩、部署和服务的 Python 库。 其核心推理引擎包括 TurboMind 引擎和 PyTorch 引擎。前者由 C++ 和 CUDA 开发,致力于推理性能的优化,而后者纯 Python 开发,旨在降低开发者的门槛。

LMDeploy 支持在 Linux 和 Windows 平台上部署 LLMs 和 VLMs,最低要求 CUDA 版本为 11.3。此外,它还与以下 NVIDIA GPU 兼容:

Volta(sm70): V100 Turing(sm75): 20 系列,T4 Ampere(sm80,sm86): 30 系列,A10, A16, A30, A100 Ada Lovelace(sm89): 40 系列

使用 pip 安装(推荐)#

我们推荐在一个干净的conda环境下(python3.10 - 3.13),安装 lmdeploy:

conda create -n lmdeploy python=3.12 -y
conda activate lmdeploy
pip install lmdeploy

从源码安装#

默认情况下,LMDeploy 将面向 NVIDIA CUDA 环境进行编译安装,并同时启用 Turbomind 和 PyTorch 两种后端引擎。在安装 LMDeploy 之前,请确保已成功安装 CUDA 工具包。

成功安装 CUDA 工具包后,您可以使用以下单行命令构建并安装 LMDeploy:

pip install git+https://github.com/InternLM/lmdeploy.git

您还可以通过设置 DISABLE_TURBOMIND 环境变量,显式禁用 Turbomind 后端,以避免 CUDA 编译:

DISABLE_TURBOMIND=1 pip install git+https://github.com/InternLM/lmdeploy.git

如果您希望使用特定版本,而不是 LMDeploy 的 main 分支,可以在命令行中指定:

pip install https://github.com/InternLM/lmdeploy/archive/refs/tags/v0.11.0.zip

如果您希望构建支持昇腾、寒武纪或沐熙的 LMDeploy,请使用相应的 LMDEPLOY_TARGET_DEVICE 环境变量进行安装。

LMDeploy 也支持在 AMD GPU 的 ROCm 环境中安装。

#The recommended way is to use the official ROCm PyTorch Docker image with pre-installed dependencies:
docker run -it \
    --cap-add=SYS_PTRACE \
    --security-opt seccomp=unconfined \
    --device=/dev/kfd \
    --device=/dev/dri \
    --group-add video \
    --ipc=host \
    --network=host \
    --shm-size 32G \
    -v /root:/workspace \
    rocm/pytorch:latest


#Once inside the container, install LMDeploy with ROCm support:
LMDEPLOY_TARGET_DEVICE=rocm pip install  git+https://github.com/InternLM/lmdeploy.git