安装#
LMDeploy 是一个用于大型语言模型(LLMs)和视觉-语言模型(VLMs)压缩、部署和服务的 Python 库。 其核心推理引擎包括 TurboMind 引擎和 PyTorch 引擎。前者由 C++ 和 CUDA 开发,致力于推理性能的优化,而后者纯 Python 开发,旨在降低开发者的门槛。
LMDeploy 支持在 Linux 和 Windows 平台上部署 LLMs 和 VLMs,最低要求 CUDA 版本为 11.3。此外,它还与以下 NVIDIA GPU 兼容:
Volta(sm70): V100 Turing(sm75): 20 系列,T4 Ampere(sm80,sm86): 30 系列,A10, A16, A30, A100 Ada Lovelace(sm89): 40 系列
使用 pip 安装(推荐)#
我们推荐在一个干净的conda环境下(python3.10 - 3.13),安装 lmdeploy:
conda create -n lmdeploy python=3.12 -y
conda activate lmdeploy
pip install lmdeploy
从源码安装#
默认情况下,LMDeploy 将面向 NVIDIA CUDA 环境进行编译安装,并同时启用 Turbomind 和 PyTorch 两种后端引擎。在安装 LMDeploy 之前,请确保已成功安装 CUDA 工具包。
成功安装 CUDA 工具包后,您可以使用以下单行命令构建并安装 LMDeploy:
pip install git+https://github.com/InternLM/lmdeploy.git
您还可以通过设置 DISABLE_TURBOMIND 环境变量,显式禁用 Turbomind 后端,以避免 CUDA 编译:
DISABLE_TURBOMIND=1 pip install git+https://github.com/InternLM/lmdeploy.git
如果您希望使用特定版本,而不是 LMDeploy 的 main 分支,可以在命令行中指定:
pip install https://github.com/InternLM/lmdeploy/archive/refs/tags/v0.11.0.zip
如果您希望构建支持昇腾、寒武纪或沐熙的 LMDeploy,请使用相应的 LMDEPLOY_TARGET_DEVICE 环境变量进行安装。
LMDeploy 也支持在 AMD GPU 的 ROCm 环境中安装。
#The recommended way is to use the official ROCm PyTorch Docker image with pre-installed dependencies:
docker run -it \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--device=/dev/kfd \
--device=/dev/dri \
--group-add video \
--ipc=host \
--network=host \
--shm-size 32G \
-v /root:/workspace \
rocm/pytorch:latest
#Once inside the container, install LMDeploy with ROCm support:
LMDEPLOY_TARGET_DEVICE=rocm pip install git+https://github.com/InternLM/lmdeploy.git