llm-compressor 支持#

本指南旨在介绍如何使用 LMDeploy 的 TurboMind 推理引擎，运行经由 vllm-project/llm-compressor工具量化后的模型。目前支持的 llm-compressor 量化模型包括：

int4 量化（例如 AWQ、GPTQ）

上述量化模型通过 TurboMind 引擎可以在以下 NVIDIA GPU 架构上运行：

Compute Capability	Micro-architecture	GPUs
7.0	Volta	V100
7.2	Volta	Jetson Xavier
7.5	Turing	GeForce RTX 20 series, T4
8.0	Ampere	A100, A800, A30
8.6	Ampere	GeForce RTX 30 series, A40, A10
8.7	Ampere	Jetson Orin
8.9	Ada Lovelace	GeForce RTX 40 series, L40, L20
9.0	Hopper	H20, H200, H100, GH200
12.0	Blackwell	GeForce RTX 50 series

LMDeploy 将持续跟进并扩展对 llm-compressor 项目的支持。

本文的其余部分由以下章节组成：

模型量化
模型部署
精度评测

模型量化#

llm-compressor 提供了丰富的模型量化用例，请参考其教程选择 LMDeploy 支持的量化算法，完成模型量化工作。 LMDeploy 也内置了通过 llm-compressor 对 Qwen3-30B-A3B 进行 AWQ 量化的脚本，供大家进行参考：

# 创建 conda 环境
conda create -n lmdeploy python=3.10 -y
conda activate lmdeploy

# 安装 llm-compressor
pip install llmcompressor

# 下载 lmdeploy 源码，运行量化用用例
git clone https://github.com/InternLM/lmdeploy
cd lmdeploy
python examples/lite/qwen3_30b_a3b_awq.py --work-dir ./qwen3_30b_a3b_awq

在接下来的章节中，我们以此量化模型为例，介绍模型部署、评测精度等方法

模型部署#

离线推理#

量化后的模型，通过以下几行简单的代码，可以实现离线批处理：

from lmdeploy import pipeline, TurbomindEngineConfig
engine_config = TurbomindEngineConfig()
with pipeline("./qwen3_30b_a3b_4bit", backend_config=engine_config) as pipe:
    response = pipe(["Hi, pls intro yourself", "Shanghai is"])
    print(response)

关于 pipeline 的详细介绍，请参考这里

在线服务#

LMDeploy api_server 支持把模型一键封装为服务，对外提供的 RESTful API 兼容 openai 的接口。以下为服务启动的示例：

lmdeploy serve api_server ./qwen3_30b_a3b_4bit --backend turbomind

服务默认端口是23333。在 server 启动后，你可以通过 openai SDK 访问服务。关于服务的命令参数，以及访问服务的方式，可以阅读这份文档

精度评测#

我们将 Qwen3-8B (Dense) 与 Qwen3-30B-A3B (MoE) 的 AWQ 对称/非对称量化模型通过 LMDeploy 部署为服务，并使用 opencompass 在多个学术数据集上评测。结果显示：Qwen3-8B 的非对称量化整体优于对称量化，而 Qwen3-30B-A3B 在两种量化方式间差异不显著；Qwen3-8B 在对称/非对称量化下与 BF16 模型的精度差异小于 Qwen3-30B-A3B。与 BF16 相比，量化模型在长输出数据集，比如 aime2025 (平均 17,635 tokens)、LCB (平均 14,157 tokens)，精度下降更明显；在中短输出数据集，比如 ifeval (平均 1,885 tokens)，mmlu_pro (平均 2,826)，精度符合预期。

dataset	Qwen3-8B			Qwen3-30B-A3B
	bf16	awq sym	awq asym	bf16	awq sym	awq asym
ifeval	85.58	83.73	85.77	86.32	84.10	84.29
hle	5.05	5.05	5.24	7.00	5.47	5.65
gpqa	59.97	56.57	59.47	61.74	57.95	57.07
aime2025	69.48	64.38	63.96	73.44	64.79	66.67
mmlu_pro	73.69	71.73	72.34	77.85	75.77	75.69
LCBCodeGeneration	50.86	44.10	46.95	56.67	50.86	49.24

复现方式可以参考这份文档

llm-compressor 支持

目录