欢迎来到 LMDeploy 的中文教程！

目录

欢迎来到 LMDeploy 的中文教程！#

LMDeploy 是一个高效且友好的 LLMs 模型部署工具箱，功能涵盖了量化、推理和服务

Star Watch Fork

LMDeploy 工具箱提供以下核心功能：

高效的推理： LMDeploy 开发了 Persistent Batch(即 Continuous Batch)，Blocked K/V Cache，动态拆分和融合，张量并行，高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍
可靠的量化： LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。
便捷的服务： 通过请求分发服务，LMDeploy 支持多模型在多机、多卡上的推理服务。
有状态推理： 通过缓存多轮对话过程中 attention 的 k/v，记住对话历史，从而避免重复处理历史会话。显著提升长文本多轮对话场景中的效率。
卓越的兼容性: LMDeploy 支持 KV Cache 量化, AWQ 和 Automatic Prefix Caching 同时使用。

中文文档#

快速上手

模型列表

支持的模型

大语言模型(LLMs)部署

视觉-语言模型(VLMs)部署

量化

测试基准

进阶指南

API 文档

推理 pipeline

索引与表格#