欢迎来到 LMDeploy 的中文教程!¶ 快速上手 快速上手 安装 离线批处理 推理服务 模型量化 好用的工具 编译和安装 编译和安装 测试基准 静态推理性能测试 请求吞吐量性能测试 api_server 性能测试 Triton Inference Server 性能测试 如何使用OpenCompass测评LLMs 模型列表 支持的模型 推理 LLM 离线推理 pipeline VLM 离线推理 pipeline 服务 部署 LLM 类 openai 服务 部署 VLM 类 openai 服务 部署 gradio 服务 请求分发服务器 量化 INT4 模型量化和部署 Key-Value(KV) Cache 量化 W8A8 LLM 模型部署 进阶指南 TurboMind 框架 lmdeploy.pytorch 架构 lmdeploy.pytorch 新模型支持 长文本外推 自定义对话模板 如何调试 Turbomind LMDeploy-QoS 介绍与用法 API 文档 推理 pipeline 索引与表格¶ 索引 搜索页面