Skip to main content
Ctrl+K
lmdeploy - Home

快速上手

  • 安装
  • 快速开始
  • 其他软硬件平台
    • 华为昇腾
    • 沐曦C500
    • 寒武纪云端加速卡

模型列表

  • 支持的模型
  • 奖励模型

大语言模型(LLMs)部署

  • LLM 离线推理 pipeline
  • 部署 LLM 类 openai 服务
  • Tools
  • Reasoning Outputs
  • Anthropic 兼容接口
  • LoRA 推理服务
  • 请求分发服务器

视觉-语言模型(VLMs)部署

  • VLM 离线推理 pipeline
  • 部署 VLM 类 openai 服务
  • 视觉语言模型
    • 多模态输入
    • DeepSeek-VL2
    • LLaVA
    • InternVL
    • InternLM-XComposer-2.5
    • cogvlm
    • MiniCPM-V
    • Phi-3 Vision
    • Qwen2-VL
    • Qwen2.5-VL
    • Qwen2-VL
    • Gemma3

量化

  • INT4 模型量化和部署
  • W8A8 LLM 模型部署
  • Key-Value(KV) Cache 量化
  • llm-compressor 支持

测试基准

  • 性能测试
  • 模型评测指南
  • 多模态模型评测指南

进阶指南

  • TurboMind 框架
  • lmdeploy.pytorch 架构
  • lmdeploy.pytorch 新模型支持
  • 长文本外推
  • 自定义对话模板
  • 如何调试 Turbomind
  • 结构化输出
  • PyTorchEngine 多节点部署指南
  • PyTorchEngine 性能分析
  • 生产环境指标监控
  • 序列并行
  • Speculative Decoding
  • 权重更新

API 文档

  • 推理 pipeline
  • OpenAPI 接口
  • 命令行工具
  • Repository
  • Open issue

索引

_ | C | G | I | P | S | T

_

  • __init__() (lmdeploy.Pipeline 方法)

C

  • chat() (lmdeploy.Pipeline 方法)
  • ChatTemplateConfig(lmdeploy 中的类)

G

  • GenerationConfig(lmdeploy 中的类)
  • get_ppl() (lmdeploy.Pipeline 方法)

I

  • infer() (lmdeploy.Pipeline 方法)

P

  • pipeline()(在 lmdeploy 模块中)
  • Pipeline(lmdeploy 中的类)
  • PytorchEngineConfig(lmdeploy 中的类)

S

  • stream_infer() (lmdeploy.Pipeline 方法)

T

  • TurbomindEngineConfig(lmdeploy 中的类)

作者: LMDeploy Authors

© Copyright 2021-2024, OpenMMLab.

最后更新于 2026 年 05 月 12 日.