Skip to main content
Ctrl+K
lmdeploy - Home lmdeploy - Home

快速上手

  • 安装
  • 快速开始
  • 其他软硬件平台
    • 华为昇腾(Atlas 800T A2)

模型列表

  • 支持的模型

大语言模型(LLMs)部署

  • LLM 离线推理 pipeline
  • 部署 LLM 类 openai 服务
  • Tools
  • LoRA 推理服务
  • 部署 gradio 服务
  • 请求分发服务器

视觉-语言模型(VLMs)部署

  • VLM 离线推理 pipeline
  • 部署 VLM 类 openai 服务
  • 视觉语言模型
    • LLaVA
    • InternVL
    • InternLM-XComposer-2.5
    • cogvlm
    • MiniCPM-V
    • Phi-3 Vision
    • Mllama

量化

  • INT4 模型量化和部署
  • W8A8 LLM 模型部署
  • Key-Value(KV) Cache 量化

测试基准

  • 静态推理性能测试
  • 请求吞吐量性能测试
  • api_server 性能测试
  • 如何使用OpenCompass测评LLMs

进阶指南

  • TurboMind 框架
  • lmdeploy.pytorch 架构
  • lmdeploy.pytorch 新模型支持
  • 长文本外推
  • 自定义对话模板
  • 如何调试 Turbomind
  • 结构化输出

API 文档

  • 推理 pipeline
  • Repository
  • Show source
  • Suggest edit
  • Open issue
  • .rst

其他软硬件平台

其他软硬件平台#

NPU(Huawei)

  • 华为昇腾(Atlas 800T A2)

上一页

快速开始

下一页

华为昇腾(Atlas 800T A2)

作者: LMDeploy Authors

© Copyright 2021-2024, OpenMMLab.

最后更新于 2024 年 10 月 29 日.