Skip to main content

Ctrl+K

快速上手

安装
快速开始
其他软硬件平台
- 华为昇腾（Atlas 800T A2）

模型列表

支持的模型

大语言模型(LLMs)部署

LLM 离线推理 pipeline
部署 LLM 类 openai 服务
Tools
LoRA 推理服务
部署 gradio 服务
请求分发服务器

视觉-语言模型(VLMs)部署

VLM 离线推理 pipeline
部署 VLM 类 openai 服务
视觉语言模型
- LLaVA
- InternVL
- InternLM-XComposer-2.5
- cogvlm
- MiniCPM-V
- Phi-3 Vision
- Mllama

量化

INT4 模型量化和部署
W8A8 LLM 模型部署
Key-Value(KV) Cache 量化

测试基准

静态推理性能测试
请求吞吐量性能测试
api_server 性能测试
如何使用OpenCompass测评LLMs

进阶指南

TurboMind 框架
lmdeploy.pytorch 架构
lmdeploy.pytorch 新模型支持
长文本外推
自定义对话模板
如何调试 Turbomind
结构化输出

API 文档

推理 pipeline

Repository
Show source
Suggest edit
Open issue

.rst

其他软硬件平台

其他软硬件平台#

NPU(Huawei)

华为昇腾（Atlas 800T A2）

上一页

快速开始

下一页

华为昇腾（Atlas 800T A2）

作者： LMDeploy Authors

© Copyright 2021-2024, OpenMMLab.

最后更新于 2024 年 10 月 29 日.