GitHub
InternLM
主页
 GitHub
推特

Table of Contents

v0.3.0

快速上手

快速上手

编译和安装

编译和安装

测试基准

静态推理性能测试
请求吞吐量性能测试
api_server 性能测试
Triton Inference Server 性能测试
如何使用OpenCompass测评LLMs

模型列表

支持的模型

推理

LLM 离线推理 pipeline
VLM 离线推理 pipeline

服务

部署 LLM 类 openai 服务
部署 VLM 类 openai 服务
部署 gradio 服务
请求分发服务器

量化

INT4 模型量化和部署
KV Cache 量化和测试结果
W8A8 LLM 模型部署

进阶指南

TurboMind 框架
lmdeploy.pytorch 架构
lmdeploy.pytorch 新模型支持
长文本外推
自定义对话模板
如何调试 Turbomind
LMDeploy-QoS 介绍与用法

API 文档

推理 pipeline

Docs >
概览：模块代码

Shortcuts

代码可用的所有模块

lmdeploy.api
lmdeploy.messages
lmdeploy.model

© Copyright 2021-2024, OpenMMLab. Revision 24f190e3.

Built with Sphinx using a theme provided by Read the Docs.

GitHub