GitHub
InternLM
主页
GitHub
推特
Table of Contents
v0.3.0
快速上手
快速上手
编译和安装
编译和安装
测试基准
静态推理性能测试
请求吞吐量性能测试
api_server 性能测试
Triton Inference Server 性能测试
如何使用OpenCompass测评LLMs
模型列表
支持的模型
推理
LLM 离线推理 pipeline
VLM 离线推理 pipeline
服务
部署 LLM 类 openai 服务
部署 VLM 类 openai 服务
部署 gradio 服务
请求分发服务器
量化
INT4 模型量化和部署
KV Cache 量化和测试结果
W8A8 LLM 模型部署
进阶指南
TurboMind 框架
lmdeploy.pytorch 架构
lmdeploy.pytorch 新模型支持
长文本外推
自定义对话模板
如何调试 Turbomind
LMDeploy-QoS 介绍与用法
API 文档
推理 pipeline
Docs
>
概览:模块代码
Shortcuts
代码可用的所有模块
lmdeploy.api
lmdeploy.messages
lmdeploy.model
GitHub