Skip to main content
Back to top
Ctrl
+
K
搜索
Ctrl
+
K
快速上手
安装
快速开始
其他软硬件平台
华为昇腾(Atlas 800T A2)
模型列表
支持的模型
大语言模型(LLMs)部署
LLM 离线推理 pipeline
部署 LLM 类 openai 服务
Tools
LoRA 推理服务
部署 gradio 服务
请求分发服务器
视觉-语言模型(VLMs)部署
VLM 离线推理 pipeline
部署 VLM 类 openai 服务
视觉语言模型
LLaVA
InternVL
InternLM-XComposer-2.5
cogvlm
MiniCPM-V
Phi-3 Vision
Mllama
量化
INT4 模型量化和部署
W8A8 LLM 模型部署
Key-Value(KV) Cache 量化
测试基准
静态推理性能测试
请求吞吐量性能测试
api_server 性能测试
如何使用OpenCompass测评LLMs
进阶指南
TurboMind 框架
lmdeploy.pytorch 架构
lmdeploy.pytorch 新模型支持
长文本外推
自定义对话模板
如何调试 Turbomind
结构化输出
API 文档
推理 pipeline
Repository
Show source
Suggest edit
Open issue
.md
.pdf
LLaVA
LLaVA
#
TODO