Skip to main content
Back to top
Ctrl
+
K
快速上手
安装
快速开始
其他软硬件平台
华为昇腾
沐曦C500
寒武纪云端加速卡
模型列表
支持的模型
奖励模型
大语言模型(LLMs)部署
LLM 离线推理 pipeline
部署 LLM 类 openai 服务
Tools
Reasoning Outputs
Anthropic 兼容接口
LoRA 推理服务
请求分发服务器
视觉-语言模型(VLMs)部署
VLM 离线推理 pipeline
部署 VLM 类 openai 服务
视觉语言模型
多模态输入
DeepSeek-VL2
LLaVA
InternVL
InternLM-XComposer-2.5
cogvlm
MiniCPM-V
Phi-3 Vision
Qwen2-VL
Qwen2.5-VL
Qwen2-VL
Gemma3
量化
INT4 模型量化和部署
W8A8 LLM 模型部署
Key-Value(KV) Cache 量化
llm-compressor 支持
测试基准
性能测试
模型评测指南
多模态模型评测指南
进阶指南
TurboMind 框架
lmdeploy.pytorch 架构
lmdeploy.pytorch 新模型支持
长文本外推
自定义对话模板
如何调试 Turbomind
结构化输出
PyTorchEngine 多节点部署指南
PyTorchEngine 性能分析
生产环境指标监控
序列并行
Speculative Decoding
权重更新
API 文档
推理 pipeline
OpenAPI 接口
命令行工具
Repository
Show source
Suggest edit
Open issue
.rst
.pdf
其他软硬件平台
其他软硬件平台
#
OtherPF
华为昇腾
沐曦C500
寒武纪云端加速卡