部署 gradio 服务¶

通过 LMDeploy 启动 LLM 模型的 gradio 服务，并在 WebUI 上和模型对话特别简单，一条命令即可。

pip install lmdeploy[serve]
lmdeploy serve gradio {model_path}

把上面命令中的 {model_path} 换成 huggingface hub 上的模型 id，比如 internlm/internlm2-chat-7b，或者换成模型的本地路径就可以了。

关于命令的详细参数，请使用 lmdeploy serve gradio --help 查阅。

创建 huggingface demo¶

如果想要在 huggingface 上创建模型的在线演示项目，请按以下步骤进行。

第一步：创建 space¶

首先，注册一个 huggingface 的账号，注册成功后，可以点击右上角头像，选择 New Space 创建。根据 huggingface 的引导选择需要的配置，完成后即可得到一个空白的 demo。

第二步：编写 demo 入口代码 app.py¶

以 internlm/internlm2-chat-7b 模型为例，将 space 空间中的app.py内容填写为：

from lmdeploy.serve.gradio.turbomind_coupled import run_local
from lmdeploy.messages import TurbomindEngineConfig

backend_config = TurbomindEngineConfig(max_batch_size=8)
model_path = 'internlm/internlm2-chat-7b'
run_local(model_path, backend_config=backend_config, server_name="huggingface-space")

创建requirements.txt文本文件，填写如下安装包：

lmdeploy

FAQs¶

ZeroGPU 适配问题。ZeroGPU不适用 LMDeploy Turbomind 引擎，请选择普通 GPU，或者把上述代码中的 backend_config 改成 PyTorchEngineConfig，就可以用 ZeroGPU 了。
gradio 版本问题，目前不支持 4.0.0 以上版本，可以在 app.py 中修改，类似：
```
import os
os.system("pip uninstall -y gradio")
os.system("pip install gradio==3.43.0")
```