type
Post
status
Published
date
Nov 8, 2023
slug
vllm-docker-server
summary
本文介绍了使用vllm推理框架和Docker技术在NVIDIA CUDA环境中部署阿里味的Qwen-7B-Chat大模型的详细步骤。文章详细描述了从编写Dockerfile到配置Web UI的全过程。此外,还展示了如何使用gradio创建一个简洁有效的Web界面,并说明了如何通过Docker命令行启动和运行模型。
tags
LLM
category
技术分享
icon
password
前言
近期在做一些大模型的项目(
import tensorflow as torch -手动狗头),需要站在巨人的肩膀上(开源模型),这里以阿里味的Qwen-7B-Chat为例,使用vllm推理框架,基于Docker进行部署测试。我这里的部署环境是2张2080Ti的显卡。步骤
1. 编写vllm Dockerfile
这里添加了一些注释,运行起来也没有奇怪的
warnning,直接给出:题外话,不知道你们听过这个笑话没?

执行构建命令
docker build -t vllm-server:0.1.2 .,构建完成镜像体积大约18.3GB左右。

vllm可以提供OpenAI兼容风格的API接口,这样开源模型不太行的时候可以方便一键切换ChatGPT的接口。

2. 编写基于gradio的Web界面(Ctrl+C & Ctrl+V)
参考gradio官方文档。做了一点修订:
<ins/>
3. 跑起来
运行vllm docker:
查看启动日志:

显卡占用(模型分布在两张卡上,他们说的模型并行):

运行WebUI

遥遥领先,完结🎉!