type
status
date
slug
summary
tags
category
icon
password
前言
近期在做一些大模型的项目(
import tensorflow as torch
-手动狗头),需要站在巨人的肩膀上(开源模型),这里以阿里味的Qwen-7B-Chat为例,使用vllm推理框架,基于Docker进行部署测试。我这里的部署环境是2张2080Ti的显卡。步骤
1. 编写vllm Dockerfile
这里添加了一些注释,运行起来也没有奇怪的
warnning
,直接给出:题外话,不知道你们听过这个笑话没?
执行构建命令
docker build -t vllm-server:0.1.2 .
,构建完成镜像体积大约18.3GB左右。vllm可以提供OpenAI兼容风格的API接口,这样开源模型不太行的时候可以方便一键切换ChatGPT的接口。
2. 编写基于gradio的Web界面(Ctrl+C & Ctrl+V)
参考gradio官方文档。做了一点修订:
<ins/>
3. 跑起来
运行vllm docker:
查看启动日志:
显卡占用(模型分布在两张卡上,他们说的模型并行):
运行WebUI
遥遥领先,完结🎉!