🗒️使用Docker、vllm和Gradio部署开源LLM,以Qwen-7B-Chat为例
2023-11-8
| 2024-5-7
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password

前言

近期在做一些大模型的项目(import tensorflow as torch -手动狗头),需要站在巨人的肩膀上(开源模型),这里以阿里味的Qwen-7B-Chat为例,使用vllm推理框架,基于Docker进行部署测试。我这里的部署环境是2张2080Ti的显卡。

步骤

1. 编写vllm Dockerfile

这里添加了一些注释,运行起来也没有奇怪的warnning,直接给出:
题外话,不知道你们听过这个笑话没?
notion image
执行构建命令docker build -t vllm-server:0.1.2 .,构建完成镜像体积大约18.3GB左右。
notion image
notion image
💡
vllm可以提供OpenAI兼容风格的API接口,这样开源模型不太行的时候可以方便一键切换ChatGPT的接口。
notion image

2. 编写基于gradio的Web界面(Ctrl+C & Ctrl+V)

参考gradio官方文档。做了一点修订:
<ins/>

3. 跑起来

运行vllm docker:
查看启动日志:
notion image
显卡占用(模型分布在两张卡上,他们说的模型并行):
notion image
运行WebUI
notion image
遥遥领先,完结🎉!

参考文章

  • LLM
  • [bug] vllm低资源部署服务运行一段时间后卡死WSL2的镜像网络模式:带来更流畅的Linux开发体验
    Loading...
    目录