🗒️[bug] vllm低资源部署服务运行一段时间后卡死
2023-11-9
| 2023-11-10
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password

背景

谁也不敢保证程序也好能直接运行,这不,根据前文vllm搭建的服务部署之后,在运行较长的prompt时候会出现卡死的现象,初步怀疑硬件性能不行(2*2080Ti)。

捉虫

正常情况下,一个请求,从后台日志来看,从Received request开始,以Finished request结束。其中Received request里面包含很多其他信息,如sampling参数,prompt token ids
在中间有一行性能相关指标:
Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 1 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 3.6%, CPU KV cache usage: 0.0%
notion image
如果请求过长,则会在发现性能指标中GPU KV cache usage达到或者接近100%。然后卡死,不会出现之后的Finished request行。
notion image
目前,此issue仍然open,指出和vllm版本无关,和使用vllm api还是OpenAI兼容的API服务无关,最新有同志给出下面的comment:
notion image
我调了一下,用处不大。
这个有用gpu-memory-utilization 。默认值为0.9。设置到0.99可以跑,这样就验证了就是显存不够。
notion image
感觉,还是换个更强大的GPU吧。
理解万岁!
notion image
 
  • 开发
  • Bug
  • 从API到GPTs:一站式指南构建、部署和构建基于ChatGPT的智能药品说明书助手使用Docker、vllm和Gradio部署开源LLM,以Qwen-7B-Chat为例
    Loading...
    目录