type
status
date
slug
summary
tags
category
icon
password
背景
谁也不敢保证程序也好能直接运行,这不,根据前文vllm搭建的服务部署之后,在运行较长的prompt时候会出现卡死的现象,初步怀疑硬件性能不行(2*2080Ti)。
捉虫
正常情况下,一个请求,从后台日志来看,从
Received request
开始,以Finished request
结束。其中Received request
里面包含很多其他信息,如sampling
参数,prompt token ids
等在中间有一行性能相关指标:
Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 1 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 3.6%, CPU KV cache usage: 0.0%
如果请求过长,则会在发现性能指标中
GPU KV cache usage
达到或者接近100%。然后卡死,不会出现之后的Finished request
行。目前,此issue仍然open,指出和vllm版本无关,和使用vllm api还是OpenAI兼容的API服务无关,最新有同志给出下面的comment:
这个有用
gpu-memory-utilization
。默认值为0.9。设置到0.99可以跑,这样就验证了就是显存不够。感觉,还是换个更强大的GPU吧。
理解万岁!