🗒️ [bug] vllm低资源部署服务运行一段时间后卡死

vllm低资源部署服务运行一段时间后卡死,初步确定为GPU内存较小,较长的prompt和生成导致kv cache使用率接近或者达到100%,从而卡死。

🗒️ 使用Docker、vllm和Gradio部署开源LLM,以Qwen-7B-Chat为例

本文介绍了使用vllm推理框架和Docker技术在NVIDIA CUDA环境中部署阿里味的Qwen-7B-Chat大模型的详细步骤。文章详细描述了从编写Dockerfile到配置Web UI的全过程。此外,还展示了如何使用gradio创建一个简洁有效的Web界面,并说明了如何通过Docker命令行启动和运行模型。

🗒️ WSL2的镜像网络模式:带来更流畅的Linux开发体验

微软的WSL2在Windows平台上为开发者带来了高效的Linux开发体验。其最新预发布版本提供了“镜像”网络模式,使WSL2与Windows共享同一个局域网IP,支持代理、IPv6,以及直接的局域网连接。此文章详细介绍了如何设置和利用这些新特性,为Linux开发在Windows上带来更加流畅和高效的体验。

🗒️ 使用Docker和VLLM部署大型模型:GPU选择的那点小误会

在使用 Docker 和 VLLM 部署大型模型时,我们可能会遇到 GPU 选择问题。本文分享了一个常见误区:使用 docker run --gpus 4 并不是选择编号为 4 的 GPU,而是选择前 4 个 GPU。要选择特定编号的 GPU,应使用如 docker run --gpus '"device=4"' 的命令格式。此外,还提供了 -gpus 参数的常见用法参考,帮助开发者更准确地部署模型。此经验旨在帮助开发者避免相同的陷阱,确保部署过程顺利。

🗒️ 集成大型语言模型(LLMs)到spaCy NLP管道:新的NLP折腾方案

spacy-llm 是一个强大的库,旨在将大型语言模型(LLMs,如GPT-3、GPT-4)集成到spaCy的NLP管道中。其主要特性包括模块化的任务和模型定义、对多种托管和自托管模型的支持,以及与其他spaCy组件的无缝集成。

🗒️ WSL2设置的最佳实践之——跳出Anaconda,拥抱Poetry

在WSL2中搭建Python开发环境时,许多码农选择使用Anaconda或Miniconda。但这两者尽管功能丰富,却相对庞大,容易消耗硬盘空间。为了寻求更轻量级的解决方案,本文推荐直接使用apt添加ppa:deadsnakes/ppa源来安装特定版本的Python。接着,我们介绍了poetry作为一种轻量级的依赖管理和打包工具。poetry简洁、高效,为开发者提供清晰的项目结构,并自动处理项目依赖。总体来说,轻量级工具在WSL2下为Python开发提供了高效、简便的选择。

🗒️ 一步步手撸Transformer之(二)—— Multi-head Attention

本文为“一步步手撸Transformer”系列的第二篇,重点讲解了“多头注意力(Multi-Head Attention)”机制。多头注意力是自注意力(Self-Attention)的一个扩展,首次在2017年由Vaswani等人在"Attention Is All You Need"论文中提出。在Transformer模型中,注意力机制主要在三个地方使用:编码器的自注意力、解码器的自注意力以及解码器中的编码器-解码器注意力。该文详细解释了注意力层的输入(Query, Key, Value)及其计算公式。同时,文章也解答了关于多头注意力的三个常见疑问:1. 参数$d_k$的计算和其意义;2. 为何在解码器中要使用掩码;3. Q、K、V这三个术语的来源和意义。最后,还给出了多头注意力的代码实现和相关的参考资料链接。