2 | Page | LittleFish’Blog

🗒️

|

开发

Bug

vllm低资源部署服务运行一段时间后卡死，初步确定为GPU内存较小，较长的prompt和生成导致kv cache使用率接近或者达到100%，从而卡死。

文章详情

🗒️

|

LLM

本文介绍了使用vllm推理框架和Docker技术在NVIDIA CUDA环境中部署阿里味的Qwen-7B-Chat大模型的详细步骤。文章详细描述了从编写Dockerfile到配置Web UI的全过程。此外，还展示了如何使用gradio创建一个简洁有效的Web界面，并说明了如何通过Docker命令行启动和运行模型。

文章详情

🗒️

|

开发

微软的WSL2在Windows平台上为开发者带来了高效的Linux开发体验。其最新预发布版本提供了“镜像”网络模式，使WSL2与Windows共享同一个局域网IP，支持代理、IPv6，以及直接的局域网连接。此文章详细介绍了如何设置和利用这些新特性，为Linux开发在Windows上带来更加流畅和高效的体验。

文章详情

🗒️

|

LLM

在使用 Docker 和 VLLM 部署大型模型时，我们可能会遇到 GPU 选择问题。本文分享了一个常见误区：使用 docker run --gpus 4 并不是选择编号为 4 的 GPU，而是选择前 4 个 GPU。要选择特定编号的 GPU，应使用如 docker run --gpus '"device=4"' 的命令格式。此外，还提供了 -gpus 参数的常见用法参考，帮助开发者更准确地部署模型。此经验旨在帮助开发者避免相同的陷阱，确保部署过程顺利。

|

spacy-llm 是一个强大的库，旨在将大型语言模型（LLMs，如GPT-3、GPT-4）集成到spaCy的NLP管道中。其主要特性包括模块化的任务和模型定义、对多种托管和自托管模型的支持，以及与其他spaCy组件的无缝集成。

|

在WSL2中搭建Python开发环境时，许多码农选择使用Anaconda或Miniconda。但这两者尽管功能丰富，却相对庞大，容易消耗硬盘空间。为了寻求更轻量级的解决方案，本文推荐直接使用apt添加ppa:deadsnakes/ppa源来安装特定版本的Python。接着，我们介绍了poetry作为一种轻量级的依赖管理和打包工具。poetry简洁、高效，为开发者提供清晰的项目结构，并自动处理项目依赖。总体来说，轻量级工具在WSL2下为Python开发提供了高效、简便的选择。

|

安装wsl2，配置开发环境，设置GPU加速(NVIDIA CUDA)

|

本文为“一步步手撸Transformer”系列的第二篇，重点讲解了“多头注意力（Multi-Head Attention）”机制。多头注意力是自注意力（Self-Attention）的一个扩展，首次在2017年由Vaswani等人在"Attention Is All You Need"论文中提出。在Transformer模型中，注意力机制主要在三个地方使用：编码器的自注意力、解码器的自注意力以及解码器中的编码器-解码器注意力。该文详细解释了注意力层的输入（Query, Key, Value）及其计算公式。同时，文章也解答了关于多头注意力的三个常见疑问：1. 参数$d_k$的计算和其意义；2. 为何在解码器中要使用掩码；3. Q、K、V这三个术语的来源和意义。最后，还给出了多头注意力的代码实现和相关的参考资料链接。

文章详情