旋转位置编码是一种新兴的NLP位置嵌入技术，被广泛应用于Llama、PaLM等最新的大型语言模型中。本文深入解析了旋转位置编码的工作原理，及其如何克服传统绝对位置编码和相对位置编码的缺点。
主要内容包括:
• 绝对位置编码和相对位置编码的优缺点分析
• 旋转位置编码的数学原理与实现方法
• 旋转位置编码如何同时包含绝对和相对位置信息
• 旋转位置编码在计算效率和推理适用性方面的优势
通过详细的解释和图示，本文帮助读者全面理解这一先进的位置编码技术，为深入研究大型语言模型提供了重要参考。

理解旋转位置编码（RoPE）

本文深入探讨了为RAG（检索增强生成）系统添加引文编号（citation）的多种方法，旨在提高AI回答的可信度和可追溯性。文章介绍了四种主要方法：直接Prompt、Langchain的四种官方方法、以及创新的后挂载技术。重点分析了后挂载方法的实现原理和代码示例，展示了如何在不干扰AI生成过程的情况下，为回答添加准确的引用。

如何给RAG挂上引文编号：使用Langchain实现

探索LangChain的新索引API，了解如何高效地将数据源同步到向量存储中，避免重复内容和未更改内容的重写。通过详细的操作指南和实例演示，帮助开发者轻松实现数据的增量更新和向量存储的清理。

如何保持内容数据库与向量数据库内容一致？使用LangChain Indexing API

提示技术提升大语言模型性能，包括零样本提示、少样本提示和指令提示。零样本提示无需示例，直接描述任务；少样本提示通过提供示例提高模型性能；指令提示直接表达期望输出，适用于具备指令遵循能力的模型。关键在于选择适合的提示技术，确保描述清晰，减少偏见，提高指令遵循能力。

Prompt工程的当代进展[译]— 2

在拥有公网IP的环境下，通过SSH隧道设置安全的内网穿透环境可以有效降低网络攻击风险。直接开放远程访问端口易遭受持续的扫描和攻击，而使用SSH隧道封装RDP流量，则通过加密、封装和端口转发显著提高安全性。本文详细介绍了如何在Windows上安装和配置OpenSSH服务器、禁用密码认证、启用密钥认证，以及配置防火墙和SSH隧道，从而实现更安全的远程桌面连接

公网IP环境下的安全内网穿透指南：使用SSH隧道技术

这篇文章详细介绍了大语言模型（LLM）的提示工程策略，强调了建立可靠的评估方法、从简单的提示开始、逐步增加复杂性以及清晰具体地描述期望输出的重要性。文章还探讨了提示组件的结合，如输入数据、示例、指令、指示器和上下文信息，并分析了这些组件如何帮助模型处理复杂问题。

Prompt工程的当代进展[译]— 1

本文展示了基于Langchain框架，利用LLM对无参考文本的摘要生成质量进行评估的关键步骤。

使用Langchain对LLM摘要生成的质量进行评估

在这个信息受限的时代，掌握如何使用Tailscale自建DERP服务器来创建一个私有局域网不仅是一项技能，而是一种自由的象征。本文将引导您通过简单的步骤，解锁网络自由，享受无界连接的快感。

逃离网络限制：使用Tailscale+自建DERP组建私有局域网的终极指南

给你一个整数 n，请你判断该整数是否是 2 的幂次方。如果是，返回 true ；否则，返回 false 。如果存在一个整数 $x$ 使得 $n==2^x$ ，则认为 $n$ 是 2 的幂次方。

面试中的惊慌：2的次幂问题与位运算的神奇

基于LangChain最新LCEL特性，采用Map Reduce方式进行长文本摘要

LangChain LCEL之长文本摘要

本文介绍了vLLM分布式多GPU Docker部署的踩坑经历。在部署过程中遇到了Docker里面的ray客户端不能找到直接安装在宿主机上的ray cluster，以及ray节点需要保持ray版本严格一致等问题。经过探索，找到了一种可行的方案，即不同node之间采用原有跑vLLM的Docker环境，基于Docker里面的ray，连接各节点，组成cluster，再在主节点（head节点）上，运行大模型API启动命令。

vLLM分布式多GPU Docker部署踩坑记

本文详细介绍了如何使用FastAPI搭建一个药品说明书查询服务的后端API，如何通过Docker进行高效部署，以及如何使用Action集成到ChatGPT GPTs以增强服务的交互性和智能性。从数据库选择到域名配置，本指南为开发者提供了一系列步骤，帮助您快速上手并优化您的GPTs。

从API到GPTs：一站式指南构建、部署和构建基于ChatGPT的智能药品说明书助手

vllm低资源部署服务运行一段时间后卡死，初步确定为GPU内存较小，较长的prompt和生成导致kv cache使用率接近或者达到100%，从而卡死。

[bug] vllm低资源部署服务运行一段时间后卡死

本文介绍了使用vllm推理框架和Docker技术在NVIDIA CUDA环境中部署阿里味的Qwen-7B-Chat大模型的详细步骤。文章详细描述了从编写Dockerfile到配置Web UI的全过程。此外，还展示了如何使用gradio创建一个简洁有效的Web界面，并说明了如何通过Docker命令行启动和运行模型。

使用Docker、vllm和Gradio部署开源LLM，以Qwen-7B-Chat为例

微软的WSL2在Windows平台上为开发者带来了高效的Linux开发体验。其最新预发布版本提供了“镜像”网络模式，使WSL2与Windows共享同一个局域网IP，支持代理、IPv6，以及直接的局域网连接。此文章详细介绍了如何设置和利用这些新特性，为Linux开发在Windows上带来更加流畅和高效的体验。

WSL2的镜像网络模式：带来更流畅的Linux开发体验

在使用 Docker 和 VLLM 部署大型模型时，我们可能会遇到 GPU 选择问题。本文分享了一个常见误区：使用 docker run --gpus 4 并不是选择编号为 4 的 GPU，而是选择前 4 个 GPU。要选择特定编号的 GPU，应使用如 docker run --gpus '"device=4"' 的命令格式。此外，还提供了 -gpus 参数的常见用法参考，帮助开发者更准确地部署模型。此经验旨在帮助开发者避免相同的陷阱，确保部署过程顺利。

使用Docker和VLLM部署大型模型：GPU选择的那点小误会

spacy-llm 是一个强大的库，旨在将大型语言模型（LLMs，如GPT-3、GPT-4）集成到spaCy的NLP管道中。其主要特性包括模块化的任务和模型定义、对多种托管和自托管模型的支持，以及与其他spaCy组件的无缝集成。

集成大型语言模型（LLMs）到spaCy NLP管道：新的NLP折腾方案

在WSL2中搭建Python开发环境时，许多码农选择使用Anaconda或Miniconda。但这两者尽管功能丰富，却相对庞大，容易消耗硬盘空间。为了寻求更轻量级的解决方案，本文推荐直接使用apt添加ppa:deadsnakes/ppa源来安装特定版本的Python。接着，我们介绍了poetry作为一种轻量级的依赖管理和打包工具。poetry简洁、高效，为开发者提供清晰的项目结构，并自动处理项目依赖。总体来说，轻量级工具在WSL2下为Python开发提供了高效、简便的选择。

WSL2设置的最佳实践之——跳出Anaconda，拥抱Poetry

安装wsl2，配置开发环境，设置GPU加速(NVIDIA CUDA)

WSL2设置的最佳实践之——初步安装

本文为“一步步手撸Transformer”系列的第二篇，重点讲解了“多头注意力（Multi-Head Attention）”机制。多头注意力是自注意力（Self-Attention）的一个扩展，首次在2017年由Vaswani等人在"Attention Is All You Need"论文中提出。在Transformer模型中，注意力机制主要在三个地方使用：编码器的自注意力、解码器的自注意力以及解码器中的编码器-解码器注意力。该文详细解释了注意力层的输入（Query, Key, Value）及其计算公式。同时，文章也解答了关于多头注意力的三个常见疑问：1. 参数$d_k$的计算和其意义；2. 为何在解码器中要使用掩码；3. Q、K、V这三个术语的来源和意义。最后，还给出了多头注意力的代码实现和相关的参考资料链接。

前言

步骤

1. 编写vllm Dockerfile

2. 编写基于gradio的Web界面(Ctrl+C & Ctrl+V)

3. 跑起来

参考文章