🗒️ 如何给RAG挂上引文编号:使用Langchain实现

本文深入探讨了为RAG(检索增强生成)系统添加引文编号(citation)的多种方法,旨在提高AI回答的可信度和可追溯性。文章介绍了四种主要方法:直接Prompt、Langchain的四种官方方法、以及创新的后挂载技术。重点分析了后挂载方法的实现原理和代码示例,展示了如何在不干扰AI生成过程的情况下,为回答添加准确的引用。

🗒️ Prompt工程的当代进展[译]— 2

提示技术提升大语言模型性能,包括零样本提示、少样本提示和指令提示。零样本提示无需示例,直接描述任务;少样本提示通过提供示例提高模型性能;指令提示直接表达期望输出,适用于具备指令遵循能力的模型。关键在于选择适合的提示技术,确保描述清晰,减少偏见,提高指令遵循能力。

🗒️ Prompt工程的当代进展[译]— 1

这篇文章详细介绍了大语言模型(LLM)的提示工程策略,强调了建立可靠的评估方法、从简单的提示开始、逐步增加复杂性以及清晰具体地描述期望输出的重要性。文章还探讨了提示组件的结合,如输入数据、示例、指令、指示器和上下文信息,并分析了这些组件如何帮助模型处理复杂问题。

🗒️ 使用Langchain对LLM摘要生成的质量进行评估

本文展示了基于Langchain框架,利用LLM对无参考文本的摘要生成质量进行评估的关键步骤。

🗒️ LangChain LCEL之长文本摘要

基于LangChain最新LCEL特性,采用Map Reduce方式进行长文本摘要

🗒️ vLLM分布式多GPU Docker部署踩坑记

本文介绍了vLLM分布式多GPU Docker部署的踩坑经历。在部署过程中遇到了Docker里面的ray客户端不能找到直接安装在宿主机上的ray cluster,以及ray节点需要保持ray版本严格一致等问题。经过探索,找到了一种可行的方案,即不同node之间采用原有跑vLLM的Docker环境,基于Docker里面的ray,连接各节点,组成cluster,再在主节点(head节点)上,运行大模型API启动命令。

🗒️ 使用Docker、vllm和Gradio部署开源LLM,以Qwen-7B-Chat为例

本文介绍了使用vllm推理框架和Docker技术在NVIDIA CUDA环境中部署阿里味的Qwen-7B-Chat大模型的详细步骤。文章详细描述了从编写Dockerfile到配置Web UI的全过程。此外,还展示了如何使用gradio创建一个简洁有效的Web界面,并说明了如何通过Docker命令行启动和运行模型。

🗒️ 使用Docker和VLLM部署大型模型:GPU选择的那点小误会

在使用 Docker 和 VLLM 部署大型模型时,我们可能会遇到 GPU 选择问题。本文分享了一个常见误区:使用 docker run --gpus 4 并不是选择编号为 4 的 GPU,而是选择前 4 个 GPU。要选择特定编号的 GPU,应使用如 docker run --gpus '"device=4"' 的命令格式。此外,还提供了 -gpus 参数的常见用法参考,帮助开发者更准确地部署模型。此经验旨在帮助开发者避免相同的陷阱,确保部署过程顺利。

🗒️ 集成大型语言模型(LLMs)到spaCy NLP管道:新的NLP折腾方案

spacy-llm 是一个强大的库,旨在将大型语言模型(LLMs,如GPT-3、GPT-4)集成到spaCy的NLP管道中。其主要特性包括模块化的任务和模型定义、对多种托管和自托管模型的支持,以及与其他spaCy组件的无缝集成。

🗒️ 一步步手撸Transformer之(二)—— Multi-head Attention

本文为“一步步手撸Transformer”系列的第二篇,重点讲解了“多头注意力(Multi-Head Attention)”机制。多头注意力是自注意力(Self-Attention)的一个扩展,首次在2017年由Vaswani等人在"Attention Is All You Need"论文中提出。在Transformer模型中,注意力机制主要在三个地方使用:编码器的自注意力、解码器的自注意力以及解码器中的编码器-解码器注意力。该文详细解释了注意力层的输入(Query, Key, Value)及其计算公式。同时,文章也解答了关于多头注意力的三个常见疑问:1. 参数$d_k$的计算和其意义;2. 为何在解码器中要使用掩码;3. Q、K、V这三个术语的来源和意义。最后,还给出了多头注意力的代码实现和相关的参考资料链接。