🗒️ 如何给RAG挂上引文编号:使用Langchain实现

本文深入探讨了为RAG(检索增强生成)系统添加引文编号(citation)的多种方法,旨在提高AI回答的可信度和可追溯性。文章介绍了四种主要方法:直接Prompt、Langchain的四种官方方法、以及创新的后挂载技术。重点分析了后挂载方法的实现原理和代码示例,展示了如何在不干扰AI生成过程的情况下,为回答添加准确的引用。

🗒️ 如何保持内容数据库与向量数据库内容一致?使用LangChain Indexing API

探索LangChain的新索引API,了解如何高效地将数据源同步到向量存储中,避免重复内容和未更改内容的重写。通过详细的操作指南和实例演示,帮助开发者轻松实现数据的增量更新和向量存储的清理。

🗒️ 使用Langchain对LLM摘要生成的质量进行评估

本文展示了基于Langchain框架,利用LLM对无参考文本的摘要生成质量进行评估的关键步骤。

🗒️ LangChain LCEL之长文本摘要

基于LangChain最新LCEL特性,采用Map Reduce方式进行长文本摘要

🗒️ vLLM分布式多GPU Docker部署踩坑记

本文介绍了vLLM分布式多GPU Docker部署的踩坑经历。在部署过程中遇到了Docker里面的ray客户端不能找到直接安装在宿主机上的ray cluster,以及ray节点需要保持ray版本严格一致等问题。经过探索,找到了一种可行的方案,即不同node之间采用原有跑vLLM的Docker环境,基于Docker里面的ray,连接各节点,组成cluster,再在主节点(head节点)上,运行大模型API启动命令。

🤖 从API到GPTs:一站式指南构建、部署和构建基于ChatGPT的智能药品说明书助手

本文详细介绍了如何使用FastAPI搭建一个药品说明书查询服务的后端API,如何通过Docker进行高效部署,以及如何使用Action集成到ChatGPT GPTs以增强服务的交互性和智能性。从数据库选择到域名配置,本指南为开发者提供了一系列步骤,帮助您快速上手并优化您的GPTs。

🗒️ [bug] vllm低资源部署服务运行一段时间后卡死

vllm低资源部署服务运行一段时间后卡死,初步确定为GPU内存较小,较长的prompt和生成导致kv cache使用率接近或者达到100%,从而卡死。

🗒️ 使用Docker、vllm和Gradio部署开源LLM,以Qwen-7B-Chat为例

本文介绍了使用vllm推理框架和Docker技术在NVIDIA CUDA环境中部署阿里味的Qwen-7B-Chat大模型的详细步骤。文章详细描述了从编写Dockerfile到配置Web UI的全过程。此外,还展示了如何使用gradio创建一个简洁有效的Web界面,并说明了如何通过Docker命令行启动和运行模型。

🗒️ 使用Docker和VLLM部署大型模型:GPU选择的那点小误会

在使用 Docker 和 VLLM 部署大型模型时,我们可能会遇到 GPU 选择问题。本文分享了一个常见误区:使用 docker run --gpus 4 并不是选择编号为 4 的 GPU,而是选择前 4 个 GPU。要选择特定编号的 GPU,应使用如 docker run --gpus '"device=4"' 的命令格式。此外,还提供了 -gpus 参数的常见用法参考,帮助开发者更准确地部署模型。此经验旨在帮助开发者避免相同的陷阱,确保部署过程顺利。

🗒️ 集成大型语言模型(LLMs)到spaCy NLP管道:新的NLP折腾方案

spacy-llm 是一个强大的库,旨在将大型语言模型(LLMs,如GPT-3、GPT-4)集成到spaCy的NLP管道中。其主要特性包括模块化的任务和模型定义、对多种托管和自托管模型的支持,以及与其他spaCy组件的无缝集成。

🗒️ 一步步手撸Transformer之(二)—— Multi-head Attention

本文为“一步步手撸Transformer”系列的第二篇,重点讲解了“多头注意力(Multi-Head Attention)”机制。多头注意力是自注意力(Self-Attention)的一个扩展,首次在2017年由Vaswani等人在"Attention Is All You Need"论文中提出。在Transformer模型中,注意力机制主要在三个地方使用:编码器的自注意力、解码器的自注意力以及解码器中的编码器-解码器注意力。该文详细解释了注意力层的输入(Query, Key, Value)及其计算公式。同时,文章也解答了关于多头注意力的三个常见疑问:1. 参数$d_k$的计算和其意义;2. 为何在解码器中要使用掩码;3. Q、K、V这三个术语的来源和意义。最后,还给出了多头注意力的代码实现和相关的参考资料链接。