RAG是什么

RAG 的全称是：Retrieval-Augmented Generation，翻译成中文是：检索增强生成。

说人话就是——让大语言模型（比如 ChatGPT）在生成答案之前，先去找资料（检索）来增强它的知识，再用这些资料来生成更准确的回答。

如何构建一个RAG

前置准备

首先我们需要做数据准备，把你要用的资料收集好，比如：公司内部文档（PDF、Word、Markdown）、FAQ 列表、产品手册等，然后清洗这些数据，比如

去掉无关信息、切分成合理的小段。

然后把每一小段文本用 Embedding 模型转成向量，把这些向量存到向量数据库里，比如 FAISS、Milvus 等。
检索查询

当用户提问时，先用相同的 Embedding 模型把问题也转成向量。然后在向量数据库里用向量相似度搜索，找出最相关的几段资料（比如 Top 5）。这些找到

的内容就是上下文增强材料。
生成回答

紧接着，就可以把用户的问题 + 检索到的资料一起，作为 Prompt 发给大语言模型（LLM）。这样可以保证模型只在资料范围内生成答案，降低幻觉。