RAG是什么

RAG 的全称是:Retrieval-Augmented Generation,翻译成中文是:检索增强生成。

说人话就是——让大语言模型(比如 ChatGPT)在生成答案之前,先去找资料(检索)来增强它的知识,再用这些资料来生成更准确的回答。

如何构建一个RAG

  1. 前置准备

    首先我们需要做数据准备,把你要用的资料收集好,比如:公司内部文档(PDFWordMarkdown)、FAQ 列表、产品手册等,然后清洗这些数据,比如

    去掉无关信息、切分成合理的小段。

    然后把每一小段文本用 Embedding 模型转成向量,把这些向量存到向量数据库里,比如 FAISSMilvus 等。

  2. 检索查询

    当用户提问时,先用相同的 Embedding 模型把问题也转成向量。然后在向量数据库里用向量相似度搜索,找出最相关的几段资料(比如 Top 5)。这些找到

    的内容就是上下文增强材料。

  3. 生成回答

    紧接着,就可以把用户的问题 + 检索到的资料一起,作为 Prompt 发给大语言模型(LLM)。 这样可以保证模型只在资料范围内生成答案,降低幻觉。