RAG 是什麼？檢索增強生成的原理、流程與應用場景

一句話解釋

RAG（Retrieval-Augmented Generation，檢索增強生成）是一種結合「搜尋」和「生成」的 AI 技術——先從知識庫中找到相關資料，再讓語言模型根據這些資料生成回答。

大型語言模型（LLM）有幾個先天限制：

RAG 的設計就是為了解決這些問題：讓模型在回答前，先去「查資料」。

把知識庫中的文件切割成小段落，轉換成向量（Embedding），存入向量資料庫。這個步驟通常只需要做一次。

當使用者提出問題時，把問題也轉換成向量，然後在向量資料庫中搜尋最相似的文件段落。

把檢索到的相關段落和使用者的問題一起送給 LLM，讓模型根據這些「參考資料」生成回答。

使用者問題 → 向量搜尋 → 找到相關文件 → 組合成 Prompt → LLM 生成回答

這是考試常考的比較：

把公司的內部文件、SOP、產品手冊建成知識庫，員工可以用自然語言查詢。例如：「我們的退貨政策是什麼？」→ 系統從內部文件中找到答案。

把 FAQ 和歷史客服記錄建成知識庫，AI 客服根據實際資料回答問題，而不是靠模型自己「猜」。

需要精確引用法條或醫學文獻的場景，RAG 可以確保回答有據可查。

把 API 文件和程式碼範例建成知識庫，開發者可以用自然語言查詢用法。

把文字轉換成數字向量的技術。語義相似的文字，向量也會相近。例如「貓」和「小貓」的向量距離很近，「貓」和「汽車」的距離很遠。

專門用來儲存和搜尋向量的資料庫。常見的有：Pinecone、Weaviate、ChromaDB、FAISS 等。

把長文件切成適當大小的段落。太長的段落包含太多資訊，太短的段落缺少上下文。通常 200～500 字是比較好的長度。

RAG 是生成式 AI 應用的重要概念，在初級科目二「生成式 AI 應用與規劃」中是熱門考點。