一句話解釋
RAG(Retrieval-Augmented Generation,檢索增強生成)是一種結合「搜尋」和「生成」的 AI 技術——先從知識庫中找到相關資料,再讓語言模型根據這些資料生成回答。
為什麼需要 RAG?
大型語言模型(LLM)有幾個先天限制:
- 知識有截止日期:模型只知道訓練資料中的內容,不知道最新發生的事
- 會產生幻覺:遇到不知道的問題,模型可能會「編造」看似合理但錯誤的答案
- 無法存取私有資料:模型不知道你公司內部的文件、產品規格、客戶資料
RAG 的設計就是為了解決這些問題:讓模型在回答前,先去「查資料」。
RAG 的運作流程
步驟一:索引(Indexing)
把知識庫中的文件切割成小段落,轉換成向量(Embedding),存入向量資料庫。這個步驟通常只需要做一次。
步驟二:檢索(Retrieval)
當使用者提出問題時,把問題也轉換成向量,然後在向量資料庫中搜尋最相似的文件段落。
步驟三:生成(Generation)
把檢索到的相關段落和使用者的問題一起送給 LLM,讓模型根據這些「參考資料」生成回答。
使用者問題 → 向量搜尋 → 找到相關文件 → 組合成 Prompt → LLM 生成回答RAG vs 微調(Fine-tuning)
這是考試常考的比較:
| 面向 | RAG | Fine-tuning |
|---|---|---|
| 知識更新 | 更新知識庫即可,即時生效 | 需要重新訓練模型 |
| 成本 | 較低,不需要 GPU 訓練 | 較高,需要大量計算資源 |
| 資料量需求 | 少量文件即可開始 | 需要大量標註資料 |
| 幻覺控制 | 有引用來源,較易驗證 | 不容易控制 |
| 適用場景 | 知識問答、客服、文件搜尋 | 調整模型行為風格、特定任務優化 |
實際應用場景
企業知識庫問答
把公司的內部文件、SOP、產品手冊建成知識庫,員工可以用自然語言查詢。例如:「我們的退貨政策是什麼?」→ 系統從內部文件中找到答案。
客服自動化
把 FAQ 和歷史客服記錄建成知識庫,AI 客服根據實際資料回答問題,而不是靠模型自己「猜」。
法律 / 醫療諮詢
需要精確引用法條或醫學文獻的場景,RAG 可以確保回答有據可查。
程式碼文件搜尋
把 API 文件和程式碼範例建成知識庫,開發者可以用自然語言查詢用法。
關鍵技術概念
向量嵌入(Embedding)
把文字轉換成數字向量的技術。語義相似的文字,向量也會相近。例如「貓」和「小貓」的向量距離很近,「貓」和「汽車」的距離很遠。
向量資料庫
專門用來儲存和搜尋向量的資料庫。常見的有:Pinecone、Weaviate、ChromaDB、FAISS 等。
Chunking(分塊)
把長文件切成適當大小的段落。太長的段落包含太多資訊,太短的段落缺少上下文。通常 200~500 字是比較好的長度。
iPAS 考試怎麼考?
RAG 是生成式 AI 應用的重要概念,在初級科目二「生成式 AI 應用與規劃」中是熱門考點。
必記重點
- RAG = 檢索 + 生成,先找資料再回答
- 主要解決 LLM 的幻覺問題和知識即時更新問題
- 跟 Fine-tuning 的差異要能區分
- 核心技術:Embedding、向量資料庫、Chunking
常見考題方向
- 「企業希望讓 AI 回答基於內部文件的問題,最適合使用哪種技術?」→ RAG
- 「RAG 相較於 Fine-tuning 的主要優勢是?」→ 不需要重新訓練模型、知識可即時更新
- 「RAG 系統中,將文件轉換成向量的步驟稱為?」→ Embedding