iPAS練功房

名詞解釋

遷移學習是什麼?為什麼 BERT 和 GPT 都靠它成功?

2026-03-22

一句話解釋

遷移學習(Transfer Learning)是把在一個任務上學到的知識,應用到另一個相關任務上,不用從零開始訓練。

用比喻來理解

你已經會騎腳踏車了,現在要學騎機車。雖然是不同的交通工具,但「平衡感」「轉彎技巧」「看路的方式」這些技能都可以轉移過去,讓你學得更快。

遷移學習就是這個概念:一個在大量資料上訓練好的模型,它學到的「通用知識」可以應用到你的特定任務上。

為什麼需要遷移學習?

1. 你的資料不夠多

從零訓練一個深度學習模型需要大量資料(通常幾萬到幾百萬筆)。但在實際應用中,你可能只有幾百或幾千筆資料。遷移學習讓你用少量資料也能訓練出好模型。

2. 訓練成本太高

從零訓練一個大型模型可能需要數千個 GPU 小時。遷移學習只需要微調最後幾層,大幅降低計算成本。

3. 領域知識可以共用

不同任務之間有共通的基礎知識。例如,辨識「貓」和辨識「狗」的模型,底層都需要理解「邊緣」「紋理」「形狀」等基礎視覺特徵。

遷移學習的常見做法

1. 特徵提取(Feature Extraction)

拿預訓練模型的前幾層當作「特徵提取器」,凍結不動,只訓練最後的分類層。

適合:你的資料量很少、任務跟原始模型相似。

2. 微調(Fine-tuning)

在預訓練模型的基礎上,用較小的學習率對整個模型(或最後幾層)做微調。

適合:你有一定量的資料、任務跟原始模型有些不同。

3. 預訓練 + 下游任務

這是目前 NLP 領域最主流的做法。先用大量文本預訓練語言模型(如 BERT、GPT),再針對特定任務微調。

例如:BERT 先在維基百科上學會「理解語言」,再用你的客服對話資料微調,讓它學會「判斷客戶情緒」。

遷移學習在不同領域的應用

電腦視覺

用在 ImageNet 上預訓練的模型(如 ResNet),遷移到醫療影像辨識、製造業瑕疵檢測等特定領域。

自然語言處理

BERT、GPT 等語言模型本身就是遷移學習的產物。它們先學會「語言的通用規則」,再遷移到各種下游任務(分類、問答、翻譯等)。

語音辨識

用通用語音模型遷移到特定口音或特定領域(醫療用語、法律用語)的辨識。

遷移學習 vs 相關概念

概念做什麼
遷移學習把一個任務的知識轉移到另一個任務
Fine-tuning遷移學習的一種具體做法
多任務學習同時訓練多個任務,共享部分模型參數
資料增強增加訓練資料的多樣性,不涉及模型轉移

Fine-tuning 是遷移學習的子集——遷移學習是概念,Fine-tuning 是實作方式之一。

iPAS 考試怎麼考?

必記重點

  1. 遷移學習的核心概念:把已學知識應用到新任務
  2. 主要優勢:節省訓練時間和資料、降低計算成本
  3. Fine-tuning 是遷移學習的一種做法
  4. BERT、GPT 都是遷移學習的代表應用

常見考題方向

  • 「下列何種技術最適合在訓練資料有限的情況下,快速建立一個影像辨識模型?」→ 遷移學習
  • 「遷移學習的主要優勢為何?」→ 不需要大量訓練資料也能取得好效果
  • 「BERT 模型使用何種學習策略,使其能應用於多種不同的 NLP 任務?」→ 預訓練 + 遷移學習