遷移學習是什麼？為什麼 BERT 和 GPT 都靠它成功？

一句話解釋

遷移學習（Transfer Learning）是把在一個任務上學到的知識，應用到另一個相關任務上，不用從零開始訓練。

你已經會騎腳踏車了，現在要學騎機車。雖然是不同的交通工具，但「平衡感」「轉彎技巧」「看路的方式」這些技能都可以轉移過去，讓你學得更快。

遷移學習就是這個概念：一個在大量資料上訓練好的模型，它學到的「通用知識」可以應用到你的特定任務上。

從零訓練一個深度學習模型需要大量資料（通常幾萬到幾百萬筆）。但在實際應用中，你可能只有幾百或幾千筆資料。遷移學習讓你用少量資料也能訓練出好模型。

從零訓練一個大型模型可能需要數千個 GPU 小時。遷移學習只需要微調最後幾層，大幅降低計算成本。

不同任務之間有共通的基礎知識。例如，辨識「貓」和辨識「狗」的模型，底層都需要理解「邊緣」「紋理」「形狀」等基礎視覺特徵。

拿預訓練模型的前幾層當作「特徵提取器」，凍結不動，只訓練最後的分類層。

適合：你的資料量很少、任務跟原始模型相似。

在預訓練模型的基礎上，用較小的學習率對整個模型（或最後幾層）做微調。

適合：你有一定量的資料、任務跟原始模型有些不同。

這是目前 NLP 領域最主流的做法。先用大量文本預訓練語言模型（如 BERT、GPT），再針對特定任務微調。

例如：BERT 先在維基百科上學會「理解語言」，再用你的客服對話資料微調，讓它學會「判斷客戶情緒」。

用在 ImageNet 上預訓練的模型（如 ResNet），遷移到醫療影像辨識、製造業瑕疵檢測等特定領域。

BERT、GPT 等語言模型本身就是遷移學習的產物。它們先學會「語言的通用規則」，再遷移到各種下游任務（分類、問答、翻譯等）。

用通用語音模型遷移到特定口音或特定領域（醫療用語、法律用語）的辨識。

Fine-tuning 是遷移學習的子集——遷移學習是概念，Fine-tuning 是實作方式之一。