Transformer 是什麼？Self-Attention 到 GPT 的完整解析

一句話解釋

Transformer 是一種深度學習架構，透過「注意力機制」讓模型同時關注輸入序列中所有位置的關係，是 GPT、BERT 等大型語言模型的基礎。

在 Transformer 出現之前，處理文字序列主要靠 RNN 和 LSTM。但它們有個致命缺點：必須一個字一個字依序處理，無法平行運算，訓練速度很慢。

2017 年 Google 發表了論文《Attention Is All You Need》，提出 Transformer 架構，徹底改變了 NLP 領域。如今幾乎所有主流的 AI 語言模型都基於 Transformer。

Self-Attention（自注意力）是 Transformer 最關鍵的概念。

想像你在讀一個句子：「那隻貓坐在墊子上，因為牠很累。」

當模型處理「牠」這個字時，Self-Attention 會計算「牠」和句子中每個字的關聯程度，發現「牠」跟「貓」的關聯最強。這樣模型就知道「牠」指的是「貓」。

你不需要記住數學公式，但要理解：Self-Attention 讓每個字都能「看到」整個句子，而不是只看前面的字。

Transformer 不只用一組注意力，而是同時用多組（通常 8 或 16 組），稱為 Multi-Head Attention。

每個「頭」可以學到不同面向的關係。例如：

最後把所有頭的結果合併，得到更豐富的表示。

因為 Transformer 是平行處理所有字的，它本身不知道字的順序。位置編碼就是把「位置資訊」加到輸入中，讓模型知道每個字在句子中的位置。

完整的 Transformer 有兩個部分：