iPAS練功房

名詞解釋

Transformer 是什麼?Self-Attention 到 GPT 的完整解析

2026-03-22

一句話解釋

Transformer 是一種深度學習架構,透過「注意力機制」讓模型同時關注輸入序列中所有位置的關係,是 GPT、BERT 等大型語言模型的基礎。

為什麼重要?

在 Transformer 出現之前,處理文字序列主要靠 RNN 和 LSTM。但它們有個致命缺點:必須一個字一個字依序處理,無法平行運算,訓練速度很慢。

2017 年 Google 發表了論文《Attention Is All You Need》,提出 Transformer 架構,徹底改變了 NLP 領域。如今幾乎所有主流的 AI 語言模型都基於 Transformer。

核心機制:Self-Attention

Self-Attention(自注意力)是 Transformer 最關鍵的概念。

想像你在讀一個句子:「那隻坐在墊子上,因為很累。」

當模型處理「牠」這個字時,Self-Attention 會計算「牠」和句子中每個字的關聯程度,發現「牠」跟「貓」的關聯最強。這樣模型就知道「牠」指的是「貓」。

運作步驟(簡化版)

  1. 每個字轉換成三個向量:Query(查詢)Key(鍵)Value(值)
  2. 用 Query 和所有 Key 計算相似度(注意力分數)
  3. 用注意力分數對 Value 加權求和,得到輸出

你不需要記住數學公式,但要理解:Self-Attention 讓每個字都能「看到」整個句子,而不是只看前面的字。

Multi-Head Attention

Transformer 不只用一組注意力,而是同時用多組(通常 8 或 16 組),稱為 Multi-Head Attention。

每個「頭」可以學到不同面向的關係。例如:

  • 某個頭學到語法關係(主詞 → 動詞)
  • 某個頭學到指代關係(代名詞 → 名詞)
  • 某個頭學到位置關係(相鄰的字)

最後把所有頭的結果合併,得到更豐富的表示。

位置編碼(Positional Encoding)

因為 Transformer 是平行處理所有字的,它本身不知道字的順序。位置編碼就是把「位置資訊」加到輸入中,讓模型知道每個字在句子中的位置。

Encoder 和 Decoder

完整的 Transformer 有兩個部分:

  • Encoder(編碼器):讀取輸入,產生理解後的表示。BERT 只用 Encoder。
  • Decoder(解碼器):根據 Encoder 的輸出,逐步生成輸出。GPT 只用 Decoder。
模型使用的部分適合任務
BERTEncoder文本分類、問答、命名實體辨識
GPTDecoder文本生成、對話、翻譯
T5Encoder + Decoder通用型(翻譯、摘要、問答)

iPAS 考試怎麼考?

常見題型

  1. 架構辨別:「下列何者是 Transformer 的核心機制?」→ Self-Attention
  2. 比較題:「Transformer 相較於 RNN 的主要優勢為何?」→ 可平行運算、能捕捉長距離依賴
  3. 應用題:「GPT 系列模型是基於 Transformer 的哪個部分?」→ Decoder

必記重點

  • Transformer 的核心是 Self-Attention(不是 CNN 的卷積、也不是 RNN 的循環)
  • 優勢:可平行運算(比 RNN 快)、能處理長距離依賴
  • GPT 用 Decoder、BERT 用 Encoder