一句話解釋
Transformer 是一種深度學習架構,透過「注意力機制」讓模型同時關注輸入序列中所有位置的關係,是 GPT、BERT 等大型語言模型的基礎。
為什麼重要?
在 Transformer 出現之前,處理文字序列主要靠 RNN 和 LSTM。但它們有個致命缺點:必須一個字一個字依序處理,無法平行運算,訓練速度很慢。
2017 年 Google 發表了論文《Attention Is All You Need》,提出 Transformer 架構,徹底改變了 NLP 領域。如今幾乎所有主流的 AI 語言模型都基於 Transformer。
核心機制:Self-Attention
Self-Attention(自注意力)是 Transformer 最關鍵的概念。
想像你在讀一個句子:「那隻貓坐在墊子上,因為牠很累。」
當模型處理「牠」這個字時,Self-Attention 會計算「牠」和句子中每個字的關聯程度,發現「牠」跟「貓」的關聯最強。這樣模型就知道「牠」指的是「貓」。
運作步驟(簡化版)
- 每個字轉換成三個向量:Query(查詢)、Key(鍵)、Value(值)
- 用 Query 和所有 Key 計算相似度(注意力分數)
- 用注意力分數對 Value 加權求和,得到輸出
你不需要記住數學公式,但要理解:Self-Attention 讓每個字都能「看到」整個句子,而不是只看前面的字。
Multi-Head Attention
Transformer 不只用一組注意力,而是同時用多組(通常 8 或 16 組),稱為 Multi-Head Attention。
每個「頭」可以學到不同面向的關係。例如:
- 某個頭學到語法關係(主詞 → 動詞)
- 某個頭學到指代關係(代名詞 → 名詞)
- 某個頭學到位置關係(相鄰的字)
最後把所有頭的結果合併,得到更豐富的表示。
位置編碼(Positional Encoding)
因為 Transformer 是平行處理所有字的,它本身不知道字的順序。位置編碼就是把「位置資訊」加到輸入中,讓模型知道每個字在句子中的位置。
Encoder 和 Decoder
完整的 Transformer 有兩個部分:
- Encoder(編碼器):讀取輸入,產生理解後的表示。BERT 只用 Encoder。
- Decoder(解碼器):根據 Encoder 的輸出,逐步生成輸出。GPT 只用 Decoder。
| 模型 | 使用的部分 | 適合任務 |
|---|---|---|
| BERT | Encoder | 文本分類、問答、命名實體辨識 |
| GPT | Decoder | 文本生成、對話、翻譯 |
| T5 | Encoder + Decoder | 通用型(翻譯、摘要、問答) |
iPAS 考試怎麼考?
常見題型
- 架構辨別:「下列何者是 Transformer 的核心機制?」→ Self-Attention
- 比較題:「Transformer 相較於 RNN 的主要優勢為何?」→ 可平行運算、能捕捉長距離依賴
- 應用題:「GPT 系列模型是基於 Transformer 的哪個部分?」→ Decoder
必記重點
- Transformer 的核心是 Self-Attention(不是 CNN 的卷積、也不是 RNN 的循環)
- 優勢:可平行運算(比 RNN 快)、能處理長距離依賴
- GPT 用 Decoder、BERT 用 Encoder