深度學習 vs 機器學習
深度學習是機器學習的子集,使用多層神經網路自動學習特徵。傳統機器學習需要人工設計特徵(Feature Engineering),深度學習則能從原始資料中自動提取。
神經網路基礎
基本結構
- 輸入層:接收原始資料
- 隱藏層:特徵提取與轉換(層數越多越「深」)
- 輸出層:產生預測結果
關鍵概念
- 激活函數:引入非線性(ReLU、Sigmoid、Softmax)
- 損失函數:衡量預測與實際的差距
- 反向傳播:透過鏈式法則計算梯度,更新權重
- 梯度下降:沿著梯度方向更新參數,最小化損失
三大經典架構
CNN(卷積神經網路)
專為圖像處理設計。核心概念:
- 卷積層(Convolution):用濾波器(Filter)掃描圖像,提取局部特徵
- 池化層(Pooling):降低維度,保留重要特徵
- 全連接層:將特徵映射到最終分類
應用:影像分類、物件偵測、人臉辨識
RNN(循環神經網路)
專為序列資料設計(文字、時間序列)。特色是有「記憶」——能考慮前面的輸入。
進階變體:
- LSTM:解決長期依賴問題,有遺忘門、輸入門、輸出門
- GRU:LSTM 的簡化版,參數較少
應用:自然語言處理、語音辨識、時間序列預測
Transformer
目前最主流的架構,GPT、BERT 等都是基於 Transformer。核心機制:
- Self-Attention(自注意力):讓模型關注輸入序列中所有位置的關係
- Multi-Head Attention:多個注意力頭同時捕捉不同面向的關係
- 位置編碼(Positional Encoding):補充序列順序資訊
優勢:可以平行運算,解決 RNN 的訓練速度瓶頸
考試常見題型
架構辨別
下列何者最適合用於影像分類任務? (A) RNN (B) CNN (C) LSTM (D) K-means
答案:B。看到「影像」就選 CNN。
概念理解
Transformer 架構中,Self-Attention 機制的主要功能為何?
這類題考的是你對核心概念的理解,不需要推導公式。
應用場景
某公司想建立一個聊天機器人,應優先考慮使用哪種深度學習架構?
答案:Transformer(因為現代 LLM 都是基於 Transformer)。
備考建議
- 記住每種架構的特色和適用場景,這是最常考的
- 理解 Attention 機制的基本概念
- 不需要記公式,但要理解反向傳播和梯度下降的原理
- 多做考古題,掌握出題模式