CNN 是什麼？卷積神經網路的原理與應用一次看懂

一句話解釋

CNN（Convolutional Neural Network，卷積神經網路）是一種專為處理圖像設計的深度學習架構，透過「卷積」操作自動提取圖像中的特徵。

如果用普通的神經網路處理一張 224×224 的彩色圖片，輸入就有 224×224×3 = 150,528 個數值。全連接層的參數量會爆炸，不只訓練慢，還容易過擬合。

CNN 的設計解決了這個問題：它不是一次看整張圖，而是用小小的「濾波器」一塊一塊地掃描，大幅減少參數量。

卷積層是 CNN 的靈魂。它用一個小型的濾波器（Filter / Kernel）在圖像上滑動，每滑一步就計算一次局部區域的特徵。

想像你拿一個 3×3 的放大鏡在照片上移動：

不同的濾波器會提取不同的特徵。淺層的濾波器提取簡單特徵（邊緣、顏色），深層的濾波器提取複雜特徵（眼睛、輪子、文字）。

池化層的功能是降低維度，保留重要特徵，去掉不重要的細節。

最常見的是 Max Pooling：在一個小區域中只保留最大值。例如一個 2×2 的區域只保留一個數字，資料量直接減少 75%。

池化的好處：

卷積和池化提取完特徵後，最後用全連接層做分類。例如：「這些特徵最像貓？還是狗？」

輸入圖片 → [卷積 → 激活 → 池化] × N 次 → 全連接層 → 輸出分類

越深的層提取越抽象的特徵：

考試可能會提到的經典架構：

架構	年份	特色
LeNet	1998	最早的 CNN，用於手寫數字辨識
AlexNet	2012	ImageNet 比賽冠軍，引爆深度學習熱潮
VGG	2014	使用大量 3×3 濾波器堆疊
ResNet	2015	引入殘差連接（Residual Connection），解決梯度消失問題

不需要背每個架構的細節，但要知道 ResNet 的殘差連接是一個重要概念——它讓很深的網路也能順利訓練。