用了几天普通的梯度下降（SGD）之后，我发现训练过程有点慢，而且准确率提升到一定程度就卡住了。

老板说：“试试 Adam 优化器。”

结果一试，准确率从 90.79% 直接跳到 96.24%，loss 也降得更快。

虽然 Adam 的实现比 SGD 复杂，但效果确实好得多。今天就来解释一下：什么是优化器，为什么我们需要 Adam。

什么是优化器#

优化器（Optimizer）决定了参数如何更新。

我们之前用的是最简单的梯度下降（SGD）：

θ ← θ - lr · ∇L

每次更新都是：参数减去学习率乘以梯度。

这种方法简单直接，但有很多问题：

学习率难调：太大会震荡，太小会收敛慢
所有参数用同一个学习率：不同参数的梯度大小可能差很多
容易卡在局部最优或鞍点：梯度接近零时更新变得很慢

优化器的作用就是改进这个更新规则，让训练更快、更稳定。

NOTE
优化器是深度学习的核心组件之一。一个好的优化器能让训练速度快几倍，准确率提升几个百分点。常见的优化器有 SGD、Momentum、RMSprop、Adam、AdamW 等。

SGD 的问题#

让我们看看 SGD 在 MNIST 上的表现：

1
model = MinimalClassifier(input_dim=784, hidden_dim=128, output_dim=10,
2
                          lr=0.01, use_adam=False)
3
loss_list = train(model, X_train, y_train, epochs=5, batch_size=64)
4
test(model, X_test, y_test)

输出：

1
Epoch 1/5: 100%| 938/938 [00:01<00:00, 648.53it/s, loss=0.9948]
2
Epoch 2/5: 100%| 938/938 [00:01<00:00, 785.26it/s, loss=0.3770]
3
Epoch 3/5: 100%| 938/938 [00:01<00:00, 671.51it/s, loss=0.2485]
4
Epoch 4/5: 100%| 938/938 [00:01<00:00, 533.82it/s, loss=0.1981]
5
Epoch 5/5: 100%| 938/938 [00:01<00:00, 690.19it/s, loss=0.1713]
6
Test accuracy: 0.9079

最终结果：

测试准确率：90.79%
最终 loss：0.1713

还不错，但能不能更好？

Adam 优化器#

Adam（Adaptive Moment Estimation）是目前最流行的优化器之一。它结合了两种技术：

Momentum：给梯度加上”惯性”，让更新更稳定
RMSprop：给每个参数自适应的学习率

Adam 的核心思想#

Adam 维护两个额外的变量：

m（一阶矩估计，momentum）：
m ← β₁ · m + (1 - β₁) · ∇L

这是梯度的指数移动平均，类似于”速度”。让更新方向更稳定。

v（二阶矩估计，variance）：
v ← β₂ · v + (1 - β₂) · (∇L)²

这是梯度平方的指数移动平均，用来估计梯度的方差。梯度大的参数会得到更小的学习率，梯度小的参数会得到更大的学习率。

参数更新（带偏置校正）：
m̂ = m / (1 - β₁ᵗ)
v̂ = v / (1 - β₂ᵗ)
θ ← θ - lr · m̂ / (√v̂ + ε)

TIP
偏置校正（bias correction）是因为在训练初期，m 和 v 都是从零开始的，会偏向零。除以 (1 - βᵗ) 可以修正这个偏差。

手写 Adam 优化器#

用 numpy 实现一个简洁的 Adam：

1
class TinyAdam:
2
    """
3
    超简洁 Adam：只存 m/v，不做任何面向对象封装花活。
4
    以 (param, grad) 列表作为输入，直接原地更新参数。
5
    """
6
    def __init__(self, lr=0.001, beta1=0.9, beta2=0.999, eps=1e-8):
7
        self.lr = lr          # 学习率
8
        self.beta1 = beta1    # momentum 的衰减系数
9
        self.beta2 = beta2    # RMSprop 的衰减系数
10
        self.eps = eps        # 防止除零的小常数
11
        self.t = 0            # 时间步
12
        self.m = {}           # 一阶矩（momentum）
13
        self.v = {}           # 二阶矩（variance）
14

15
    def step(self, params_and_grads):
16
        """
17
        参数:
18
            params_and_grads: [(param, grad), ...] 列表
19
        """
20
        self.t += 1
21
        for param, grad in params_and_grads:
22
            key = id(param)  # 用参数的内存地址作为 key
23

24
            # 获取或初始化 m 和 v
25
            m = self.m.get(key, np.zeros_like(param))
26
            v = self.v.get(key, np.zeros_like(param))
27

28
            # 更新 m 和 v
29
            m = self.beta1 * m + (1 - self.beta1) * grad
30
            v = self.beta2 * v + (1 - self.beta2) * (grad ** 2)
31

32
            # 偏置校正
33
            m_hat = m / (1 - self.beta1 ** self.t)
34
            v_hat = v / (1 - self.beta2 ** self.t)
35

36
            # 参数更新（原地修改）
37
            param -= self.lr * m_hat / (np.sqrt(v_hat) + self.eps)
38

39
            # 保存更新后的 m 和 v
40
            self.m[key] = m
41
            self.v[key] = v

这个实现非常简洁，核心就是三步：

更新 m 和 v
偏置校正
用校正后的 m 和 v 更新参数

IMPORTANT
用 id(param) 作为 key 是因为我们需要为每个参数维护独立的 m 和 v。id() 返回对象的内存地址，保证唯一性。

集成到模型里#

修改模型的 __init__ 和 step 方法：

1
class MinimalClassifier:
2
    def __init__(self, input_dim, hidden_dim, output_dim, lr=0.01, use_adam=False):
3
        self.lr = lr
4
        self.use_adam = use_adam
5
        self.adam = TinyAdam(lr=lr) if use_adam else None
6
        self.W1 = np.random.randn(input_dim, hidden_dim) * 0.01
7
        self.b1 = np.zeros((1, hidden_dim))
8
        self.W2 = np.random.randn(hidden_dim, output_dim) * 0.01
9
        self.b2 = np.zeros((1, output_dim))
10

11
    # ... forward 和 backward 不变 ...
12

13
    def step(self):
14
        if self.use_adam:
15
            self.adam.step([
16
                (self.W2, self.dW2),
17
                (self.b2, self.db2),
18
                (self.W1, self.dW1),
19
                (self.b1, self.db1),
20
            ])
21
        else:
22
            # 普通 SGD
23
            self.W2 -= self.lr * self.dW2
24
            self.b2 -= self.lr * self.db2
25
            self.W1 -= self.lr * self.dW1
26
            self.b1 -= self.lr * self.db1

现在可以通过 use_adam=True 来切换优化器。

对比实验：SGD vs Adam#

SGD（第一次运行）#

1
model = MinimalClassifier(input_dim=784, hidden_dim=128, output_dim=10,
2
                          lr=0.01, use_adam=False)
3
loss_list = train(model, X_train, y_train, epochs=5, batch_size=64)
4
test(model, X_test, y_test)

输出：

1
Epoch 1/5: 100%| 938/938 [00:01<00:00, 648.53it/s, loss=0.9948]
2
Epoch 2/5: 100%| 938/938 [00:01<00:00, 785.26it/s, loss=0.3770]
3
Epoch 3/5: 100%| 938/938 [00:01<00:00, 671.51it/s, loss=0.2485]
4
Epoch 4/5: 100%| 938/938 [00:01<00:00, 533.82it/s, loss=0.1981]
5
Epoch 5/5: 100%| 938/938 [00:01<00:00, 690.19it/s, loss=0.1713]
6
Test accuracy: 0.9079

Adam（第二次运行）#

1
model = MinimalClassifier(input_dim=784, hidden_dim=128, output_dim=10,
2
                          lr=0.01, use_adam=True)
3
loss_list = train(model, X_train, y_train, epochs=5, batch_size=64)
4
test(model, X_test, y_test)

输出：

1
Epoch 1/5: 100%| 938/938 [00:02<00:00, 390.04it/s, loss=0.0076]
2
Epoch 2/5: 100%| 938/938 [00:02<00:00, 461.98it/s, loss=0.0225]
3
Epoch 3/5: 100%| 938/938 [00:02<00:00, 438.99it/s, loss=0.0439]
4
Epoch 4/5: 100%| 938/938 [00:02<00:00, 419.07it/s, loss=0.0011]
5
Epoch 5/5: 100%| 938/938 [00:01<00:00, 474.81it/s, loss=0.0007]
6
Test accuracy: 0.9624

结果对比#

优化器	最终 Loss	测试准确率	提升
SGD	0.1713	90.79%	-
Adam	0.0007	96.24%	+5.45%

差距惊人：

Loss 降低了 244 倍（0.1713 → 0.0007）
准确率提升了 5.45 个百分点（90.79% → 96.24%）

NOTE
训练时间略有增加（每个 epoch 从 1 秒增加到 2 秒），因为 Adam 需要额外的计算（维护 m 和 v）。但第一个epoch就成功收敛到0.007（巧合），考虑到准确率的提升，这点时间完全值得。

为什么 Adam 这么好用#

Adam 好用的原因：

1. 自适应学习率#

不同参数的梯度大小可能差很多。Adam 给每个参数自适应的学习率：

梯度大的参数 → 学习率变小（防止震荡）
梯度小的参数 → 学习率变大（加速收敛）

2. Momentum 加速#

Momentum 让更新方向更稳定，避免在谷底来回震荡。想象一个球滚下山坡，即使遇到小坑也会凭借惯性继续向前。

3. 对超参数不敏感#

Adam 的默认参数（lr=0.001, β₁=0.9, β₂=0.999）在大多数情况下都能工作得很好。不像 SGD，需要精心调整学习率。

4. 适合稀疏梯度#

对于稀疏梯度（很多元素是零），Adam 也能工作得很好。这在自然语言处理等任务中很常见。

Adam 的超参数#

Adam 有几个超参数：

lr（学习率）：

默认：0.001
通常不需要调整，但可以尝试 0.0001 到 0.01 之间

β₁（momentum 衰减系数）：

默认：0.9
控制 momentum 的”记忆长度”
通常不需要改

β₂（RMSprop 衰减系数）：

默认：0.999
控制梯度方差的”记忆长度”
通常不需要改

ε（防止除零）：

默认：1e-8
纯粹为了数值稳定性
几乎不需要改

TIP
99% 的情况下，直接用默认参数就行。只有在训练不收敛或者过拟合严重时，才需要调整学习率。

可视化 Loss 曲线对比#

把 SGD 和 Adam 的 loss 曲线画在一起：

1
import matplotlib.pyplot as plt
2

3
# 假设已经有了两个 loss_list
4
plt.figure(figsize=(8, 5))
5
plt.plot(loss_list_sgd, label="SGD", alpha=0.7)
6
plt.plot(loss_list_adam, label="Adam", alpha=0.7)
7
plt.xlabel("Iteration")
8
plt.ylabel("Loss (CE)")
9
plt.yscale("log")
10
plt.title("SGD vs Adam on MNIST")
11
plt.legend()
12
plt.grid(True)
13
plt.tight_layout()
14
plt.show()

Adam 的曲线会明显更陡，下降得更快、更稳定。

Adam 的局限性#

虽然 Adam 很好用,但它也有局限性：

1. 可能过拟合：

Adam 收敛快，但有时会过拟合训练集
解决方法：加 L2 正则化或 Dropout

2. 泛化性能不一定最优：

有研究表明，SGD + Momentum 在某些任务上泛化性能更好
Adam 容易找到”尖锐”的最优点，泛化性差

3. 内存占用大：

需要为每个参数维护 m 和 v，内存占用是 SGD 的 3 倍

4. 需要调整学习率：

虽然比 SGD 好调，但仍然需要调整
有些任务可能需要学习率衰减（learning rate decay）

WARNING
近年来出现了 AdamW（Adam + Weight Decay），在很多任务上表现更好。如果 Adam 效果不理想，可以试试 AdamW。

完整代码#

把 Adam 优化器和训练代码整合在一起：

1
import numpy as np
2
import tqdm
3
import matplotlib.pyplot as plt
4
import os
5
import gzip
6

7
# ============================================================
8
#               Basic ops (same style as before)
9
# ============================================================
10
def relu(x):
11
    return np.maximum(0, x)
12

13
def relu_grad(x):
14
    return (x > 0).astype(float)
15

16
def flatten(x):
17
    batch_size = x.shape[0]
18
    return x.reshape(batch_size, -1)
19

20
def softmax(x):
21
    x_max = np.max(x, axis=1, keepdims=True)
22
    exp_x = np.exp(x - x_max)
23
    return exp_x / np.sum(exp_x, axis=1, keepdims=True)
24

25
def cross_entropy(y_pred, y_true):
26
    eps = 1e-15
27
    y_pred = np.clip(y_pred, eps, 1 - eps)
28
    ce = -np.sum(y_true * np.log(y_pred), axis=1)
29
    return np.mean(ce)
30

31
def softmax_cross_entropy_grad(y_pred, y_true):
32
    return (y_pred - y_true) / y_true.shape[0]
33

34

35
# ============================================================
36
#                   Minimal MLP Classifier
37
# ============================================================
38
class MinimalClassifier:
39
    def __init__(self, input_dim, hidden_dim, output_dim, lr=0.01, use_adam=False):
40
        self.lr = lr
41
        self.use_adam = use_adam
42
        self.adam = TinyAdam(lr=lr) if use_adam else None
43
        self.W1 = np.random.randn(input_dim, hidden_dim) * 0.01
44
        self.b1 = np.zeros((1, hidden_dim))
45
        self.W2 = np.random.randn(hidden_dim, output_dim) * 0.01
46
        self.b2 = np.zeros((1, output_dim))
47

48
    def forward(self, X):
49
        self.X = flatten(X)
50
        self.z1 = self.X @ self.W1 + self.b1
51
        self.a1 = relu(self.z1)
52
        self.z2 = self.a1 @ self.W2 + self.b2
53
        self.y_pred = softmax(self.z2)
54
        return self.y_pred
55

56
    def backward(self, y_true):
57
        dL_dz2 = softmax_cross_entropy_grad(self.y_pred, y_true)
58

59
        self.dW2 = self.a1.T @ dL_dz2
60
        self.db2 = np.sum(dL_dz2, axis=0, keepdims=True)
61

62
        dL_da1 = dL_dz2 @ self.W2.T
63
        dL_dz1 = dL_da1 * relu_grad(self.z1)
64

65
        self.dW1 = self.X.T @ dL_dz1
66
        self.db1 = np.sum(dL_dz1, axis=0, keepdims=True)
67

68
    def step(self):
69
        if self.use_adam:
70
            self.adam.step([
71
                (self.W2, self.dW2),
72
                (self.b2, self.db2),
73
                (self.W1, self.dW1),
74
                (self.b1, self.db1),
75
            ])
76
        else:
77
            self.W2 -= self.lr * self.dW2
78
            self.b2 -= self.lr * self.db2
79
            self.W1 -= self.lr * self.dW1
80
            self.b1 -= self.lr * self.db1
81

82
    # ============= 推理 =============
83
    def predict(self, X):
84
        y_pred = self.forward(X)
85
        return np.argmax(y_pred, axis=1)
86

87
    # ============= 保存 =============
88
    def save(self, path="mnist_model.npz"):
89
        np.savez(
90
            path,
91
            W1=self.W1, b1=self.b1,
92
            W2=self.W2, b2=self.b2
93
        )
94
        print(f"Model saved to {path}")
95

96
    # ============= 加载 =============
97
    def load(self, path="mnist_model.npz"):
98
        data = np.load(path)
99
        self.W1 = data["W1"]
100
        self.b1 = data["b1"]
101
        self.W2 = data["W2"]
102
        self.b2 = data["b2"]
103
        print(f"Model loaded from {path}")
104

105

106
# ============================================================
107
#         Load MNIST from Kaggle idx files (local)
108
# ============================================================
109
def _open_maybe_gz(path):
110
    if os.path.exists(path):
111
        return open(path, "rb")
112
    if os.path.exists(path + ".gz"):
113
        return gzip.open(path + ".gz", "rb")
114
    raise FileNotFoundError(f"Cannot find {path} or {path+'.gz'}")
115

116
def load_mnist_from_local(data_dir):
117
    train_images_path = os.path.join(data_dir, "train-images-idx3-ubyte")
118
    train_labels_path = os.path.join(data_dir, "train-labels-idx1-ubyte")
119
    test_images_path  = os.path.join(data_dir, "t10k-images-idx3-ubyte")
120
    test_labels_path  = os.path.join(data_dir, "t10k-labels-idx1-ubyte")
121

122
    # images: 16-byte header, then uint8 pixels
123
    with _open_maybe_gz(train_images_path) as f:
124
        data = np.frombuffer(f.read(), dtype=np.uint8, offset=16)
125
    X_train = data.reshape(-1, 28, 28, 1) / 255.0
126

127
    with _open_maybe_gz(test_images_path) as f:
128
        data = np.frombuffer(f.read(), dtype=np.uint8, offset=16)
129
    X_test = data.reshape(-1, 28, 28, 1) / 255.0
130

131
    # labels: 8-byte header, then uint8 labels
132
    with _open_maybe_gz(train_labels_path) as f:
133
        labels_train = np.frombuffer(f.read(), dtype=np.uint8, offset=8)
134
    with _open_maybe_gz(test_labels_path) as f:
135
        labels_test = np.frombuffer(f.read(), dtype=np.uint8, offset=8)
136

137
    y_train = np.zeros((labels_train.size, 10))
138
    y_train[np.arange(labels_train.size), labels_train] = 1
139

140
    y_test = np.zeros((labels_test.size, 10))
141
    y_test[np.arange(labels_test.size), labels_test] = 1
142

143
    return X_train, y_train, X_test, y_test
144

145

146
# ============================================================
147
#                         Train
148
# ============================================================
149
class TinyAdam:
150
    """
151
    超简洁 Adam：只存 m/v，不做任何面向对象封装花活。
152
    以 (param, grad) 列表作为输入，直接原地更新参数。
153
    """
154
    def __init__(self, lr=0.001, beta1=0.9, beta2=0.999, eps=1e-8):
155
        self.lr = lr
156
        self.beta1 = beta1
157
        self.beta2 = beta2
158
        self.eps = eps
159
        self.t = 0
160
        self.m = {}
161
        self.v = {}
162

163
    def step(self, params_and_grads):
164
        self.t += 1
165
        for param, grad in params_and_grads:
166
            key = id(param)
167
            m = self.m.get(key, np.zeros_like(param))
168
            v = self.v.get(key, np.zeros_like(param))
169

170
            m = self.beta1 * m + (1 - self.beta1) * grad
171
            v = self.beta2 * v + (1 - self.beta2) * (grad ** 2)
172

173
            # 偏置校正
174
            m_hat = m / (1 - self.beta1 ** self.t)
175
            v_hat = v / (1 - self.beta2 ** self.t)
176

177
            param -= self.lr * m_hat / (np.sqrt(v_hat) + self.eps)
178

179
            self.m[key] = m
180
            self.v[key] = v
181

182
def train(model, X_train, y_train, epochs, batch_size):
183
    loss_list = []
184
    for epoch in range(epochs):
185
        pbar = tqdm.tqdm(range(0, len(X_train), batch_size),
186
                         desc=f"Epoch {epoch+1}/{epochs}")
187

188
        for i in pbar:
189
            X_batch = X_train[i:i+batch_size]
190
            y_batch = y_train[i:i+batch_size]
191

192
            y_pred = model.forward(X_batch)
193
            loss = cross_entropy(y_pred, y_batch)
194
            loss_list.append(loss)
195

196
            model.backward(y_batch)
197
            model.step()
198

199
            pbar.set_postfix({"loss": f"{loss:.4f}"})
200
    return loss_list
201

202
def test(model, X_test, y_test):
203
    # quick test accuracy
204
    y_pred_test = model.forward(X_test)
205
    pred_classes = np.argmax(y_pred_test, axis=1)
206
    true_classes = np.argmax(y_test, axis=1)
207
    acc = (pred_classes == true_classes).mean()
208
    print(f"\nTest accuracy: {acc:.4f}")
209

210
def plot_loss(loss_list):
211
    plt.figure(figsize=(6, 4))
212
    plt.plot(loss_list)
213
    plt.xlabel("Iteration")
214
    plt.ylabel("Loss (CE)")
215
    plt.yscale("log")
216
    plt.title("MNIST Training Loss")
217
    plt.grid(True)
218
    plt.tight_layout()
219
    plt.show()
220

221
def plot_random_samples(model, X_test, y_test):
222
    indices = random.sample(range(len(X_test)), 10)
223
    plt.figure(figsize=(15, 3))
224
    for i, idx in enumerate(indices):
225
        img = X_test[idx:idx+1]
226
        pred_class = model.predict(img)[0]
227
        true_class = np.argmax(y_test[idx])
228
        plt.subplot(2, 5, i+1)
229
        plt.imshow(img.squeeze(), cmap="gray")
230
        color = "green" if pred_class == true_class else "red"
231
        plt.title(f"Pred: {pred_class}\nTrue: {true_class}", color=color)
232
        plt.axis("off")
233
    plt.tight_layout()
234
    plt.show()
235

236

237
if __name__ == "__main__":
238
    import time
239
    np.random.seed(0)
240

241
    # TODO: change this to where you unzipped the dataset files
242
    # I obtain the dataset from https://www.kaggle.com/datasets/hojjatk/mnist-dataset?resource=download
243
    # e.g. "/Users/lishuyu/Downloads/mnist"
244
    data_dir = "./mnist"
245

246
    X_train, y_train, X_test, y_test = load_mnist_from_local(data_dir)
247

248
    model = MinimalClassifier(input_dim=784, hidden_dim=128, output_dim=10, lr=0.01, use_adam=True)
249
    loss_list = train(model, X_train, y_train, epochs = 5, batch_size = 64)
250
    test(model, X_test, y_test)
251
    plot_loss(loss_list)
252

253
    # ------------------- Save model -------------------
254
    model.save("mnist_model.npz")
255

256
    # ------------------- Load model -------------------
257
    model.load("mnist_model.npz")
258
    test(model, X_test, y_test)
259

260
    # ------------------- Test model -------------------
261
    import random
262
    # 加载模型
263
    model.load("mnist_model.npz")
264
    plot_random_samples(model, X_test, y_test)

小结#

这就是 Adam 优化器的完整实现和对比实验。

核心要点：

Adam 结合了 Momentum 和 RMSprop：既有惯性，又有自适应学习率
效果显著：准确率从 90.79% 提升到 96.24%
实现简洁：核心代码只有 30 行左右
易于使用：默认参数在大多数情况下都能工作

SGD vs Adam 对比：

特性	SGD	Adam
实现复杂度	简单	中等
收敛速度	慢	快
超参数调整	困难	容易
内存占用	小	大
泛化性能	好	中等

对于大多数任务，Adam 是首选。除非你有充足的时间调参，或者发现 Adam 过拟合严重，否则直接用 Adam 就行。

[!quote] “Premature optimization is the root of all evil.”
— Donald Knuth

不要一开始就纠结优化器的选择。先用 Adam 跑通，看看效果。只有在遇到具体问题时，才需要考虑换其他优化器。

for future#

我们观察到模型还是有震荡，这是因为目前模型过小导致无法拟合所有的数据。下一步，增加模型大小/增加CNN层。

上一篇：ML5-给神经网络加上保存和加载功能下一篇：ML7-用 Numba 加速的纯 numpy CNN 达到 98% 准确率

Works Cited

Goodfellow, Ian, et al. Deep Learning. MIT Press, 2016.

Kingma, Diederik P., and Jimmy Ba. “Adam: A Method for Stochastic Optimization.” Proceedings of the International Conference on Learning Representations, 2015.

Loshchilov, Ilya, and Frank Hutter. “Decoupled Weight Decay Regularization.” Proceedings of the International Conference on Learning Representations, 2019.