AI第一天自我理解笔记--超参数

1. 超参数是什么？

2. 超参数 vs 模型参数

3. 常见的超参数及比喻

(1) 学习率（Learning Rate）

(2) 批量大小（Batch Size）

(3) 迭代次数（Epochs）

(4) 神经网络层数与隐藏单元数

(5) 正则化参数（如L2正则化系数）

(6) 优化器（Optimizer）

4. 调整超参数的“生活策略”

(1) 试错法（Grid Search/Random Search）

(2) 交叉验证（Cross-Validation）

(3) 自动化工具（如Hyperopt、Optuna）

5. 超参数调整的“陷阱”

6. 总结：超参数是“模型的菜谱”

超参数（Hyperparameter） 是模型训练前必须手动设置的参数，它们决定了模型的训练过程和结构，但不会通过训练数据自动学习。
比喻：
超参数就像菜谱中的“火候”和“烹饪时间”：

以下是机器学习和深度学习中常见的超参数，用生活场景解释：

作用：控制模型每次更新参数的“步长”。
比喻：
想象你在下山找最低点（优化损失函数），学习率就是你的步伐大小：
- 学习率过大：步伐太大，可能错过最低点（不收敛）。
- 学习率过小：步伐太小，下山速度极慢（训练时间过长）。
典型值：0.1、0.001、1e-4（像“大步走”或“小步挪”）。

作用：每次训练时使用的样本数量。
比喻：
比如你学习新知识：
- 小批量（如8）：像“小组讨论”，讨论频繁但资源消耗少。
- 大批量（如256）：像“大班上课”，信息量大但调整不够灵活。
典型值：32、64、128、256（取决于硬件性能）。

作用：训练数据被完整遍历的次数。
比喻：
像“复习次数”：
- 太少（如1次）：还没学会就停了（欠拟合）。
- 太多（如100次）：过度复习到倒背如流，连错别字都记住了（过拟合）。
典型值：10、50、100（需结合早停法防止过拟合）。

作用：决定网络的复杂度。
比喻：
像“盖房子”：
- 层数太少/单元太少：房子太简单，功能不足（欠拟合）。
- 层数太多/单元太多：房子太复杂，容易浪费材料且不稳定（过拟合）。
典型值：根据任务调整（如图像识别可能用100层，文本分类用3-5层）。

作用：选择不同的优化算法（如SGD、Adam）。
比喻：
像“选择不同的跑步方式”：
- SGD：像“匀速跑”，简单但可能效率低。
- Adam：像“变速跑”，根据坡度调整速度（自适应学习率）。