This page collects my long-form notes on mechanistic interpretability, deep learning theory, optimization, and scaling laws. If you are new here, start from the latest posts below.
-
在 LLM 语境下,梯度里的噪声会如何影响 training dynamics?
当梯度信号被噪声淹没时,行归一化优化器为何能有效工作?本文通过数学推导揭示:它的核心优势并非方向修正,而是零次齐次映射带来的更新幅值饱和与隐式逆噪声加权——在多块异方差场景下体现为真正有用的块自适应学习率。
-
并行性与表达能力的权衡:从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界
从电路复杂度的视角,统一解释为什么常数深度 Transformer 无法精确完成任意长度整数乘法,以及为什么更强的 linear attention 变体往往无法保持完全 token 并行性。
-
有限宽度下随机高斯矩阵谱范数的偏置与涨落
本文从 Wishart 随机矩阵理论出发,推导元素方差为 1/n 的高斯矩阵谱范数在有限宽度下的展开式,说明其不仅收敛到宏观极限 2,还带有 $n^{-2/3}$ 级别的偏置和 Tracy-Widom 型随机涨落。
-
Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计
本文严密推导并估计了 Adam 与 Muon 优化器在单步迭代中更新矩阵的 Frobenius 范数,并探讨了矩阵形状对范数量级的影响。
-
球面之上:带有 Hyperball 机制的优化器的 μP 缩放
从连续时间球面动力学视角的第一性原理出发,探讨权重范数的内生依赖对超参数对齐的破坏,并严格推导各类 Hyperball 变体优化器实现特征空间对齐的底层数学机制。