This page collects my long-form notes on mechanistic interpretability, deep learning theory, optimization, and scaling laws. If you are new here, start from the latest posts below.
-
在 LLM 语境下,梯度里的噪声会如何影响 training dynamics?
讨论 LLM 预训练后期的梯度噪声,以及块归一化更新为什么更像是在限制更新幅值,而不是在修正梯度方向。
-
并行性与表达能力的权衡:从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界
从电路复杂度的视角,统一解释为什么常数深度 Transformer 无法精确完成任意长度整数乘法,以及为什么更强的 linear attention 变体往往无法保持完全 token 并行性。
-
有限宽度下随机高斯矩阵谱范数的偏置与涨落
本文从 Wishart 随机矩阵理论出发,推导元素方差为 1/n 的高斯矩阵谱范数在有限宽度下的展开式,说明其不仅收敛到宏观极限 2,还带有 $n^{-2/3}$ 级别的偏置和 Tracy-Widom 型随机涨落。
-
Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计
本文严密推导并估计了 Adam 与 Muon 优化器在单步迭代中更新矩阵的 Frobenius 范数,并探讨了矩阵形状对范数量级的影响。
-
球面之上:带有 Hyperball 机制的优化器的 μP 缩放
从连续时间球面动力学视角的第一性原理出发,探讨权重范数的内生依赖对超参数对齐的破坏,并严格推导各类 Hyperball 变体优化器实现特征空间对齐的底层数学机制。