This page collects my long-form notes on mechanistic interpretability, deep learning theory, optimization, and scaling laws. If you are new here, start from the latest posts below.
-
并行性与表达能力的权衡:从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界
从电路复杂度的视角,统一解释为什么常数深度 Transformer 无法精确完成任意长度整数乘法,以及为什么更强的 linear attention 变体往往无法保持完全 token 并行性。
-
有限宽度下随机高斯矩阵谱范数的偏置与涨落
本文从 Wishart 随机矩阵理论出发,推导元素方差为 1/n 的高斯矩阵谱范数在有限宽度下的展开式,说明其不仅收敛到宏观极限 2,还带有 $n^{-2/3}$ 级别的偏置和 Tracy-Widom 型随机涨落。
-
Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计
本文严密推导并估计了 Adam 与 Muon 优化器在单步迭代中更新矩阵的 Frobenius 范数,并探讨了矩阵形状对范数量级的影响。
-
球面之上:带有 Hyperball 机制的优化器的 μP 缩放
从连续时间球面动力学视角的第一性原理出发,探讨权重范数的内生依赖对超参数对齐的破坏,并严格推导各类 Hyperball 变体优化器实现特征空间对齐的底层数学机制。
-
球面之上:从球面动力学到 μP
本文脱离 Tensor Programs 的概率论框架,从连续时间的球面动力学视角,严格推导在应用 RMSNorm 的网络架构中,如何通过对齐超球面上的动力学来实现大小网络的对齐。