This page collects my long-form notes on mechanistic interpretability, deep learning theory, optimization, and scaling laws. If you are new here, start from the latest posts below.
-
论当前 AI 界内“流形”概念使用的泛化与方法论边界
本文讨论 AI 理论研究中“流形”概念的泛化使用,并区分工程命名、几何直觉与严格数学论证之间的边界。
-
Tensor Programs (二):从Tensor Programs到 μP
本文对 Tensor Programs 导出的极大更新参数化(μP)的核心理论推导进行系统性梳理。Tensor Programs 理论在推导神经网络缩放法则时,其最基础且最核心的洞察在于:必须根据权重张量生成机制的不同,严格区分并应用大数定律(LLN)与中心极限定理(CLT)。
-
Tensor Programs (一):从Feature Learning 的谱条件到 μP
本文介绍 Greg Yang 的 Tensor Programs 系列的入门论文——A Spectral Condition for Feature Learning,从谱范数的视角推导出 feature learning 所需的 scaling 条件,并由此重新推导 maximal update parametrization(μP)。
-
从 Gated DeltaNet 到 Kaczmarz
本文从 Gated DeltaNet 的在线学习形式出发,并引入 Kaczmarz 算法作为 SGD 的替代方案,分析了其几何意义及与 Longhorn 的联系。
-
如何对齐不同初始化大小下的 Data scaling 曲线
研究了 data scaling 的 empirical slope 关于初始化 std 的关系,并提出一种简单方法来对齐不同初始化大小下的 data scaling 曲线