Jiaxuan's Blog

Notes on machine learning and optimization

This page collects my long-form notes on mechanistic interpretability, deep learning theory, optimization, and scaling laws. If you are new here, start from the latest posts below.

论当前 AI 界内“流形”概念使用的泛化与方法论边界

本文讨论 AI 理论研究中“流形”概念的泛化使用，并区分工程命名、几何直觉与严格数学论证之间的边界。

1 min read · 2026 · -- views

并行性与表达能力的权衡：从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界

从电路复杂度的视角，统一解释为什么常数深度 Transformer 无法精确完成任意长度整数乘法，以及为什么更强的 linear attention 变体往往无法保持完全 token 并行性。

5 min read · March 23, 2026 · -- views

2026 · llm reasoning transformer linear-attention complexity-theory · deep-learning
有限宽度下随机高斯矩阵谱范数的偏置与涨落

本文从 Wishart 随机矩阵理论出发，推导元素方差为 1/n 的高斯矩阵谱范数在有限宽度下的展开式，说明其不仅收敛到宏观极限 2，还带有 $n^{-2/3}$ 级别的偏置和 Tracy-Widom 型随机涨落。

3 min read · March 11, 2026 · -- views

2026 · random-matrix spectral-norm wishart tracy-widom finite-width · deep-learning
Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计

本文严密推导并估计了 Adam 与 Muon 优化器在单步迭代中更新矩阵的 Frobenius 范数，并探讨了矩阵形状对范数量级的影响。

4 min read · March 08, 2026 · -- views

2026 · optimizer adam muon frobenius-norm · deep-learning
球面之上：带有 Hyperball 机制的优化器的 μP 缩放

从连续时间球面动力学视角的第一性原理出发，探讨权重范数的内生依赖对超参数对齐的破坏，并严格推导各类 Hyperball 变体优化器实现特征空间对齐的底层数学机制。

7 min read · March 07, 2026 · -- views

2026 · deep-learning spherical-dynamics muP optimizer · deep-learning
球面之上：从球面动力学到 μP

本文脱离 Tensor Programs 的概率论框架，从连续时间的球面动力学视角，严格推导在应用 RMSNorm 的网络架构中，如何通过对齐超球面上的动力学来实现大小网络的对齐。

4 min read · March 05, 2026 · -- views

2026 · deep-learning spherical-dynamics muP rmsnorm · deep-learning

Jiaxuan's Blog

Notes on machine learning and optimization

论当前 AI 界内“流形”概念使用的泛化与方法论边界

并行性与表达能力的权衡：从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界

有限宽度下随机高斯矩阵谱范数的偏置与涨落

Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计

球面之上：带有 Hyperball 机制的优化器的 μP 缩放

球面之上：从球面动力学到 μP