Jiaxuan's Blog

Notes on machine learning and optimization

This page collects my long-form notes on mechanistic interpretability, deep learning theory, optimization, and scaling laws. If you are new here, start from the latest posts below.

论当前 AI 界内“流形”概念使用的泛化与方法论边界

本文讨论 AI 理论研究中“流形”概念的泛化使用，并区分工程命名、几何直觉与严格数学论证之间的边界。

1 min read · 2026 · -- views

在 LLM 语境下，梯度里的噪声会如何影响 training dynamics？

当梯度信号被噪声淹没时，行归一化优化器为何能有效工作？本文通过数学推导揭示：它的核心优势并非方向修正，而是零次齐次映射带来的更新幅值饱和与隐式逆噪声加权——在多块异方差场景下体现为真正有用的块自适应学习率。

9 min read · April 14, 2026 · -- views

2026 · optimization deep-learning llm scaling-law · deep-learning
并行性与表达能力的权衡：从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界

从电路复杂度的视角，统一解释为什么常数深度 Transformer 无法精确完成任意长度整数乘法，以及为什么更强的 linear attention 变体往往无法保持完全 token 并行性。

5 min read · March 23, 2026 · -- views

2026 · llm reasoning transformer linear-attention complexity-theory · deep-learning
有限宽度下随机高斯矩阵谱范数的偏置与涨落

本文从 Wishart 随机矩阵理论出发，推导元素方差为 1/n 的高斯矩阵谱范数在有限宽度下的展开式，说明其不仅收敛到宏观极限 2，还带有 $n^{-2/3}$ 级别的偏置和 Tracy-Widom 型随机涨落。

3 min read · March 11, 2026 · -- views

2026 · random-matrix spectral-norm wishart tracy-widom finite-width · deep-learning
Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计

本文严密推导并估计了 Adam 与 Muon 优化器在单步迭代中更新矩阵的 Frobenius 范数，并探讨了矩阵形状对范数量级的影响。

4 min read · March 08, 2026 · -- views

2026 · optimizer adam muon frobenius-norm · deep-learning
球面之上：带有 Hyperball 机制的优化器的 μP 缩放

从连续时间球面动力学视角的第一性原理出发，探讨权重范数的内生依赖对超参数对齐的破坏，并严格推导各类 Hyperball 变体优化器实现特征空间对齐的底层数学机制。

7 min read · March 07, 2026 · -- views

2026 · deep-learning spherical-dynamics muP optimizer · deep-learning

Jiaxuan's Blog

Notes on machine learning and optimization

论当前 AI 界内“流形”概念使用的泛化与方法论边界

在 LLM 语境下，梯度里的噪声会如何影响 training dynamics？

并行性与表达能力的权衡：从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界

有限宽度下随机高斯矩阵谱范数的偏置与涨落

Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计

球面之上：带有 Hyperball 机制的优化器的 μP 缩放