Jiaxuan's Blog

Notes on machine learning and optimization

This page collects my long-form notes on mechanistic interpretability, deep learning theory, optimization, and scaling laws. If you are new here, start from the latest posts below.

论当前 AI 界内“流形”概念使用的泛化与方法论边界

本文讨论 AI 理论研究中“流形”概念的泛化使用，并区分工程命名、几何直觉与严格数学论证之间的边界。

1 min read · 2026 · -- views

论当前 AI 界内“流形”概念使用的泛化与方法论边界

本文讨论 AI 理论研究中“流形”概念的泛化使用，并区分工程命名、几何直觉与严格数学论证之间的边界。

1 min read · March 03, 2026 · -- views

2026 · ai-theory mathematics manifold methodology · artificial-intelligence
Tensor Programs (二)：从Tensor Programs到 μP

本文对 Tensor Programs 导出的极大更新参数化（μP）的核心理论推导进行系统性梳理。Tensor Programs 理论在推导神经网络缩放法则时，其最基础且最核心的洞察在于：必须根据权重张量生成机制的不同，严格区分并应用大数定律（LLN）与中心极限定理（CLT）。

5 min read · March 02, 2026 · -- views

2026 · deep-learning tensor-programs muP feature-learning · deep-learning
Tensor Programs (一)：从Feature Learning 的谱条件到 μP

本文介绍 Greg Yang 的 Tensor Programs 系列的入门论文——A Spectral Condition for Feature Learning，从谱范数的视角推导出 feature learning 所需的 scaling 条件，并由此重新推导 maximal update parametrization（μP）。

8 min read · February 14, 2026 · -- views

2026 · deep-learning tensor-programs muP feature-learning · deep-learning
从 Gated DeltaNet 到 Kaczmarz

本文从 Gated DeltaNet 的在线学习形式出发，并引入 Kaczmarz 算法作为 SGD 的替代方案，分析了其几何意义及与 Longhorn 的联系。

3 min read · February 08, 2026 · -- views

2026 · deep-learning optimization linear-attention · deep-learning
如何对齐不同初始化大小下的 Data scaling 曲线

研究了 data scaling 的 empirical slope 关于初始化 std 的关系，并提出一种简单方法来对齐不同初始化大小下的 data scaling 曲线

7 min read · February 01, 2026 · -- views

2026 · scaling-law · deep-learning

Jiaxuan's Blog

Notes on machine learning and optimization

论当前 AI 界内“流形”概念使用的泛化与方法论边界

论当前 AI 界内“流形”概念使用的泛化与方法论边界

Tensor Programs (二)：从Tensor Programs到 μP

Tensor Programs (一)：从Feature Learning 的谱条件到 μP

从 Gated DeltaNet 到 Kaczmarz

如何对齐不同初始化大小下的 Data scaling 曲线