deep-learning | Jiaxuan Zou

Jun 20, 2026	DASF：一种闭环的 batch size schedule-free 方法 -- views
Jun 16, 2026	为什么 LLM pretrain 过程中途要把 batch size 翻倍 -- views
May 24, 2026	重听杨植麟：Bet on Scaling、第一性原理和长期主义 -- views
May 15, 2026	μP Map -- views
Apr 14, 2026	在 LLM 语境下，梯度里的噪声会如何影响 training dynamics？ -- views
Mar 23, 2026	并行性与表达能力的权衡：从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界 -- views
Mar 11, 2026	有限宽度下随机高斯矩阵谱范数的偏置与涨落 -- views
Mar 08, 2026	Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计 -- views
Mar 07, 2026	球面之上：带有 Hyperball 机制的优化器的 μP 缩放 -- views
Mar 05, 2026	球面之上：从球面动力学到 μP -- views
Mar 02, 2026	Tensor Programs (二)：从Tensor Programs到 μP -- views
Feb 14, 2026	Tensor Programs (一)：从Feature Learning 的谱条件到 μP -- views
Feb 08, 2026	从 Gated DeltaNet 到 Kaczmarz -- views
Feb 01, 2026	如何对齐不同初始化大小下的 Data scaling 曲线 -- views