deep-learning
an archive of posts in this category
| Mar 23, 2026 | 并行性与表达能力的权衡:从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界 -- views |
|---|---|
| Mar 11, 2026 | 有限宽度下随机高斯矩阵谱范数的偏置与涨落 -- views |
| Mar 08, 2026 | Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计 -- views |
| Mar 07, 2026 | 球面之上:带有 Hyperball 机制的优化器的 μP 缩放 -- views |
| Mar 05, 2026 | 球面之上:从球面动力学到 μP -- views |
| Mar 02, 2026 | Tensor Programs (二):从Tensor Programs到 μP -- views |
| Feb 14, 2026 | Tensor Programs (一):从Feature Learning 的谱条件到 μP -- views |
| Feb 08, 2026 | 从 Gated DeltaNet 到 Kaczmarz -- views |
| Feb 01, 2026 | 如何对齐不同初始化大小下的 Data scaling 曲线 -- views |