This page collects my long-form notes on mechanistic interpretability, deep learning theory, optimization, and scaling laws. If you are new here, start from the latest posts below.
-
DASF:一种闭环的 batch size schedule-free 方法
本文提出 DASF(Drift-Aware Schedule-Free):基于 Schedule-Free 的对偶(迭代平均↔学习率调度、梯度平均↔batch size 调度),用就地测得的梯度统计在线设定有效 batch size,无 schedule、无调参,省去为标定 batch 而训练代理模型、拟合 scaling law 的开销。真实 transformer 上匹配或超过经调参的基线,并给出「compute-optimal 下最优有效 batch 近似恒定、非 √t 增长」的可证伪负结果。
-
为什么 LLM pretrain 过程中途要把 batch size 翻倍
从 Apertus 70B 的 Double GBS 现象出发,用梯度噪声尺度、critical batch size 与变分法,推导 LLM 预训练中途增大 batch size 的最优 schedule,并在 noisy quadratic model 上验证。
-
不要只学习 19 世纪的西方:文明中心论、世界主义与青年领袖的公共责任
读刘擎关于天下与新世界主义的文章后,我对文明中心论、19 世纪式强权想象,以及青年技术人公共责任的一些想法。
-
重听杨植麟:Bet on Scaling、第一性原理和长期主义
午饭时重听杨植麟和张小珺在 2024 年 1 月的对谈,记下一些关于 long context、scaling law、agent、AGI 组织形式和长期主义的想法。
-
μP Map
μP 相关博客的阅读导航与脉络梳理。