llm
an archive of posts with this tag
| Jun 20, 2026 | DASF:一种闭环的 batch size schedule-free 方法 -- views |
|---|---|
| Jun 16, 2026 | 为什么 LLM pretrain 过程中途要把 batch size 翻倍 -- views |
| May 24, 2026 | 重听杨植麟:Bet on Scaling、第一性原理和长期主义 -- views |
| Apr 14, 2026 | 在 LLM 语境下,梯度里的噪声会如何影响 training dynamics? -- views |
| Mar 23, 2026 | 并行性与表达能力的权衡:从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界 -- views |