optimization
an archive of posts with this tag
| Jun 20, 2026 | DASF:一种闭环的 batch size schedule-free 方法 -- views |
|---|---|
| Jun 16, 2026 | 为什么 LLM pretrain 过程中途要把 batch size 翻倍 -- views |
| Apr 14, 2026 | 在 LLM 语境下,梯度里的噪声会如何影响 training dynamics? -- views |
| Feb 08, 2026 | 从 Gated DeltaNet 到 Kaczmarz -- views |