重听杨植麟:Bet on Scaling、第一性原理和长期主义

今天午饭时闲着没事,重听了一遍杨植麟和张小珺在 2024 年 1 月的对谈。

最让我惊讶的是,他在两年多前就已经把很多东西想得很清楚了。long context、scaling law、agent,这些在当时还没有那么清晰的方向,他已经很坚定地 bet 了,而且反复讲长期主义和第一性原理。两年后再看,这些方向几乎都变成了今天绕不过去的问题。

其中最打动我的是这句话:

去找到一个非共识,在这个非共识上找到现在 AI 唯一真正能 work 的基本原理、第一性原理。

我自己也一直相信,要做长期且正确的事,就不能只挑简单的事做。所以听到他反复讲长期主义、下一个十年应该做什么、第一性原理这些词,我很有共鸣。

说到底,无论是创业还是 research,大家都在 bet。我们调用自己的先验、taste 和判断力,下注一些方向,然后尽量长期做下去。

下面是我听完后比较有感觉的几个点。有些地方我会尽量按杨植麟原来的表达来转述。

更多突破会出现在业界

杨植麟提到一个趋势:以后更多有价值的突破会出现在业界。

这不是说研究不重要。更准确地说,很多突破已经很难只靠纯研究完成。现在要做的东西往往是一个巨大系统:算法要新,工程要扎实,还要考虑产品和商业化。

这种事情很难单纯在实验室里做完。科研和教育系统的角色也会变化,更多承担训练和培养人才的功能。

AGI 组织需要新的组织形式

他还讲到,AGI 组织需要新的组织形式。

现有的组织形式,比如公司、大厂部门、研究院,都不一定完全适合 AGI。Moonshot 自己也在不断迭代,试图找到更好的方式,让合适的人做合适的事。

AGI 也不会只是公司内部闭门造出来的东西。它很可能会和用户一起 co-work、一起演化,中间还会牵涉很多技术之外的协作和组织问题。

这个判断我很认同。AGI 已经超出普通软件项目和普通研究项目的范畴。它需要长期技术 vision、资本、人才密度、工程执行、产品反馈和组织迭代。某种意义上,AGI 公司本身也要被重新设计。

从无限雕花中释放出来

杨植麟讲到,他在 Google 做 Transformer 语言模型时最大的收获,是把自己从无限雕花里释放出来,学会看大的方向和大的梯度。

很多时候,领域里的差距不在某个技术细节是否足够精巧,而在你到底盯着什么问题。比如在很小的数据集上反复优化 perplexity、loss,设计复杂 architecture 或正则化技巧,可能让指标短期变好,但未必真的碰到问题本质。

更好的问法可能是:什么结构足够通用,又足够可规模化?

如果一个框架能容纳很多问题,并且随着算力投入持续变好,它就更接近底层机制。Scaling law 就是这样的例子。

所以我很认同他说的一句话:

能用 scale 解决的问题,就不要用新算法解决;新算法最大的价值,是帮助系统更好地 scale。

创业需要资本、人才和 timing

杨植麟一直觉得,做一个独立的、真正为 AGI 搭建的组织是 make sense 的。但这件事不是想做就能做,它需要一些变量成熟。

他提到两个生产要素:资本和人才。

决定创业之后,最难的是凑齐资本和人才,而这两件事都高度依赖 timing。当时第一轮融资的窗口非常短,可能只有一个月。太早,市场还没反应过来;太晚,机会可能已经过去。

他说自己当时在美国,有一天晚上做了一个精确计算,算完之后觉得,至少要在几个月内拿到 1 亿美元。那时很多人还怀疑能不能融到这么多,但后来证明这个判断是对的。

招人也是类似逻辑。到 2023 年 3、4 月,很多顶尖人才开始意识到,通用 AI 可能是未来十年最该投入的方向,人才市场也开始流动。这个时候就需要在正确的时间,快速触达正确的人。行业圈子本身比较近,也给了他们一些优势。

所以 2023 年最有意思的地方在于:资本开始集中进入,人才开始快速聚集,通用 AI 也从一个过去并不存在的行业,变成了大家共同押注的新方向。

保持长期主义,同时保持足够灵敏的嗅觉。

技术 vision 决定很多事

杨植麟认为,Moonshot 这类公司最大的优势,是最高层决策有技术 vision。

比如 long context 这件事,他们基本上在公司成立时就决定要做。这不是看到风口之后的临时跟进,而是一个第一性原理判断:什么能力是根本性的,解决之后会让很多现有问题自然消失。

这和一般产品判断不完全一样。普通产品判断会问:现在用户要什么?当前市场有没有 PMF?这些问题当然重要,但 AGI 公司还要问更长线的问题:未来 10 到 20 年,什么能力会成为基础设施?什么方向一旦成立,会重写后面的产品形态?

long context 就是这种方向。上下文长度一旦足够长,很多原本需要复杂外部系统解决的问题,会被模型能力本身吸收掉。

AGI 是下一个十年的下注对象

杨植麟有一个很强的判断:AGI 是下一个十年唯一有意义的事情。

AI 不会在未来一两年因为某个 PMF 就结束。它关乎未来 10 到 20 年世界会怎么变化。短期 PMF 当然重要,但如果太着急,很容易被更强的模型能力降维打击。

过去很多客服系统、对话系统就是例子。它们在某个阶段看起来有明确价值,但一旦底层模型能力发生跃迁,原来的产品价值会迅速被吸收。

所以长期主义在 AI 里不是口号。底层能力变化太快,如果方向选得太短,很可能还没做完,就已经被下一代模型能力覆盖。

一点个人感受

听完整个对谈,我最后记住的还是几个词:bet on scaling、第一性原理、长期主义和 AGI。

这几个词不能分开理解。

第一性原理让方向判断不至于只靠拍脑袋。Scaling 是可验证、可延展的底层机制。长期主义决定你愿不愿意在非共识阶段持续投入。AGI 则给了一个足够大的目标,让这些 bet 有意义。

所以我才会重听这次对谈。它其实一直在讲一件事:taste is all you need.

难的地方在于,当一个方向还不是共识时,判断它是不是由足够底层的 principle 支撑。如果是,就应该长期下注。

这对创业成立,对 research 也成立。

所以,这篇笔记最后想留下的判断很简单:

bet on scaling,bet on first principles,bet on long-term AGI。

参考资料




    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • DASF:一种闭环的 batch size schedule-free 方法
  • 为什么 LLM pretrain 过程中途要把 batch size 翻倍
  • 不要只学习 19 世纪的西方:文明中心论、世界主义与青年领袖的公共责任
  • μP Map
  • 在 LLM 语境下,梯度里的噪声会如何影响 training dynamics?