重听杨植麟：Bet on Scaling、第一性原理和长期主义

今天午饭时闲着没事，重听了一遍杨植麟和张小珺在 2024 年 1 月的对谈。

最让我惊讶的是，他在两年多前就已经把很多东西想得很清楚了。long context、scaling law、agent，这些在当时还没有那么清晰的方向，他已经很坚定地 bet 了，而且反复讲长期主义和第一性原理。两年后再看，这些方向几乎都变成了今天绕不过去的问题。

其中最打动我的是这句话：

去找到一个非共识，在这个非共识上找到现在 AI 唯一真正能 work 的基本原理、第一性原理。

我自己也一直相信，要做长期且正确的事，就不能只挑简单的事做。所以听到他反复讲长期主义、下一个十年应该做什么、第一性原理这些词，我很有共鸣。

说到底，无论是创业还是 research，大家都在 bet。我们调用自己的先验、taste 和判断力，下注一些方向，然后尽量长期做下去。

下面是我听完后比较有感觉的几个点。有些地方我会尽量按杨植麟原来的表达来转述。

AGI 组织需要新的组织形式

他还讲到，AGI 组织需要新的组织形式。

现有的组织形式，比如公司、大厂部门、研究院，都不一定完全适合 AGI。Moonshot 自己也在不断迭代，试图找到更好的方式，让合适的人做合适的事。

AGI 也不会只是公司内部闭门造出来的东西。它很可能会和用户一起 co-work、一起演化，中间还会牵涉很多技术之外的协作和组织问题。

这个判断我很认同。AGI 已经超出普通软件项目和普通研究项目的范畴。它需要长期技术 vision、资本、人才密度、工程执行、产品反馈和组织迭代。某种意义上，AGI 公司本身也要被重新设计。

从无限雕花中释放出来

杨植麟讲到，他在 Google 做 Transformer 语言模型时最大的收获，是把自己从无限雕花里释放出来，学会看大的方向和大的梯度。

很多时候，领域里的差距不在某个技术细节是否足够精巧，而在你到底盯着什么问题。比如在很小的数据集上反复优化 perplexity、loss，设计复杂 architecture 或正则化技巧，可能让指标短期变好，但未必真的碰到问题本质。

更好的问法可能是：什么结构足够通用，又足够可规模化？

如果一个框架能容纳很多问题，并且随着算力投入持续变好，它就更接近底层机制。Scaling law 就是这样的例子。

所以我很认同他说的一句话：

能用 scale 解决的问题，就不要用新算法解决；新算法最大的价值，是帮助系统更好地 scale。

创业需要资本、人才和 timing

杨植麟一直觉得，做一个独立的、真正为 AGI 搭建的组织是 make sense 的。但这件事不是想做就能做，它需要一些变量成熟。

他提到两个生产要素：资本和人才。

决定创业之后，最难的是凑齐资本和人才，而这两件事都高度依赖 timing。当时第一轮融资的窗口非常短，可能只有一个月。太早，市场还没反应过来；太晚，机会可能已经过去。

他说自己当时在美国，有一天晚上做了一个精确计算，算完之后觉得，至少要在几个月内拿到 1 亿美元。那时很多人还怀疑能不能融到这么多，但后来证明这个判断是对的。

招人也是类似逻辑。到 2023 年 3、4 月，很多顶尖人才开始意识到，通用 AI 可能是未来十年最该投入的方向，人才市场也开始流动。这个时候就需要在正确的时间，快速触达正确的人。行业圈子本身比较近，也给了他们一些优势。

所以 2023 年最有意思的地方在于：资本开始集中进入，人才开始快速聚集，通用 AI 也从一个过去并不存在的行业，变成了大家共同押注的新方向。

保持长期主义，同时保持足够灵敏的嗅觉。

技术 vision 决定很多事

杨植麟认为，Moonshot 这类公司最大的优势，是最高层决策有技术 vision。

比如 long context 这件事，他们基本上在公司成立时就决定要做。这不是看到风口之后的临时跟进，而是一个第一性原理判断：什么能力是根本性的，解决之后会让很多现有问题自然消失。

这和一般产品判断不完全一样。普通产品判断会问：现在用户要什么？当前市场有没有 PMF？这些问题当然重要，但 AGI 公司还要问更长线的问题：未来 10 到 20 年，什么能力会成为基础设施？什么方向一旦成立，会重写后面的产品形态？

long context 就是这种方向。上下文长度一旦足够长，很多原本需要复杂外部系统解决的问题，会被模型能力本身吸收掉。

AGI 是下一个十年的下注对象

杨植麟有一个很强的判断：AGI 是下一个十年唯一有意义的事情。

AI 不会在未来一两年因为某个 PMF 就结束。它关乎未来 10 到 20 年世界会怎么变化。短期 PMF 当然重要，但如果太着急，很容易被更强的模型能力降维打击。

过去很多客服系统、对话系统就是例子。它们在某个阶段看起来有明确价值，但一旦底层模型能力发生跃迁，原来的产品价值会迅速被吸收。

所以长期主义在 AI 里不是口号。底层能力变化太快，如果方向选得太短，很可能还没做完，就已经被下一代模型能力覆盖。

一点个人感受

听完整个对谈，我最后记住的还是几个词：bet on scaling、第一性原理、长期主义和 AGI。

这几个词不能分开理解。

第一性原理让方向判断不至于只靠拍脑袋。Scaling 是可验证、可延展的底层机制。长期主义决定你愿不愿意在非共识阶段持续投入。AGI 则给了一个足够大的目标，让这些 bet 有意义。

所以我才会重听这次对谈。它其实一直在讲一件事：taste is all you need.

难的地方在于，当一个方向还不是共识时，判断它是不是由足够底层的 principle 支撑。如果是，就应该长期下注。

这对创业成立，对 research 也成立。

所以，这篇笔记最后想留下的判断很简单：

bet on scaling，bet on first principles，bet on long-term AGI。

参考资料

张小珺Jùn｜商业访谈录：和杨植麟聊大模型创业这一年：人类理想的增量、有概率的非共识和 Sora