论当前 AI 界内“流形”概念使用的泛化与方法论边界

在当前 AI 与 deep learning theory 研究中,“流形/manifold”一词被频繁用于描述数据分布、表示空间或约束集合。这样做未必是在夸大理论深度,很多时候只是借用几何直觉或一种方便的命名。但若不进一步说明这里的“流形”究竟是严格数学对象、局部近似模型,还是仅仅指一个满足约束的集合,那么讨论就容易失去精确性,其方法论收益也相当有限。

方法论问题

在交叉学科研究中,引入特定数学分支的概念,其根本动机在于调用该领域已建立的成熟数学工具与定理,从而导出新的结论。比如,当我们把机器学习中的特定问题置于信息论的框架下分析时,后续就可以使用信息散度或各类信息不等式进行推导;当问题被划归为统计学问题时,各类集中不等式便成为分析泛化误差边界的核心工具;又或者,当问题被抽象为凸优化问题时,研究者能够利用成体系的凸分析工具来证明算法的收敛性与收敛速率。

但在当前 AI 研究里,manifold 往往只被当作概念标签使用。许多工作满足于宣称“数据位于低维流形上”或“某类约束对象位于某个流形上”,却不继续使用微分几何中的核心工具,例如曲率、测地线、局部坐标变换,或流形上的积分与测度结构。这并不意味着这些工作没有价值,只意味着“流形”在此常常更接近建模语言,而不是一个足以导出新定理的数学框架。若一个概念没有连带引入其工具体系,它的解释力就应被谨慎评估。

局部性质与全局结构

田渊栋在一访谈中,对这种现象提出过批评。以解释对抗样本的“坑洼流形假设”为例:如果不说明这里的流形具有怎样的拓扑结构、正则性条件、嵌入方式或可计算几何量,那么这种说法的数学解释力就是有限的。

在高维空间中,许多复杂数据分布都可以在宽松意义下被描述为低维结构、局部光滑对象,或嵌入在高维空间中的子集。但若只是声称“这是一个流形”,却不说明其拓扑结构或几何特征,这句话提供的信息其实很有限。内蕴维度、局部光滑性或邻域可近似性,大多只是局部性质,未必足以刻画与泛化、鲁棒性或优化动力学相关的全局结构。问题不在于“流形”一词不能使用,而在于仅凭这一命名,很难单独承担解释任务。

一个例子

这里以 DeepSeek 的《mHC: Manifold-Constrained Hyper-Connections》为例。文中的“manifold”更接近工程或几何直觉上的命名,而不必然对应严格意义上的黎曼流形优化。

如果其核心操作只是将满足特定约束条件的集合 $\mathcal{S}$ 视作一个流形 $\mathcal{M}$,并在其上实施受限更新,那么从数学内容上看,它更像一个带约束的优化问题。把这种对象称为 manifold,本身未必有错;在合适的正则性条件下,约束集合确实可能构成流形。但若文章并未进一步使用黎曼度量、切空间投影、测地线或其他流形优化中的关键结构,那么更准确的说法应当是:作者采用了一种几何化命名,而不是给出了严格的流形优化理论。真正需要讨论的,不是这个名字是否“高级”,而是它是否对应了额外的数学内容。

结语

科学研究应避免让命名承担超出论证能力的理论承诺。若在 AI 理论分析中使用“流形”这一概念,就应说明这里采用的是严格的微分几何定义,还是局部近似、建模直觉或工程表达。若研究本质上处理的是带约束的优化问题或低维结构假设,那么直接使用相应语言,通常比笼统诉诸“流形”更准确。理论机器学习的发展,最终依赖的仍是可检验的定义、清晰的假设和扎实的数学推导。

引用

如果您需要引用本文,请参考:

@article{zou2026manifold,
  title={论当前 AI 界内“流形”概念使用的泛化与方法论边界},
  author={Zou, Jiaxuan},
  journal={Jiaxuan's Blog},
  year={2026},
  url={https://jiaxuanzou0714.github.io/blog/2026/manifold/}
}



    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • 并行性与表达能力的权衡:从 $AC^0$/$TC^0$ 到 Linear Attention 的理论边界
  • 有限宽度下随机高斯矩阵谱范数的偏置与涨落
  • Adam 与 Muon 优化器更新矩阵的 Frobenius 范数估计
  • 球面之上:带有 Hyperball 机制的优化器的 μP 缩放
  • 球面之上:从球面动力学到 μP