Q&A

Some questions and answers about my research, background, and interests.


autobiography/teaching2.png

为什么选择数学系

  1. 我从小非常热爱数学,我认为它代表了人类智慧的结晶,是人类对世界进行理解与抽象的最高形式。(基于同样的原因,我也很喜欢哲学。)

  2. 我非常看重科研方法论,即“如何从事科研”与“如何科学地思考问题”。本科阶段的学科选择,核心在于其对思维方式、方法论及世界观的系统性训练。面对实际问题,如何分析、拆解、计划并最终解决,这种能力必须经过系统训练,而数学系在此方面提供了极佳的环境。得益于这种长期训练,如今面对深度学习中的现象或问题时,我首先会考虑将其建模为数学问题,进而选择合适的数学工具(如最优化、统计学、动力系统等)进行分析与解决。我认为,将这种科学、成体系的思维方式引入人工智能领域,是使其真正成为一门科学,而不仅停留在经验或工程层面的关键所在。

为什么选择人工智能

  1. 图灵提出的问题“Can machine think?”引发了深思:我们能否通过计算复现智能?此外,人工智能是一个高度交叉的领域,涉及计算机科学、数学、统计学和认知科学等。我对这些学科均有浓厚兴趣,人工智能提供了一个平台,使我能够结合多学科知识进行探索与创新。

  2. 人工智能毫无疑问是当今时代最具发展潜力的领域之一,正以惊人的速度演进,具备改变世界的巨大可能。同时,我坚信知识分子理应承担改造社会的责任,因此我希望进入该领域,推动相关科学技术进步,并为社会带来积极影响。

为什么本科不直接选择人工智能专业,而是选了数学系

  1. 大部分人工智能(尤其是机器学习与深度学习)问题,本质上都是数学问题。虽然目前存在大量经验性技巧,但若要真正理解问题本质,使人工智能成为一门严谨的科学,就必须从数学基础与系统性科学方法论的角度进行分析与解决。(是的,我会反复强调方法论的重要性)因此,先夯实数学基础,再研究人工智能,是更为合理的路径。

  2. 目前国内部分高校人工智能专业的课程设置与培养方案尚待完善,且不一定能紧跟该领域的快速迭代。相比之下,数学系的课程设置更为成熟与系统,能提供更扎实的理论基础与广泛的数学工具。本科阶段的许多人工智能课程完全可以通过自学掌握,而数学系的专业课则更加依赖系统的课程设置与教师指导。

  3. 如前所述,数学系对科研思维与方法论的训练系统且深入。目前部分人工智能专业的培养模式更偏向于工程技术传授。选择数学系能更好地塑造我的科学思维与方法论,这对未来从事人工智能及其他领域的系统性研究至关重要。

  4. 当前人工智能领域存在高度金融化与浮躁的倾向,部分研究过于注重短期技术迭代与商业应用,而忽视了对基础科学问题的深入探讨,未能将人工智能视作一门严谨的科学。这种环境容易导致学生盲目追求性能指标(如刷SOTA、刷榜),或进行简单的缝合等。我始终认为,核心不在于性能指标本身,而在于实质性地解决了何种问题。研究必须以问题为导向,从科学学科的角度进行思考。相比之下,数学系的学术氛围更为纯粹,不强调短期收益,注重对基础问题的深入研究,这有助于培养我的学术定力以及发掘核心问题的taste。

*注:以上仅为对专业设置的客观评价,绝无评判专业内学生之意。数学与人工智能均高度依赖个人的主观能动性,两门学科中均有顶尖人才。此处仅强调,对我个人而言,选择数学系是更为契合的发展路径。

我是如何开始做科研的

我正式进入科研是在 2024 年 9 月,本科刚入学的时候。当时我所在的书院开展了一个长期活动,允许本科生自主发起并组织研讨班,书院会提供场地、宣发等支持。于是我开始思考:为什么不由我来发起一个深度学习研讨班呢?这既可以通过讲课训练自己的理解与表达能力,也可以建立一个持续交流的平台,扩展同道者之间的联系,并在一定程度上推动西安交通大学本科生科研与深度学习社群的发展。

就这样,依托于西安交通大学的深度学习研讨班成立了。它后来吸引了来自全国超过一千位从业者参与,也自然孕育出许多合作。这正是我最初所构想的方向,只是当时没有预料到它会发展到这样的规模。

也正因如此,我的第一个正式科研机会来自西安交通大学的老师:他们通过这个研讨班联系到我,并邀请我加入课题组。从这段经历开始,我越来越确信一件事:要做长期且正确的事,而不只是简单的事。

我目前最关心的几个问题(截至 2026 年 4 月)

  1. 非线性动力学的解析理论。 目前大部分可解结果仍局限在线性网络或无限宽极限中。真实的有限宽度非线性网络训练动力学依然像一个黑箱,而我希望理解这个黑箱内部到底发生了什么。

  2. 缩放律的起源与断裂点。 幂律关系为什么会成立?它在什么条件下会失效?最近一些工作暗示,缩放律可能在极高规模下出现相变,这让我非常感兴趣。

  3. 惰性 regime 与丰富 regime 的完整相图。 我们知道 lazy regime 和 rich regime 都存在,但它们之间的过渡区域是什么样的?是否存在第三种 regime?如果存在,它会对应怎样的模型行为与训练机制?

  4. 超参数的“标准模型”。 能否建立一个统一框架,将 μP、中心流等参数化方案纳入其中,并给出更加系统、可解释的超参数选择原则?我希望未来的超参数选择不只是经验调参,而是有一套可以推导、比较和迁移的理论。

我的研究品味

我目前对研究的理解,可以概括为“具体-抽象-具体”。

我始终认为,深度学习首先是一门实证学科,因此研究不能脱离具体现象。无论是 scaling law、频率原则,还是训练动力学中的各种经验规律,都应该先被认真观察、复现和刻画。一个好的理论问题,往往不是凭空提出的,而是从真实现象中长出来的。

但停留在现象层面是不够的。我同样相信,深度学习在更深层次上终究是一个数学问题。我们需要把经验现象抽象成可分析的对象,建立自洽的理论框架,解释这些现象为什么出现、何时出现、又会在什么条件下失效。

最终,理论还必须回到具体实践中。一个有价值的理论不应只是形式上优雅,也应该能够解释现实模型的行为,甚至进一步指导训练、架构设计和超参数选择。这就是我所理解的“具体-抽象-具体”:从现象出发,经由理论抽象,再回到现实问题。

我如何学习一个新领域

我学习一个新领域时,通常会先进行大量阅读,建立对核心问题、代表性方法和历史脉络的整体认识。相比于一开始就追逐细节,我更关心这个领域在试图回答什么问题,哪些问题已经被解决,哪些地方仍然存在结构性的空白。

与此同时,我会大量与 AI 对话,用它帮助我梳理概念、检查理解、寻找不同文献之间的联系。对我而言,AI 更像是一个高频反馈的学习伙伴,可以帮助我快速暴露自己没有想清楚的地方。

我也非常重视向前辈学习。很多研究判断、问题品味和技术直觉并不完全写在论文里,而是来自更有经验的研究者对领域的长期观察。与他们交流,往往能帮助我更快地区分哪些问题只是看起来热闹,哪些问题真正值得长期投入。

我怎么看理论与工程的关系

我依然会用“具体-抽象-具体”来理解理论与工程的关系。

工程给我们提供真实问题、经验现象和可检验的反馈。没有工程实践,理论很容易变成脱离现实的形式游戏;但如果只有工程经验,深度学习又会停留在技巧堆叠和试错调参中,难以形成可迁移、可解释、可积累的科学知识。

因此,理论与工程并不是对立关系。好的工程问题可以孕育好的理论问题,而好的理论也应该反过来服务工程实践:帮助我们理解哪些经验规律是稳定的,哪些只是偶然有效;哪些设计可以迁移到更大模型和不同任务中,哪些会在规模、数据或优化条件变化后失效。

影响我的书、电影与音乐

福柯的《规训与惩罚》、杨德昌的电影《一一》

音乐方面,我既喜欢古典音乐,也喜欢摇滚乐。古典音乐给我一种结构、秩序与耐心,摇滚乐则提醒我保持表达欲、批判性和生命力。除此之外,我也在学小提琴。它是一件很难快速获得反馈的事情,但正因如此,它训练的是长期主义和对细节的敏感。

未来几年我想做什么

未来几年,我希望自己能继续做真正重要的事情。对我而言,这不只是发表论文或完成阶段性目标,而是持续寻找那些有机会改变人类理解方式、技术能力与社会结构的问题。

在研究上,我希望做能够连接经验现象、数学机制与现实模型行为的工作:从深度学习中的具体问题出发,建立更清晰的理论解释,并让这些解释反过来指导实践。更长远地说,我希望自己能参与推动人工智能从经验工程走向更成熟的科学体系。

to be continued…

更多的问题可以在评论区提问,我会尽量回答的🤝