翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华|WhynotTV Podcast

Nội dung video gốcMở rộng video
  • OpenAI has made several model releases, and the reason my name appears so frequently is because I contributed significantly to the post-training RL infrastructure.
  • Information equity is essential; I believe everyone should have equal access to information regardless of their background, like when I was at Tsinghua.
  • Before joining OpenAI, I influenced many through open-source projects and code, with the belief that tools are a form of charity.
  • In this episode of YNOW TV Podcast, we delve into my childhood, education at Tsinghua and CMU, and my experiences at OpenAI, focusing on what it's like at the center of AI's evolution.
  • Every model, from ChatGPT to GPT-5, carries parts of my contributions, which include reinforcement learning, post-training, and infrastructure.

OpenAI很多这个model release都有我的名字,这个就是因为我在OpenAI的内部搭了整个 post trainingRL infrastructure,所以整个 post training 的 RL infrastructure 你是最核心的贡献者。是的,因为我觉得应该打破信息差。信息差是一个很有用的东西,如果你在清华生存的话,但我觉得每个人都应该平等地拥有这个信息。哪怕当时有了现代的认知,那还是做不出来。

我不想发 paper,我觉得发 paper 完全没有意义。方方当时说要搞一个 AI lab,就是后面的 deep seek 对我当时是拿了 offer。如果你想进工业界,读 PhD 就是浪费生命。教一个 researcher 如何做好 engineering 要远比教一个 engineer 如何做好 research 来得难。每家的 infra 都有不同程度的 bug,谁修 bug 谁修的 bug 越多,模型选择就越好。

哈喽大家好,本期嘉宾翁家毅,他于20年加入 OpenAI,并且是 OpenAI 一系列模型背后的核心贡献者。从 ChatGPT、GPT4O 再到 GPT5,你能看到的每一个模型跃迁背后都有他的身影。而他的核心贡献可以被总结为三个关键词—— 强化学习、post training、infra。但对我来说,翁家毅不只是把模型做得更强的人。在加入 OpenAI 之前,他就已经用开源和代码影响过无数人,从在清华开源作业与资料,试图打破信息差,到开源强化学习框架 天寿,做出免费签证查询系统,他把代码工具视作一种慈善。

在这期播客,我们会从翁家毅的童年聊起,到清华与 CMU 的求学之路,再到20年加入 OpenAI 之后的亲身经历。站在世界 AI 风暴中心的他看见了什么?这里是 YNOW TV Podcast,现在请和我一起进入翁家毅的世界。

Hello 嘉义,欢迎你来到 YNOTV Podcast。我觉得这期很奇妙的一点就是,我在给你准备这期的 outline 时,我用的是 GPT5 的 deep research,等于说是你自己在背后作为核心开发者的产品和模型,然后他们自己在做 deep research,想这些问题,采访你,可能是他们的生产者,他们的 developer。我觉得这个是一个比较奇妙的闭环。

今天我们会谈到很多部分,从你的童年成长,清华的本科经历,到 CMU 读研,再到20年加入 OpenAI 至今的所有核心开发的经历。我想先从你小时候开始能不能给我讲讲,你觉得你小时候是一个什么样的小孩?

我小时候特别喜欢学奥数,奥数对我从一年级开始就开始学。嗯,嗯,就是因为开始的时候,我爸妈让我去听了这个经修校的一个奥数课跟语文课,我对语文完全不感兴趣,但我对奥数就非常感兴趣。然后我就进去了,从一年级开始就一直上到六年级,初中也是。我发现我做数学题做得比谁都快。

小学的时候,比如说别人的口算题,像二年级的时候口算题可能还没做完,写到一半我就已经做完了。这让我做数学题非常有成就感,因为我觉得我是一个学习相比于其他人比较慢的人。怎么说呢,就是学一个新的东西,我经常要花别人两到三倍的时间。其实现在还是这样,比如说我读一段代码,我就是要花很多的时间去理解这整个内容,但只要我一旦理解之后,我用的就非常快。

有个不太恰当的例子是,比如说我小时候经常要背书,背一个课文,在睡觉之前我想尽所有方法,能够磕磕巴巴的完整地背出来,哪怕有很多停顿,只要想起来都好,睡一觉,第二天醒来发现倒背如流。我当时的想法是因为我需要花更多的时间,所以我需要比别人提前学东西。比如我在初中的时候开始干高中数学,直接问这个初中的数学老师各种高中数学的一些问题,他也非常热心回答我,我也非常感激。

初二的时候就已经把高中啃完了,初三就开始学微积分。数学让我觉得天生做得快,但同时我又觉得我学东西慢。可能我需要更长的时间去构建我的支持数据,正常来说这个支持数据是,比如说有个根,然后往上拓展,然后好几层,每一次拿顶层的结论去应用到这道题当中,我要从头到尾过一遍,慢慢想出来。但我可能直接建立链接,刷卡的,直接上去,不用反应。

所以你是从小就意识到我好像比别人更聪明,没有这种感觉。你说你觉得你对这事感兴趣,你愿意提前学数学,这个核心兴趣来自哪里?我想投资未来,想投资我自己的未来。所以你在初二的时候,你就意识到学高中数学是一种投资,跟与其说我现在浪费时间在刷题上面,不如学一点对未来有用的东西,后面的收益可能更多。

这不是你父母跟你讲过类似的,而是你父母根本不关心你怎么学的。你为什么初中时有投资未来的想法?首先是因为对这个感兴趣,我觉得初等数学太无趣了。这些稍微有意思一点的数学更能引起我的兴趣。

正反馈起到作用,小时候的成就感,获得正反馈后,这会不断增强我的动力。逐渐逐渐你会慢慢把这个数学技能提升,因为每点一次都有个正反馈。然后像打篮球我试过,但是没有什么正反馈。反而是这种正反馈你本身擅长并且对这也不排斥,慢慢就变成了一种自发的内在兴趣。

所以其实倒不是家庭环境,而是你自发产生的。数学你初中的时候提前学高中的数学,那你高中的时候为什么又对编程产生了兴趣呢?编程是初一开始的,初一对编程是因为刚升初中时我去了一个私立学校,有个编程兴趣班。我抱着玩的心态去参加,结果发现还可以。

我的父母觉得这个可能对我挺有意思的。这对升学没有太多直接帮助。后来你也参加了竞赛。为什么当时你搞竞赛呢?因为升学压力还是有的。想上清华北大非北京的人员来说非常难。

所以当时是因为升学压力才搞的。你应该是经历过几轮的选拔,讲讲你在这个过程中的情况。高三你不搞别的,拼命准备高考,也没有搞竞赛。那能不能谈谈你的哲学,哲学和心理学竞赛的关系的掌握技巧,你是怎么样考虑和提升的?

在这个过程中,做到 N 名数以上,保送进清华,这是很不容易的。到今天为止,还是对你的思维方式有影响的。你觉得被大家看见是获得认可的吧?如果要讨论你的未来,你希望在这段学术经历中能有什么成就,得到什么样的积累。你的期望是什么?你现在觉得怎么认识自己,不知能否获得这样的表现?

我想总结一下我的过程,无论你做什么,优先考虑为目标服务的结果。这是我的小小哲学。但是这个能实现吗?一定要的,做一些能改变世界的小事,尽量满足自己的梦想。

如果能够突破,就看你的努力能做什么,能做出什么事情。但能通过,你时间很多才行。

身为 OpenAI 工作,你对于跟我们认知不太相似的,我认为是重要的。

我从心底里想你很聪明,因此成功在所难免,我为此而自豪。如果现在你问我这些问题,我可能会想得更远。

在这期间,各种小的实验和调整都是让你长大,找到一些意义的过程。

最后我想说,当然会因人而异。记住,总有机会的,也希望不要放弃探索,也希望大家在这段旅程能不断拓展自己的视野。