恺明老师和同学们的对话，值得一看 | 何恺明 | Kaiming He | 原创中英字幕

เนื้อหาวิดีโอต้นฉบับขยายวิดีโอ

这是一场关于深度学习和优化的讲座。

对于模型深度和数据的平衡，提出了有趣的观点。

讨论了未来人工智能在科学领域的潜力和挑战。

提问环节中，观众对研究方向和人工智能的可解释性表示关注。

在科学研究与人工智能的交叉领域中，探讨了如何保持热情和好奇心。

谢谢，欢迎光临。
呃，博士赫尔，这些演讲非常鼓舞人心，我学到了很多。
我是说，我已经学过这个了，但这次又重新学了一遍。

那我先提出几个问题，现在请观众提出更多问题。
我真的很喜欢你的图表，就像我在最开始展示的，当深度网络变得越来越深，性能先是上升后又下降。
人们最初可能认为这是过拟合，因为训练数据的问题，他们增加了更多数据。有时确实有帮助，但当网络深度进一步增加时又会下降。

你的研究实际上表明，这可能是因为优化未达到最优解。这里存在三个基本因素：
你获得的数据量有多少，网络的深度如何，模型的复杂度及优化方法。

如今，由于大型基础模型的出现，数据模型比以往更大。你认为在数据、模型复杂度和优化这三个方面可能存在哪些局限性或未来改进的方向，比如数据、模型复杂度和优化？

谢谢，是的，谢谢你的提问。通常我们认为增加深度和宽度能提升神经网络能力。在机器学习中，会存在拟合与泛化能力的权衡，即平衡拟合与减少过拟合。目前最有效减少过拟合、提升泛化的方法就是提供更多数据。

那么如何更好地拟合，如何有效记忆或充分拟合大量数据仍是开放问题。结果表明大型深层模型表现优异，它们具备足够的能力记忆和拟合海量数据，因此增加数据成为减少过拟合的最佳方案。

展望未来，需考虑数据收益是否递减。例如，语言数据由人类生成，如果生成新文本，通常如此。我的意思是，突如其来地，你有一些，目的、想要分享的信息，或者你想创造新知识。

因此，文本数据中的信息可能远多于其他形式的数据。例如，如果你拍照，看起来照片可能包含更多信息，但实际上，如果你考虑每天用手机拍摄的内容，可能只是你的脚或自拍，并无更多信息。这意味着不同类型的数据可能蕴含不同层次的信息。

因此增加数据可能在不同技能水平下产生边际效益递减。我认为这将是未来开放性问题，在数据边际效益消失后。

感谢你如此详细的解释。嗯，是的，这很有趣，数据的边际效益是未来研究的重要议题。
并与这个问题相关，在你的演讲中，你还提到这种残差学习，或说普遍而言，已被广泛应用于许多领域，比如阿尔法狗和阿尔法折叠以及自动化任务。

所以之前，比如十年前或二十年前，当人们进行研究时，我们有，人们专注于解决具体小问题并设计算法。正如你之前提到的，现在一切都需手动设计，所有事情都通过模型学习。更通用的模型可以解决这类问题。

你认为未来趋势会如何？是否会有一个大型预训练模型处理大多数任务，只需针对特定任务进行适配，或仍有一些问题需要更多手动设计，或更专业的领域知识来解决？你能分享一些见解吗？

我认为两者将并行发展，预训练模型本质上是自然语言处理的默认方案。基本上而言，在计算机视觉领域情况稍有不同，因为人们还没有提出一个良好的方法来开发所谓的视觉基础模型。这可能是因为视觉任务可以更加多样化，而且或许更重要的是，语言是人类智慧的产物，但像素来自自然，因此语言与图像之间存在本质差异。

那么接下来，我觉得，我们也希望神经网络能够解决更多问题，比如科学问题，蛋白质是分子，材料并可能推导方程，进行数学运算，化学与物理，存在大量不同问题。因此我们希望拥有通用基础模型来处理一般性工作，但另一方面，我们也希望有专门模型，能够推动某一领域的技术前沿。

是的，这很有道理，未来我们将同时推进这两个方向。感谢您的解释，或许现在该将问题交给观众。你提到的这一点，因为这更偏向技术讨论，如果您有任何让我们保持讨论的专业性。如果您有关于韩国的问题，我们可以会后与博士讨论，所以请。

是的，请，谢谢教授和呃，感谢博士精彩的演讲。
我有两个问题，第一个问题是未来三年的研究重点是什么？第二个问题是，还有，第二个问题是，如何选择能发表顶会的科研课题，顶会论文？

谢谢大家，我想简要自我介绍，我叫Json，也是名学生，实验室的博士生，很高兴您能到场。谢谢，感谢您的提问，你提出了两个百万美元的问题，让我先回答第一个。好的，第一个问题是我在未来三年要做什么。明白了，好的，好问题。

基本上一切顺利，计算机视觉尚未解决，所以今天，自然语言处理非常成功，因为人们可以在语言数据上进行自监督学习。我一直试图在计算机视觉领域复制这种成功，这意味着我要让视觉自监督学习成功。

那成功的定义是什么？我希望看到与语言模型相同的扩展规律。所以我希望只要增大模型规模和数据量，我们将看到视觉模型更强的能力。可惜目前还不是这样，所以今天语言模型非常成功，视觉与语言模型、视觉加语言也非常成功，但计算机视觉尚未达到这一点。所以视觉尚未解决，而这将是我的，可能不止未来三年，或许是我整个职业生涯。

那下一个问题是什么？下一个问题好了，如何找到研究课题？不是能发表的研究课题。我认为发表不应是最终目标，发表应是研究成果的起点，而非终点。你的论文生命周期仅在发表后开始，所以希望你有此预期。

接下来，我仍要回答如何选择研究课题，希望能最终发表成果。最重要标准是你的求知欲和对问题的热情。我认为好奇心是人类推进科学的根本动力，也是探索未知问题的关键。我不在意发表，我只是想知道这个问题为何如此，我只是想如何解决这个问题。

如果我发现了，自然会有论文产出。如果未能解决，那也没关系，或许会有渐进式论文，但这无关紧要，所以好奇心与热情，我认为这将是我们的研究生涯重点。

是的，请。我从麻省理工的工作了解到你这次要开展什么，嗯，就个人背景而言，然后啊，两年免费培训，而我认识很多人，呃，在科学领域他们正在学习人工智能，然后尝试用这些模型进行研究，而计算机科学领域的学者也与科学领域合作，发表在公共论文中的观点。你对这个领域有什么看法？这是一个相当新的领域。我相信人工智能将成为几乎所有领域的基础工具。

这个类比就像回到四五十年前，当时几乎没有计算机科学专业，可能需要学习计算机科学相关知识并在该部门学习。但现在想想今天，每个学科都与某种计算相关，计算机程序、模拟数据分析。因此计算机科学已成为各学科的基础工具。当今每个领域，所以我预测人工智能将成为下一个计算机科学，可能十年或二十年后，人工智能将成为几乎所有事物的基础工具。

因此，你无需拥有人工智能学位，无需进入人工智能部门或子领域学习相关知识，但你会用人工智能发现新规律、新行为，从科学问题中发现新现象。我对实现这一点非常感兴趣，这也是我对人工智能在科学领域的目标和期待，以及该领域的某些具体应用。

我知道在某个方面，可能涉及生物数据，数据量可能较小且质量较低，你对此怎么看？大数据与小数据是相对的，所以嗯，可能，嗯，如果考虑图像数据集可能在二十年前，嗯，那时它们会是，我指的是现在标准的数据集在当时已是庞然大物，但今天它们还挺小的。

然后我觉得，这取决于数据规模和相关算法。我的意思是，它们相互促进，螺旋式发展。这意味着，如果你有一定量的数据，就可以为其开发算法。如果发现算法能从更多数据中获益，你可能会开始收集更多数据，然后在新数据基础上优化算法，如此循环，依此类推。嗯，是的，然后我认为这就是这样，这是数据与算法共同面临的问题。

谢谢，呃，谢谢教授。她啊，提问环节，教授和博士在讨论。我对共振成功的关键非常感兴趣，因为我认为真正的在ResNet中达到最大值，保持信号完整性。我的意思是，我在尝试，我正在构建光子神经网络，我发现这与模拟计算中应最大化、保持信号强度。我认为它们是协同创造的，我认为残差学习在模拟计算中潜力巨大。你对此怎么看？

谢谢，感谢您的提问。
所以啊，是的，我不确定，我理解正确您的问题吗，但我的看法是，今天的人工神经网络最初受生物神经网络启发，但之后这两个方向逐渐分化。人工神经网络专门针对某些应用或数据集设计，后续组件可能不再具备。我意思是，生物起源，如残差连接等操作，许多其他组件如归一化操作也可归为此类。

但有趣的是，也有许多并行研究，这关乎于映射人类大脑或动物大脑的连接模式，相关研究有时被称为，我不记得那个术语connectomes，类似这样的概念。因此人们发现，在那些神经网络中，在人类大脑或动物大脑中，他们发现了与当今最佳人工神经网络非常相似的模式。这些模式包括长程跳跃连接、循环连接和其他类型的。我指的是神经网络中的反馈连接。

所以嗯，我认为人工智能与认知科学或脑科学可以相互促进。人类大脑的发现可以启发我们设计新的AI组件，但另一方面，AI网络的成功实践也能帮助科学家更好地解释大脑机制。这就是我的观点。

谢谢，谢谢，非常感谢。谢谢。呃，教授和博士先生。我主修计算机体系结构和电子设计自动化，所以我关于AI模型可解释性的问题，因为我发现这些AI模型表现非常出色，在某些指标上媲美人类。然而，我们如何解读AI模型的全部行为？这可能，所以这可以说明我们能够，我们无法验证预测，无法对AI模型做出准确预测。我们的AI模型能否变得非常可靠？所以如何，如何解决？你如何看待这个问题并发表评论？

谢谢，是的，这就是我对这个问题的回答。我将向您提问，所以，为什么信任人类司机？当你乘坐出租车时，基本上是遇到陌生人，你并不了解对方，你只知道对方是人类，为什么你要信任？这里，主要是因为你觉得他的大脑是可解释的，或者是因为你理解通常一个训练良好的一个训练有素且经验丰富的驾驶员，我们以极高概率会做得很好。

从经验上讲，我不需要你的回答，因为这正是我的问题。那我也会提出同样的问题，我们为何信任飞机？是因为，我们有足够的物理定律或数学推导，能确保飞机能在空中飞行，或者因为飞机经过了数百万次空中测试或两者皆是？因此我相信，可解释性确实是一个非常好的特性。

嗯，我强烈鼓励大家追求这一点，但另一方面，我们需要认识到，成功的，或我们系统的成功主要由实证证据驱动或验证。这就是我的常规回应。你好，感谢精彩的演讲和这次交流。

我有，我就是那个喜欢自认证学习领域的研究者并在视频领域，因此我的问题是，当你之前提到，你想探索图像领域的自我观察和，我们都知道在自然语言处理中，从词语中提取的自我领域从句子中已包含部分语义知识，但在图像中像素或仅如原始RGB，比如，有三个数值，实际上，这些并非来自自然，它们没有任何语义信息。

所以，我很好奇，是否有来自图像的监督信号，仅仅来自图像，因此如何定义这种子任务？所以就是这样，这就是我的问题。谢谢！

是的，我认为这是语言与视觉的根本区别，这也是我们想要解决的主要问题，而我们尚未解决。嗯，我觉得表征学习中最难的部分是如何进行抽象和压缩。在语言问题中，这项工作部分由人类完成，人类大脑已经完成了这项工作。

但在图像处理中，传感器输入的信息量更大，我的意思是，自然语言。因此模型需要自行完成压缩和抽象的任务。我认为这仍然是一个开放性问题。另一方面，我也同意，仅从像素或图像或视频进行自监督学习是不够的。

如果我们考虑动物，动物能感知世界，但动物还会从环境中获得其他反馈。因此它们可以采取行动，它们可以，他们可以尝试，寻找食物，并想要躲避天敌，它们只是想要生存。因此它们有多种信号形式，来自环境的监督或奖励，这不仅仅依赖视觉。

嗯，我觉得当前的视觉系统缺乏环境反馈。我认为这可能是视觉自监督学习的下一个课题。是的，谢谢。我想这就像具身智能，从模态，模态，这可以是，是的，这些都是相关话题，是的，是的，谢谢。

感谢分享，谢谢，赫尔博士，非常令人启发，演讲以及讨论，谢谢。
我有一个问题，你认为人工智能在能够进行抽象数学方面还需要多久？如果我们继续当前的发展方向，我们最终会到达那个阶段吗？或者你认为存在根本性的差距？

是的，我想提出一个问题，老实说我对这个领域并不专业，嗯，但可能存在两种方法。一种是直接训练大型语言模型，并希望模型能神奇地解决问题，我认为这不是可行的方向。另一种方向是，如果给大型语言模型配备一些，比如代码，这样基本相当于赋予代码解释器功能，这意味着允许语言模型编写代码，而代码可以执行某些计算或符号操作。

然后这些计算结果会反馈给语言模型，模型可以决定下一步操作。我认为这是更可行的方法。没错，最终我认为这些方向非常令人兴奋。我一直在思考这个问题，让我们看看，设想这样一个场景，如果回到牛顿时代，如果我们拥有所有标签数据，牛顿时代的全部数据，并在此时训练一个大型语言模型，模型能否有一天推导出牛顿定律？这需要极高的人工智能水平。

如果我们能做到这一点，那如果我们使用今天的数据，是否能发现我们尚未知晓的规律？这就是终极目标。是的，顺便说一句，我喜欢你的课程，非常，我在你的课程中学到了很多。

好的，很高兴你参加了我的课。是的，现在请回答最后两个观众问题。非常感谢你们精彩的讨论。还有一个普遍且可能愚蠢的问题，你对人工智能未来应用的看法如何，艺术与人文学科？呃，我之所以提出这个问题是因为，我是香港某人类学系的博士生，所以作为杰出的AI研究者，我对这个问题非常好奇。

非常感谢你的问题，你的问题是关于AI在艺术与人文领域。我对这方面并不专业。或许我应该回答这个问题，嗯，是的，哇，看起来艺术与人文是非常特殊的领域，毕竟涉及人类大脑。我认为问题在于，人类大脑与基础人工智能的根本区别是什么？

如果有一天，让我们想想，如果从物理层面，如果我们能物理复现人类大脑，但如果我们只是称这些机器为，那么由该大脑完成的事，能否称之为艺术或人文，还是应该继续称为，我指的是人工输出？那么好吧，我认为这是一个哲学问题，嗯，确实如此，更像是科幻问题。

嗯，是的，最后一个问题，更贴近Dr. Her的研究。所以有人想。好的，请。是的，感谢Dr. Her的精彩演讲。你提到好奇心与热情是做出伟大研究的关键，我的问题是如何保持好奇心与热情，尤其是当你发现某天，我发现它们，我的代码有bug，必须重新运行所有实验，而这将会，这将会非常绝望。是的，对我来说。那么如何在研究中保持好奇心和热情，这就是我的问题。非常感谢。

是的，我认为研究就是充满挫折、失败、嗯、抑郁，这就是全部，就是你能想到的所有负面词汇。这就是现实。如果你没有经历过这些，那就说明你没有做最好的研究，这就是现实。我的生活就是这样，我感到失望，或许百分之九十五的时间，然后我花百分之五的时间完成那篇论文，然后进入下一个循环，陷入抑郁，感到挫败，焦虑，直到新成果出现再享受那百分之五的时间等等，依此类推。这就是现实。非常感谢，我深受鼓舞。

恺明老师和同学们的对话，值得一看 | 何恺明 | Kaiming He | 原创中英字幕

บทความที่เกี่ยวข้อง

"5 Simple Productivity Tools for ADHD: Transform Your Focus System"

绝大多数普通人什么都不具备，他是怎么翻身的？m

短视频爆火，和文案关系真不大。

我用3000块的成本和4个月的时间完成了一次“阶级跨越” | Vlog48

10 Apps That Turn Your Mobile into a Hacking Supercomputer!

2年从0到16间店，怎么做到呢？ 为什么大多数连锁店卡在第三间店？- 连锁教练 Stay Consultancy 创办人 Jay Wong

2年从0到16间店，怎么做到呢？为什么大多数连锁店卡在第三间店？- 连锁教练 Stay Consultancy 创办人 Jay Wong