地平线苏箐最新演讲全纪录:“未来 3 年,自动驾驶不会有理论内核的跨越式变革,大概率是‘现有系统的极致优化’。 下一个理论突破的前置信号还没出现,即便出现,从理论到应用还要 5-20 年。”

Nội dung video gốcMở rộng video
  • 感谢各位的聆听与支持。
  • 自动驾驶面临的挑战与困难需要大家理解。
  • 行业内的技术进步与未来的展望值得关注。

首先谢谢大家花这半小时时间来听我说这些不一定有用的话,非常感谢大家。坦率地说,其实本来我是不想来的,因为不知道该说什么,但团队还是说应该来讲一下。为什么这么说呢?其实大家都知道,可能上个月我们的HSD才刚刚SOP,所以我基本上整个人和团队是在工程模式,还没有切到所谓的思想模式。

所以可能今天讲的很多东西可能也会比较零碎,但可能是整个这几年的过程中的一些实实在在的一些感悟,就看对大家有没有用。我特意放了一个这个小图表,确确实实去年如果大家看过我们的产品年会的话,可能我讲的还挺多的,对吧?可能也没啥用,当然但是今年确确实实是做的过程中间你会看到整个路径是比较清晰的,但你会看到有更难的问题在前面。

你知道这些问题能解掉,但是今天应该怎么解,你还不知道。所以其实坦率地说,我有点无话可说,就是在这么一个状态里面。首先,其实因为我刚刚从SOP里面刚刚算是爬出来吧,所以我首先在讲自己的东西之前,我想对咱们这个行业里面所有从事这个工作的同仁们和同事们做一个致敬和感谢。

为什么呢?我在想,其实从行业外来看的话,可能觉得自动驾驶是一个很简单的事情。为什么呢?因为任何一个人他可能学过一年的开车,那么他就会去开得挺好。但是对计算机来说,它不是这样的。计算机其实,大家会发现它跟人的能力正好是正交的。或者反过来的,越是人觉得难的问题,计算机可能越是简单

比方说高等数学,比方说逻辑分析,但是越是人与生俱来的这种基本的技能,对计算机越难。开车其实已经比较接近一个基本技能了,如果再难的话,举个例子,捡个荷包蛋这种比开车还要难。从某个角度来讲,就是越是人的与生俱来的能力越难。所以反过来说,绝大多数行业外的人可能并不理解自动驾驶团队大家面临的这种困难和压力。

大多时候是不太理解的,其实我们自己干了这么多年了,其实是非常能体会的。它是智力和体力和肉体的这种双重压榨,极度痛苦。因为有SOP的时间压在那,然后有方法论的变化在前面不确定,然后你的车每天在路上开的时候会碰到各种hardcase,cornercase,你肯定需要去解,因为你不能靠着它在那不管。

对吧?因为还是那个话,就是物理世界你是没有资格去选择所谓的ODD的,就是哪些东西我可以不处理,你不可以这样做。因为那个车在物理世界的一个稠密的连续世界里面运行的时候,你所有的case都要能处理,这就是逼着你必须要解所有的问题。这就是这个行业非常非常痛苦的地方。

我们其实如果看一下过去几年发生了什么,还是很有意思的。大家曾经在就讲个小插曲,我刚刚开始准备加入地平线的时候,我跟于凯博士聊过几次。我当时跟他很坚决地表示我不想再做自动驾驶了。我觉得自动驾驶这玩意儿第一太痛苦,第二我感觉看不到太多的希望。为什么呢?

你会发现那个时代的车开起来还不错,大家都能开,但你会发现它离一个真正的人类司机的标准来衡量,差距是非常大的。就很多case处理不了,它的行为也不累人,完全是个应激反应的机器。在两到三年前,其实你是看不到太多的希望的,实际上二三年二四年时,整个行业多多少少都会有这种认知。

就是它是一个可用的东西,但是你说它能不能变得跟人类一样smart,跟人类一样完全类人,就像一个人一样,我觉得大家其实是非常非常不确定的。那是我当时的状态。嗯,24年的时候发生了一个很大的分水岭事件,我们得提一下,就是FSD的V12。FSD的V12非常非常关键,我知道大家现在可能在舆论界可能炒得比较凶,说FSD到底是不是最强的,这个问题不重要,待会我会说它不重要。

但是FSD打开了一个内核的范式,这个是非常非常重要的一个意义。就是你知道这件事情不对,知道这件事情可能会怎么走,对和这件事情真的有人做到他,对这里面有巨大的红勾和不确定性。这是FSD V12在历史上留下的意义。在整个自动驾驶的发展历程来看,实际上大家会看到,从DAPA起源到CMU的第一个车队,到斯坦福的车队,再到Google X,就是今天Vimo的车队,你可以发现这里面发生了几个变化和后面的原因。

CMU的车队最早是强依赖非视觉传感器的,像激光和其他的很多传感器。背后是什么原因?就是那个时代还没有所谓的机器学习的技术。那时候还不是深度学习,很多都是靠人工写代码写出来的,所以这是第一代。然后斯坦福的车队在我记得是在第二次比赛里面就很快就超越了,因为斯坦福的车队引入了机器学习的技术。到了Google的时候,更是把这个东西进一步的发扬光大。

其实背后你会看到,过去的自动驾驶在23年24年之前,有两个问题。**第一个问题是什么?**深度学习技术只重构了感知部分,而在感知之后的部分几乎还是规则时代的。所以它是一个革命,革到一半的一个东西。第二个问题就是大家如果做过这行的应该很清楚,第一个无图,大家说有图和无图,背后是什么?背后是这个技术范式,它解决的只解决了动态的问题,而它没有解决静态认知的问题。

所以它需要用地图或者某种形式的地图不一定是HDR来补一补。这是它的第一个一流问题。第二个问题就是我刚才已经说过的,它整个系统里面只有前半截是数据驱动的,而后半截是规则的。我们都知道一个方法论的重构,当你重构到一半的时候它的效果可不是一半,它的效果可能是230%!你需要把后面的那一半的革命完成,才能迎来整个新的时代。

那么这个就是整个端到端的意义所在,但这件事情非常难。为什么难呢?第一个感知技术其实也是发生了非常非常多年,才被数据驱动完全完全搞定的。而规控这个东西说实话,整体的理论其实是不成熟的,我觉得到今天其实是不成熟的。我们自己开发下来,导致很多团队都try过,但是try过以后很恐怖的是什么呢?就是try一轮,你需要花几个亿十个亿二十个亿这么多钱,然后try完以后可能fail掉了。那这时候你要不要接着try呢?这时候其实是个非常麻烦的事情。

大多数团队,应该无论是精神还是钱的问题,他就没再try了。但如果你要相信他的话,你就会try下去,然后可能就会成功,但也有可能不成功,因为这件事情确实太难了。我们会看到整个系统,它是非常不熟练的,任何一个噪声都会导致整个系统飞掉。所以这件事情非常困难,这就是我刚才说的整个范式改变的一个巨大的意义就在这里。

对,我们可以看一下这种变化往后意味着什么,因为这个很关键。过去的历史已经是事实。第一个,大家都会,当然,大家最近都很嗨呀,就是这段时间搞定了各种乱七八糟的概念,也都跑出来了。**是不是以后会进入一个大发展时代?**坦白说,我要浇一点冷水。

人类是很奇怪的一种动物啊,就人类在事件不发生的时候是完全不相信这件事情会发生的。但是在一个事情发生时,人类会觉得这件事情会持续发生。其实两个东西都不对,大多数时候你看到第一次发生的时候,它是一定会的;它是发生完了以后,很可能就是这个时代,或者是这个cycle的高点。你如果回顾历史上的所有大事件都是这样的,你不要以为这个革命会是一波一波的,这是第一波,也可能是最后一波。

很可能是这样的。大家如果回去看一下原子时代,原子时代立刻,这件事情搞定后,大家会很激动,全世界都很激动,甚至恐慌,觉得这东西要改变一切。但其实说实话,也就那回事。为什么在上面多说一句啊?为什么老是提这个原子时代这件事?

**我个人感觉是对整个物理世界来说或者对人类来说,只有两件事是重要的:一个是能源,一个是信息的变化。**或者就叫直接叫计算,因为只有这两个东西是改变世界和制造世界的本质的东西。其他的事情都是在这两个东西上面递增出来的一些附属产物。所以我们刚才说的原子时代就是能源,而人工智能或者AGI,它是信息。只有这两个东西是fundamental的东西。

那么刚才已经说了,就这种重构会不会是一种常态,我们认为大概率不会。其实不会,就为什么呢?我们可以看到23年24年发生了这一次变革,它有两个前提条件:第一个是人工智能这个东西大概每二三十年会有一个轮回,然后大家空吃空吃,干二三十年干出一个很新的成果,一个方式来,然后把它兑现掉,兑现完了以后发现,哎呀,还是有天花板的,咱们再来过20年以后再见。

目前多多少少隐隐约约,我们能看到这一代的深度学习技术有一点碰到这个天花板的可能性,有一点,我不能说一定是啊,但有这种可能性,因为从大语言模型和其他方面的领域的进展来看,有这种可能性。第二个,我们刚才说了整个AD,过去革命革了一半,但这次是真革完了,已经是一段是革完了。

那么如果我们希望再有这种巨大的内核重构,那就不是把深度学习从系统的一半平推到100%了,而是要改变内核的理论了。而我们都知道整个的物理世界的演进,都是先由理论突破,然后到应用突破,就这么一个cycle不断的不断的循环。但我们现在其实很不幸的是,我们还没有看到下一个理论突破的前置信号的出现。

就这个东西出现以后,可能还需要5年10年20年,它才能变成应用的突破。所以我个人的判断很大的概率是,未来三年是在现有的系统上做极致的优化,而不是一种理论内核的重构,所以大家别太嗨,又进入苦日子的阶段了。

第二个问题是FSD HSD这样的系统出现的时候对整个AD产业的路线意味着什么?这是我个人的看法,我们认为是这样的:首先还是回到三年以前我跟于凯博士的聊天的过程。我终于又看到希望了,我觉得我们好不容易能用新技术把城市的IR做到好用类人了,我们终于可以做到这件事了。

今天大家看到的HSD其实还只是一个新范式的第一个版本,我可以负责任的说,在未来的一年会有巨大的提升。因为新范式打通以后,它会有一个红利器,它会有巨大的提升,那么大家会看到,这个系统会非常非常雷人,会越来越雷人

那么这样的话,我们终于有机会把吹了这么多年的牛程序的L2放到车上了。我觉得于凯博士昨天有个比喻是非常好的,就是他是新时代的自动党,这就是一个车的一个基本的上车以后,该有的一个基本的fundamental的function,它不是什么一个情绪价值。他不是说这个车为什么大多数时候需要人去开,他不应该!他应该自己开,然后人去监管一下,人去帮他一下就可以了,这才是一个fundamental的function。

那么我们认为Urban L2会迎来一个巨大的发展红利期。红利期的意思就是,从几十万的车到二十万的车,到十万的车,就像自动挡一样,它都会被装上,而且它都会变得很好用。大家应该不会碰到10万的车的自动挡不如30万的好用、不如50万的好用,对吧?应该没有这种事。对吧?这就是计算机工业的一个好处,计算机工业的突破成本极其高,但它的复制成本极其低。

就你今天看到的再复杂的计算机,你只要给它几年的时间,它就会跟白菜一样,所以它会把10万个车,甚至于更低成本的车都变得一样好用,这件事情是一定会到来的。第二个,我们看到的是过去因为范式的问题,L2跟L4是两个完全不一样的世界,虽然都是做自动驾驶的,其实是两拨人

L4为了,就像拿微模来舉例,也是很典型的,就是他为了去在拿到一个很好的MPI,能够增多真物人,因为真物人不是开玩笑的,那是会有事故的,所以他需要做很多很多其他的额外的工作。比方说,上了超后滑的传感器,另一方面用非常好的HD MAP去解决刚才说的静态的缺陷问题。

然后他需要把ODD画得比较小,把整个的hardcase和cornercase可控,他要做很多这些事情,然后才能把R4系统部署上去。大家都知道,在你要是把它放到整个平坦的世界和卖给所有人的车来看,显然这么玩是不work的,对吧? 但是反过来说,这么玩在Robotex就work嘛,其实也work

所以我们大家都知道这件事情是有问题的,但新的范式到来以后,我们能看到方法论终于统一了。我们能看到当前的方法论,做最多两到三年的工作,就有极大的机会把MPI干到5万10万的水平,同时它还能保持内荏,同时它还能保持在所有的区域里面,它是自动可以繁化的。至于说个题外话,就是我们自己这次的开发过程还是挺快的。

这里面有一个地方,有个环节,省了很多时间跟过去比,就是各个城市的繁化。我们很高兴地发现,新的方法论上去以后,我们在绝大多数城市测试以后,它天然就是没有问题的,只有极少数的非常奇怪的这种离散在整个系统分布之外的这种很小的场景需要处理一下,所以这就导致这个过程省了很多时间。

那么这个事情对R4是个极大的好消息。我再也不需要去在每一个ODD里面去搞,我不需要了!我在搞定一个复杂城市的时候,我大概率就搞定了整个国家的复杂城市,那么这个效率就一下就上去了。因为Robotech讲的再好,LS讲的再好,你的本质是要跟人类司机去比成本,这是一切商业本质的源头。

所以你在上面做的所有的这种高成本的在复制的时候,不能去数量级降低成本的,而是一种线性递推的方法,坦白的说在商业上都是不work的。所以我们看到新发行能改变了这一点。这就导致的结果就是,**在未来的短短的几年以内,**用同样的开发方式,不但在R2上面能极大的带来新的体验,同时能以极低的部署成本和几乎无限制的部署区域的扩张速度去带来一个R4系统。

而且它会以车用车和Robotaxi的双模式去部署。我一直不同意这个观点,为啥Robotaxi只能是Robotaxi呢?我也很想买一辆车能全自动IR4的开啊,为什么不能?我想大家可能如果这个价钱是合理的,我想每个人都想买一辆,对吧?因为车是一个大玩具,也好,你的第二空间也好,还是说是你的一个个人能拥有的最贵的机器也好,它有它自己独特的价值在。其实我是比较设恐的,我是不愿意做出租车的,还要跟司机讲两句话,感觉好烦对吧?

如果谁最好了,对另一个附带性的变化是什么呢?就是我们看到在23年20年以前,因为坦白说业绩,大家多多少少都都觉得天花板就在那的上不去了,所以大家就开始干另外一件事情,因为饭还得吃,事情还得做,工资还得发呢。就开始在整个这个空间里面去做各种碎片的功能往上往上拼,其实这两张图很有意思,我们可以把这个问题想象成一个在二维空间里面,把这个空间填满是以什么方式去把它填满。

24年之前,大家的想法是这棵树已经种不下去了,就长这么高了,我再种一棵树,然后我再种一棵树,我再种一棵树,我把它拼起来,拼各种奇奇怪怪的功能,这是一种做法。那么24年之后做法不是这样的,我们就种这一棵树,把这棵树种得越来越粗,越来越高,让它的整个网络的主干越来越大,数据量越来越大。

然后你会很欣喜地发现,它长出了新的能力,在你不知道的时候,它长出了新的能力。就是我们的车,我们记得自己其实这个阶段,还从来没有做过靠边停车的功能。但是我们的测试团队有一天很有意思,他跑到右车道以后,在右一的时候,想试一下再拨右边道会怎么样。他发现那辆车跑到路边上自己靠边停车去了。

从来没有人设计过这个功能,也没有人吹过这个东西,但他自己就有了这个。其实说实话,这就是新的方法论和数据驱动的魅力,因为它从人类的稠密数据里面会学到一切能力,无论是好的还是坏的,当然我们需要把坏的处理掉。这就是新的方法论和过去不一样的不一样的地方

过去的方法论你可以认为是加法,是人pickup一个吸收的能力点往上加,而新的方法论某个角度来讲是减法,你需要把人类全集的稠密数据里面,把你不想要的东西减掉,而剩下的就是全能力。这就是两个方法论的本质不同,所以会导致至少我认为,会导致我们从现在开始会有两种完全不同的产品思路:一种是过去那样继续拼各种平行功能;一种是像我们和FSD这样去把这棵树种得越来越大,越来越深。我们绝不去做一些零碎的功能,我要让这些功能慢慢慢慢给它时间在这棵树上自己长出来

如果今天还没到那个时间,我就选择不做它,这是我们的态度。对,那么下一个我们应该做什么呢?这个其实就是我们自己未来一两年要做的事情。有一个还是回到刚才那个基本假设,我们认为AI和AGI的基础理论,在未来三到五年可能不会有全新的突破,可能是进入一个演进和优化的阶段,但首先实际上是一个大的前提。

那么有几件事情是可以做的,仍然是可以做的:第一个,我们今天可以看到在大语言模型领域,可能大家有点隐隐约约地碰到Scaling Cloud的天花板,但我很高兴的是,这件事情在AD领域还完全没有发生。因为无论是成本问题、功耗问题、还是芯片工艺的进步问题,它还没有发生,应该说刚刚开始。

那么,我们可能后面会每一代芯片和每一代产品会坚持10倍算力提升、10倍模型容量,将会一直向上叠。大家一定要记得一点,就是计算机工业的本质就是玩命对算力。你千万不要问一个问题,就是它有没有用,需不需要。千万不要问这个问题。如果各位想问这个问题的时候,你就回家把你的这个手机、计算机、你家的智能电视机拿出来看看,它需不需要那个处理器。

你可以认为是不需要的,因为芯片工业本质上是一个印刷工业,它是不要钱的。只要给他时间,玩命对算力,就是计算机工业里面最封的门头的基因和逻辑。因为,任何时候不要违背这件事情做事情,任何违背这件事的人都被历史淘汰了,因为他不要钱。简单点说,所以我们会持续的十倍提升。

第二个事情就是,我们可以刚才你讲了,就是我们会开始重投入R4这个节点,但是不是以割裂的形式去做这件事情,而是以统一的开发范式、统一的传感器配置、统一的ODD区域去打通R2到R4。我想大家可能有一天,可能已经不会在意这个概念了,就是会你的车R2的车,可能你的3号三年以后买到的车,它就已经是一个转R4系统了,这件事情是高概率会发生的,这也是我自己希望看到的在行业里面。

第三个,我最想强调的一点就是,无论这个行业和技术千变万化千变万化,这种事情永远会发生的。其实你能应对这件事情的时候,第一,不要应激。每几个月我们就突然说,哎呀,以前都不对,我们要改全改,这是不对的。你需要做的事情就是把你自己公司的工程能力和组织能力不断的去强化,强化再强化。

只有一个稳定的能承载这个工程的公司组织才能应对一切的这些变化。当有新技术的时候,你能快速的去导入它,而新技术导入以后会碰到一堆爆发的问题。你能有集团军的作战能力去把它消灭掉,而且持续的去打磨那些难问题。所以一个好的工程能力和一个好的组织能力,是一个公司至关重要、至关重要的能发展的基座,我称之为工业母机。

在应对整个不确定的世界和技术的时候,这是唯一能确定的事情,也是我们应该重头的事情。对,这个正闻就这么多。后面他们要给我准备了几个问题,就简单讲一讲吧。他们问我的说现在还抑郁吗?坦白说还挺抑郁的。**就为什么呢?**首先,前段时间确实被量产压的不行,因为时间很紧,而新范式不像大家看的这么美好。

新方式会有新方式的问题,在这么短的时间内要解决掉。我们的工程团队,不是我本人,是我们的工程团队,确实非常辛苦,也非常给力,就在这么短的时间内把这么多问题都解决掉了。其实我觉得,虽然我骂了他们很多,平时给他们很大压力,但我觉得还是要很感谢他们,他们是业内很了不起的一帮人

第二个,我们能看到,就应对这么多变化的时候,你会看到还有很多事情需要做。第一个,今天大家可能试过HSD了,觉得还不错,对吧?但你说他是不是达到人类世界的水平了呢?我觉得显然显然没有。我最近能看到我们自己公司内部的论坛里面,大家已经不再讨论什么绕行啊、选路这些事情了。不讨论了!他在跟我讨论这个后面有个水坑,你该咋办?然后反正讨论一些很奇奇怪怪的一些case。

然后昨天有个人在硬盘里发了个消息,说前面有个卡车在给你错车的时候,你是应该等他明笛等他,还是应该绕过去?再讨论这种问题,其实我一开始看到问题的时候,我是有点恼火的。就是饭还没吃饱,大家就开始想别的了。但是后来想想看,这其实是个好事情。

就说明大家已经认为系统的基本能力已经过了,大家是讨论以人类的标准的重新再看待这个系统了。那么这个是对我们来讲,未来一到两年需要做的一个新的挑战。等你把这些问题搞定以后,这个系统就可能真的就比较像一个人了!但这些问题极其难,我们看到有希望知道它必须解决,但怎么解决,坦率地说今天我还没有非常非常清晰的答案。

但是这件事情是需要我就做的。**但为什么我还是比较焦虑呢?**坦白地说,你做这种事情风险非常非常高。做一轮实验可能是十个亿,还不一定成功。这种事情是很恐怖的,对!但是必须要去做!对,第二个就是第二个问题是啥是对现状满意和其他的计划,是吧?坦白说,我觉得很难说满意或者不满意啊。

你要说SOP是不是达到我的基本预期,我觉得算是,但我们刚才说了,我们自己做自动驾驶的这帮人本质的目的是做一个能替代人类司机的这么一个机器,这才是我们所有工作的意义。否则的话,它没有意义。这件事情干的。所以从这个维度来讲,我觉得我们还有很多工作需要去做。未来的计划,我觉得刚才也已经其实讲过这个问题了。

就是研发的方式以R4为核心,然后用cherrypick的方式去返回R。我们希望在未来的两到三年,**第一个让当前手上大家看到的HSD这套车用车的系统体验有一个巨大的进步,一个质的飞跃。**我觉得这件事情是一定会发生的。第二个就是我很希望在未来的几年,我们能把一个L4的级别的车以同样的价格,在用户无感的情况下送到你的手上!

这个是我们希望对行业能做到的一个要求,虽然很难,但我觉得这是我们所有人辛苦了这20年做这一行的意义所在。对,大概是这样。谢谢大家!