地平线苏箐最新演讲全纪录:“未来 3 年,自动驾驶不会有理论内核的跨越式变革,大概率是‘现有系统的极致优化’。 下一个理论突破的前置信号还没出现,即便出现,从理论到应用还要 5-20 年。”

Original-VideoinhaltVideo erweitern

首先谢谢大家花这半小时时间来听我说这些不一定有用的话。

非常感谢大家坦率地说,其实本来我是不想来的,因为不知道该说什么,但是团队还是说应该来讲一下,为什么这么说呢?

其实大家都知道,可能上个月我们的HSD才刚刚SOP,所以我基本上整个人和团队是在工程模式,还没有切到所谓的思想模式。

所以可能今天讲的很多东西可能也会比较零碎,但可能是整个这几年的过程中的一些实实在在的感悟,就看对大家有没有用。

我特意放了一个这个小图表,确确实实去年如果大家看过我们的产品年会的话,可能我讲的还挺多的,对吧?可能也没啥用啊,当然,但是今年确确实实是做的过程中间,你会看到整个路径是比较清晰的,但你会看到有更难的问题在前面,你知道这些问题能解掉,但是今天应该怎么解你还不知道。

首先其实因为我刚刚从SOP里面刚刚算是爬出来吧,所以我在讲自己的东西之前,想对咱们这个行业里面所有从事这个工作的同仁们和同事们做一个致敬和感谢。因为为什么呢?我在想,其实从行业外来看的话,可能觉得自动驾驶是一个很简单的事情。为什么呢?因为任何一个人他可能学过一年的开车,那么他就会去开的挺好。

但是对计算机来说,它不是这样的。计算机其实大家会发现,它跟人的能力正好是正交的,或者反过来的。越是人觉得难的问题,计算机可能越是简单。例如高等数学、逻辑分析。但越是人与生俱来的这种基本技能,计算机越难。开车其实已经比较接近一个基本技能了,如果再难的话,比如说在家捡个荷包蛋这种比开车还要难。

某个角度来讲,就是越是人的与生俱来的能力越难,所以反过来说,绝大多数的行业外的人可能并不理解自动驾驶团队大家面临的这种困难和压力,大多时候是不太理解的。其实我们自己干了这么多年了,是真正能体会的。它是智力和体力与肉体的这种双重压榨,极度痛苦,因为有SOP的时间压在那,有方法论的变化在前面不确定,你的车每天在路上开的时候,会碰到各种hard case、corner case,你肯定需要去解,因为你不能靠着它在那不管。

对吧,因为还是那个话,就是物理世界你是没有资格去选择所谓的ODD的,即哪些东西我可以不处理。你不可以这样做,因为那个车在物理世界的一个稠密的连续世界里面运行的时候,你所有的case都要能处理,这就是这个行业非常非常痛苦的地方。

我们其实如果看一下这个过去几年发生了什么,还是很有意思的。大家曾经在……就讲个小插曲,我刚刚开始准备加入地平线的时候,跟于凯博士聊过几次,我当时跟他很坚决地表示我不想再做自动驾驶了。我觉得自动驾驶这玩意儿第一太痛苦,第二我感觉看不到太多的希望。为什么呢?就是你会发现在那个时代,那个车开起来还不错,都能开,但是你会发现它离一个真正的人类司机的标准来衡量的话,它的差距是非常大的,就很多case处理不了,行为也不累人,完全是个应激反应的机器。

那么在两到三年以前,其实你是看不到太多的希望的,其实我猜二三年、二四年的时候,整个行业多多少少都会有这种认知,就是它是一个可用的东西,但是你说它能不能变得跟人类一样smart,跟人类一样完全类人,像一个人一样,我觉得大家其实是非常非常不确定的,那是我当时的状态。

嗯,24年的时候发生了一个很大的分水岭事件,我们得提一下,就是FSD的V12。FSD的V12非常非常关键,我知道大家现在可能在舆论界可能炒得比较凶说FSD到底是不是最强的,这个问题不重要,待会我会说它不重要。但是FSD打开了一个内核的范式,这个是非常非常重要的一个意义,就是你知道这件事情不对,知道这件事情可能会怎么走,对和这件事情真的有人做到。

他对这里面有巨大的红勾和不确定性,这是FSD V12在历史上留下的意义。那么我们为什么说这个是一个分水岭事件呢?举一个例子,回到过去举一个例子,就是原子时代。原子时代的第一个发现核裂变是可能的,而且是能释放能量的是德国科学家,当时这个实验结果出来以后,全球所有从事量子物理的科学家们都是认为是不可能的。 但是迅速实验浮现证明这是这个实验是对的,是有结果的。然后又花了N年的时间造出了第一颗原子弹。什么意思呢?

就是大家会发现深度学习和神经网络就像当初的这个核内变试验一样,他告诉你这个范式是可能的,他能干什么。但是这个范式在什么时候,以什么形式能够在自动驾驶里面能把自动驾驶做得多好,其实在第一个人做到之前,是没有人知道yes or no,也不知道这个百分比的,而V12让大家看到了这个希望。

大家并不需要去讨论奥本海默造的第一颗原子弹的威力大还是小,这件事情不重要,重要的是他把原子弹造出来,说明这件事情是对的。

如果我们回到整个自动驾驶的发展历程来看,实际上大家会看到从DAPA起源到CMU的第一个车队到斯坦福的车队再到Google X,就是今天Vimo的车队,你可以发现这里面发生了几个变化和后面的原因。CMU的车队最早是强依赖非视觉传感器的像激光和其他的很多传感器,背后是什么原因?就是那个时代还没有所谓的机器学习的技术,那时候还不是深度学习,那么大量的都是靠人工写代码写出来的。

所以这是第一代。而斯坦福的车队,在我记得是在第二次比赛里面就很快就超越了,就是因为斯坦福的车队引入了机器学习的技术。到Google的时候,把这个东西进一步的发扬光大。其实背后是什么呢?背后你会看到过去的自动驾驶在23年、24年之前,背后有两个问题。

就是本质上第一个问题是什么?就是深度学习技术只重构了感知部分,而在感知之后的部分几乎还是规则时代的。所以它是一个革命革到一半的一个东西。这是第一点。第二点就是他遗留下的两个问题。大家如果做过这行的应该很清楚,首先无图。大家说有图和无图,背后是这个技术范式它解决的。

它只解决了动态的问题,而它没有解决静态认知的问题,所以它需要用地图,或者38号某种形式的地图不一定是HDR去补一补,这是它的第一个一流问题。第二个问题就是我刚才已经说过的,就是它革命隔了一半,它整个系统里面只有前半截是数据驱动的,而后半截是规则的。

那么我们都知道,一个方法论的重构的时候,你重构到一半的时候,它的效果可不是一半,它的效果可能是230%。你需要把后面的那一半的革命完成,才能迎来整个新的时代。那么这个就是整个端到端的意义所在,但这件事情非常难。为什么难呢?

第一个感知技术其实发生了非常非常多年,才被数据驱动完全完全搞定的。而规控这个东西,整个理论是不成熟的。我觉得到今天其实它是不成熟的。我们自己开发下来,所以导致很多团队就都try过,但是try过以后很恐怖的是什么呢?就try一轮,你需要花几个亿、十个亿、二十个亿这么多钱,然后try完以后可能fail掉了。那这时候你要不要接着try呢?这个时候其实是个非常麻烦的事情,大多数团队应该无论是精神还是钱的问题,没再try了。

但是你要是相信他的话,你就会try下去,可能就会成功,但也有可能不成。因为这件事情确实太难了,我们会看到整个系统,它是非常不熟练的,任何一个噪声都会导致整个系统飞掉。所以这件事情非常困难,这就是我刚才说的整个范式改变的一个巨大的意义就在这里。

对,我们可以看一下这种变化往后意味着什么,因为这个很关键。对吧?因为过去的历史已经是事实。就第一个,大家都会……当然大家最近都很嗨呀,这段时间搞定了各种乱七八糟的概念也都跑出来了,说是不是以后会进入一个大发展时代,坦白说我要浇一点冷水。

就是人类是很奇怪的一种动物,人类在事件不发生的时候是完全不相信这件事情会发生的,但在一个事情发生的时候,人类会觉得这件事情会持续发生。就人类是这么奇怪的一个动物,其实两个东西都不对,大多数时候,你看到第一次发生的时候,它是一定会的。它是发生完了以后,很可能就是这个整个时代或者是这个cycle的高点。

你如果回顾历史上的所有大事件都是这样的。你不要以为这个革命会是一波一波的。这是第一波,它是最后一波很可能是这样的。大家如果回去看一下原子时代,原子时代我记得当年这件事情搞定以后,大家很激动啊,全世界都很激动,很恐慌啊,觉得这东西要改变一切,但其实说实话也就那回事。

就为什么……在上面多说一句,为什么老是提这个原子时代这件事呢?我个人感觉是对整个物理世界来说,或者对人类来说的话,只有两件事情是重要的,一个是能源,一个是信息的变化,或者直接叫计算,因为只有这两个东西是改变世界和制造世界的本质的东西,其他的事情都是在这两个东西上面递增出来的一些附属产物。

所以我们刚才说的原子时代就是能源,而人工智能或者AGI,它是信息。就只有这两个东西是fundamental的东西。那么刚才已经说了,这种重构会不会是一种常态?我们认为大概率不会。其 实不会,为什么呢?我们可以看到23年、24年发生了这一次变革,有两个前提条件。

第一个是人工智能这个东西,大概每二三十年会有一个轮回,然后大家空吃空吃,干二三十年干出一个很好成果,看它能不能兑现掉,兑现完了以后发现哎呀,他还是有天花板的,我们再来过20年以后再见。 目前多多少少隐隐约约我们能看到这一代的深度学习技术有一点碰到这个天花板的可能性。我不能说一定是,但是有这种可能性,因为从大语言模型和其他方面的领域的进展来看,有这种可能性。

第二个,我们刚才说了,整个AD过去革命革了一半,但这次是真革完了,已经是一段是革完了。那么如果我们希望再有这种巨大的内核重构,那就不是把深度学习从系统的一半平推到0,而是要改变内核的理论了。而我们都知道整个的物理世界的演进都是先由理论突破然后到应用突破,这么一个cycle不断的不断的循环。

但我们现在其实很不幸的是,我们还没有看到下一个理论突破的前置信号的出现。这个东西出现以后可能还需要5年、10年、20年它才能变成应用的突破,所以我个人的判断很大的概率是未来三年是在现有的系统上做极致的优化,而不是一种理论内核的重构。 所以大家别太嗨,又进入苦日子的阶段了。

对第二个问题是FSD HSD这样的系统出现的时候,对整个AD产业的路线意味着什么,这是我个人的看法。我们认为是这样的,首先还是回到三年以前我跟于凯博士的聊天的过程,我终于又看到了希望。我觉得我们好不容易能用新技术把城市的IR做到好,用类人了,我们终于可以做到这件事了!今天大家看到的HSD其实还只是一个新范式的第一个版本。

我可以负责任地说,在未来的一年,会有巨大的提升,因为新范式打通以后,它会有一个红利期,惠及整个市场,会有巨大的提升。那么大家会看到这个系统会非常非常雷人,越来越雷人。

对,那么这样的话,我们终于有机会把吹了这么多年的牛程序的L2放到车上了。我觉得于凯博士昨天有个比喻是非常好的,就是他是新时代的自动挡,我觉得这个特别对!就是他是一个车的一个基本的,上车以后,该有的一个基本的fundamental的function。他不是什么一个情绪价值,他不是,车为什么大多数时候需要人去开。他不应该。他应该自己开,然后人去监管一下,人去帮他一下就可以了。这才是一个fundamental的function。

那么首先,我们认为Urban L2会迎来一个巨大的发展红利期,红利期的意思就是从几十万的车,到二十万的车到十万的车,就像自动挡一样,它都会被装上,而且它都会变得很好用。大家应该不会碰到10万的车的自动挡不如30万的好用,不如50万的好用,对吧?应该没有这种事。

对吧,这就是计算机工业的一个好处,就是计算机工业的突破成本极其高,但是它的复制成本极其低。就你今天看到的再复杂的计算机,你只要给他几年的时间,他就会跟白菜一样。所以他会把10万个车,甚至于更低成本的车都变得一样好用,这件事情是一定会到来的。

第二个我们看到的是,过去因为范式的问题,L2跟L4是两个完全不一样的世界,虽然都是做自动驾驶的,其实是两拨人。L4他为了,像拿微模来举例,也是很典型的。他为了去在拿到一个很好的MPI能够增多真物人,因为真物人不是开玩笑的,那是会有事故的。

那么他需要做很多很多其他的额外的工作,比如说上了超级滑的传感器,他用非常好的HD MAP去解决刚才说的静态的缺陷问题,然后他需要把ODD画得比较小,让他整个的hard case和corner case可控,他要做很多这些事情才能把R4系统,随后还要做其他很多辛苦的工作,然后把系统部署上去。

那么这种方法大家都知道,在你要是把它放到整个平坦的世界和卖给所有人的车来看的话,这件事情显然是这么玩是不work的。对吧?但是反过来说这么玩在Robotex就work嘛,这事其实也work。说实话,所以我们大家都知道这件事情是有问题的,但是新的范式到来以后,我们能看到方法论终于统一了,我们能看到当前的方法论在做最多两到三年的工作就有极大的机会把MPI干到5万、10万的水平,同时它还能保持内核,同时它还能保持在所有的区域里面,它是自动可以繁化的。

至于说个题外话,就是我们自己这次的开发过程还是挺快的,这里面有一个地方有个环节省了很多时间跟过去比,就是各个城市的繁化。我们很高兴地发现,新方法论上去以后,我们在绝大多数城市测试以后,它天然就是没有问题的,只有极少数的非常奇怪的,这种所谓的离散在整个系统分布之外的这种很小的场景需要处理一下。所以这个就导致这个过程省了很多时间。

那么这个事情对R4是个极大的好消息。我再也不需要去在每一个ODD里面去搞,我不需要了。那么我在搞定一个复杂城市的时候,我大概率就搞定了整个国家的复杂城市。那么这个效率就一下就上去了。

因为Robotech讲的再好,LS讲的再好,你的本质是要跟人类司机去比成本,这个是一切商业本质的源头。 所以你在上面做的所有的这种高成本的在复制的时候,不能去数量级的降低成本的,而是一种线性递推的方法,坦白的说在商业上都是不work的。

那么我们看到新发行能改变了这一点,所以它导致的结果就是在未来的短短的几年以内,用同样的开发方式,不但在R2上面能极大的带来新的体验,同时能以极低的部署成本和几乎无限制的部署区域的扩张速度去带来一个R4系统,而且它会以车用车和Robotaxi的双模式去部署。我一直不同意这个观点,就是为啥Robotaxi只能是Robotaxi呢,我也很想买一辆车能全自动IR4的开啊,为什么不能?我想大家可能如果这个价钱是合理的,我想每个人都想买一辆。

对吧?因为车是一个大玩具,也好,你的第二空间也好,还是说是你的一个个人能拥有的最贵的一个机器也好,它有它自己独特的价值。在其实我是比较设恐的,我是不愿意做出租车的,还要跟司机讲两句话,感觉好烦对吧?

如果说谁最好了。对另一个附带性的变化是什么呢?就是我们看到在23年、20年以前,因为坦白说,业绩大家多多少少都觉得天花板就在那的上不去了,所以大家就开始干另外一件事情。因为饭还得吃,事情还得做,工资还得发吗,就开始在整个这个空间里面做各种碎片的功能往上往上往上拼。

其实这两张图很有意思,我们可以把这个问题想象成一个在二维空间里面,把这个空间填满,是以什么方式去把它填满。24年之前大家的想法是,这棵树已经种不下去了,就长这么高了,我再种一棵树,然后我再种一棵树,我再种一棵树,我把它拼起来,拼各种奇奇怪怪的功能,这是一种做法。

那么24年之后,做法不是这样的,我们就种这一棵树,把这棵树种得越来越粗、越来越高,让它的整个网络的主干越来越大,数据量越来越大。然后你会很欣喜地发现它长出了新的能力,在你不知道的时候,它长出了新的能力。

就是我们的车,我们记得自己,其实这个阶段还从来没有做过靠边停车的功能,但是我们的测试团队有一天很有意思,他跑到右车道以后,在右一的时候他想试一下再拨右边道会怎么样,他发现那辆车跑到路边上,自己靠边停车去了,从来没有人设计过这个功能,也没有人吹过这个东西,但它自己就有了这个。

其实说实话,就是新的方法论和数据驱动的魅力,因为它从人类的稠密数据里面,它会学到一切能力,无论是好的还是坏的,当然我们需要把坏的处理掉。这就是新的方法论和过去不一样的地方。不一样的地方,过去的方法论可以认为是加法,是人pick up一个吸收的能力点往上加,而新的方法论某个角度来讲是减法,你需要把人类全集的稠密数据里面,把你不想要的东西减掉,而剩下的就是全能力。

这个就是两个方法论的本质不同,所以会导致至少我认为会导致我们从现在开始会有两种完全不同的产品思路。一种是过去那样继续拼各种平行功能,另一种是像我们和FSD这样去把这棵树种得越来越大、越来越深,我们绝不去做一些零碎的功能,我要让这些功能慢慢慢慢给它时间在这棵树上自己长出来。

如果今天还没到那个时间,我就选择不做它,这是我们的态度。对,那么下一个我们应该做什么呢?这其实也是我们自己未来一两年要做的事情。啊,有一个,还是回到刚才那个基本假设,就是我们认为AI和AGI的基础理论在未来三到五年可能不会有全新的突破,可能是进入一个演进和优化的阶段,但首先实际上是一个大的前提。

那么有几件事情是可以做的,仍然是可以做的。就第一个我们今天可以看到,在大语言模型领域,可能大家有点隐隐约约地碰到Scaling Cloud的天花板,但是我很高兴的是,这件事情在AD领域还完全没有发生。因为无论是成本问题、功耗问题,还是芯片工艺的进步问题,它还没有发生,应该说刚刚开始。

那么我们可能后面会,每一代芯片和每一代产品会坚持10倍算力提升、10倍模型容量会一直方向往上叠。大家一定要记得一点,就是计算机工业的本质就是玩命对算力。我就记得这一点,千万不要问一个问题,就是它有没有用,你需不需要,千万不要问这个问题。如果各位想问这个问题的时候,你就回家,把你的这个手机、计算机、你家的智能电视机拿出来看看,它需不需要那个处理器?你可以认为是不需要的,为什么需要。

但是因为芯片工业本质上是一个印刷工业,它是不要钱的;3号,它是不要钱的,只要给他时间。所以玩命对算力就是计算机工业里面最封的门头的基因和逻辑,就是任何时候不要违背这件事情,做事情,任何违背这件事的人都被历史淘汰了,因为他不要钱,简单点说。

所以我们会持续的十倍提升,持续的十倍提升。第二个事情就是我们可以,刚才你讲了,就是我们会开始重投入这个R4的节点,但不是以割裂的形式去做这件事,而是以统一的开发范式,统一的传感器配置,统一的ODD区域去打通R2到R4。

我想大家可能有一天,可能已经不会在意这个概念了。就是会,你的车R2的车,可能你的3号,三年以后买到的车,它就已经是一个转R4系统了,这件事情是高概率会发生的,对,这也是我自己希望看到的在行业里面。

就第三个,我最想强调的一点就是,无论这个行业和技术千变万化,千变万化这种事情永远会发生的。其实你能应对这件事情的时候,第一不要应激。就每几个月,我们就突然说,哎呀,以前都不对,我们要改全改,这是不对的。

你需要做的事情就是把你自己公司的工程能力和组织能力不断的去强化,强化再强化。只有一个稳定的,能承载这个工程的公司组织,才能应对一切的不确定的,也就是技术的变化。有新技术的时候,你能快速的导入它。而新技术导入以后,会碰到一堆爆发的问题,你能有集团军的作战能力去把它消灭掉,而且持续的去打磨那些难问题。所以,一个好的工程能力和一个好的组织能力,是一个公司至关重要的、能发展的基座。

我称之为工业母机,在应对整个不确定的世界和技术的时候,这也是唯一能确定的事情,也是我们应该重头的事情。

对,这个正闻就这么多,后面他们要给我准备了几个问题,就简单讲一讲。吧,就他们不知道谁问我的说,现在还抑郁吗?对对对,坦白说还挺抑郁的。就为什么呢?就第一个,前段时间确实被量产压得不行,因为时间很紧,而且新范是不像大家看的这么美好,新方式会有新方式的问题。啊,在这么短的时间内要解决掉,我们的工程团队,就不是我本人啊,就是我们的工程团队确实非常辛苦也非常给力。

就在这么短的时间内把这么多问题都解决掉了,其实我觉得,虽然我骂了他们很多,平时给他们很大压力,但我觉得还是要很感谢他们,其实他们是业内很了不起的一帮人。很了不起的一帮人。

就第二个,我们能看到,就应对这么多变化的时候,你会看到还有很多事情需要做啊。就第一个,今天大家可能试过HSD了,觉得还不错,对吧,但你说他是不是达到人类世界的水平了呢?我觉得显然显然没有。我最近能看到我们自己公司内部的论坛里面,大家已经不再讨论什么绕行啊,这些什么选路这些事情了,不讨论了。他在跟我讨论这个后面有个水坑你该咋办。然后反正讨论一些很奇奇怪怪的一些case。

然后昨天有个人在硬盘里发了个消息说,前面有个卡车在给你错车的时候,你是应该等他明笛等他,还是应该绕过去,再讨论这种问题。其实我一开始看到问题的时候,我是有点恼火的,就是饭还没吃饱就开始想别的了。但是后来想想看,这其实是个好事情,就说明大家已经认为系统的基本能力已经过了,大家是讨论以人类的标准重新再看待这个系统了。

那么这个是对我们来讲是未来一到两年,需要做的一个新的挑战。等你把这些问题搞定以后,这个系统就可能真的就比较像一个人了,但这些问题极其难。我们看到有希望,知道它必须解决,但怎么解决,坦率地说,今天我还没有非常清晰的答案,但这件事情是需要我就做的。

但为什么我还是比较焦虑呢,坦白地说,你做这种事情风险非常非常高。做一轮实验可能是十个亿还不一定成功,对吧?这种事情是很恐怖的。但必须要去做。对,这第二个就是第二个问题是啥是对现状满意和其他的计划是吧。

坦白说,我觉得很难说满意或者不满意。你要说SOP是不是达到我的基本预期,我觉得算是,但我觉得我们刚才说了,我们自己做自动驾驶的这帮人,本质的目的是做一个能替代人类司机的这么一个机器。这才是我们所有工作的意义,否则的话它没有意义。这件事情干的。

那么从这个维度来讲的话,我觉得我们还有很多工作需要去做。未来的计划,我觉得刚才也已经其实讲过这个问题了,就是研发的方式以R4为核心,然后用cherrypick的方式去返回R。我们希望在未来的两到三年,第一个,让当前手上的HSD这套车用车的系统体验有一个巨大的进步,有一个质的飞跃。我觉得这件事情是一定会发生的。

第二个就是我很希望在未来的几年,我们能把一个L4的级别的车以同样的价格,在用户无感的情况下送到你的手上,这个是我们希望对行业能做到的一个要求,虽然很难,但我觉得这是我们所有人辛苦了20年做这一行的意义所在。

对,大概是这样。好,谢谢大家,感谢苏青先生的前沿技术分享,请落座。全球首发搭载地平线HSD及真诚6P的星图1T5,为用户带来了极其令人舒适的体验。而这背后是地平线与奇瑞共同打磨产品的赤子之心,技术是如何为用户带来安全、效率、舒适的智能体验。接下来让我们欢迎奇瑞汽车股份有限公司执行副总裁、全球技术创新中心院长、CTO高兴华博士登台分享,有请。