特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线

特斯拉世界模拟器来了!这些看似真实的驾驶场景,全都是用模拟器生成:这个模拟器在今年的计算机视觉顶会ICCV上亮相,由特斯拉自动驾驶副总裁Ashok Elluswamy亲自讲解。...

特斯拉世界模拟器来了!

这些看似真实的驾驶场景,全都是用模拟器生成:

这个模拟器在今年的计算机视觉顶会ICCV上亮相 ,由特斯拉自动驾驶副总裁Ashok Elluswamy亲自讲解。

网友看了之后表示,这个模型实在是泰裤辣 。

同时,Elluswamy也首次揭秘了特斯拉的自动驾驶技术路线图 ,表示端到端才是智能驾驶的未来。

世界模拟器生成自动驾驶场景

除了开头看到的多场景驾驶视频,特斯拉的世界模拟器还可以为自动驾驶任务生成新的挑战场景。

比如右侧的车辆突然连并两条线,闯入预设的驾驶路径 。

特斯拉世界模拟器亮相ICCV	,VP亲自解密端到端自动驾驶技术路线

也可以让AI在已有的场景中执行自动驾驶任务 ,躲避行人和障碍物。

特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线

模型生成的场景视频,除了让自动驾驶模型在里面练手 ,也可以当成电子游戏,供人类玩耍体验。

特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线

当然除了驾驶相关 ,对其他具身智能场景——比如特斯拉的擎天柱机器人——也同样有用 。

特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线

与这个模型一同被揭秘的,还有特斯拉在自动驾驶上的一整套方法论 。

特斯拉VP:端到端才是自动驾驶的未来

ICCV演讲中 ,特斯拉自动驾驶副总裁Ashok Elluswamy揭秘了特斯拉FSD的技术细节,同时还在X上发表了文字版本。

Ashok首先明确,端到端AI才是自动驾驶的未来。

特斯拉世界模拟器亮相ICCV	,VP亲自解密端到端自动驾驶技术路线

特斯拉利用端到端神经网络实现自动驾驶,这个端到端神经网络会利用来自各个摄像头的图像 、运动信号(例如车速)、音频、地图等数据,生成驱动汽车的控制指令 。

与端到端相对的另一种方法是采用大量传感器的模块化驾驶 ,这类系统的优势是在初期更容易开发和调试 ,但相比之下,端到端的优势更加明显:

将人类价值观规则化极其困难,但从数据中学习则容易;

模块化方法中感知 、预测和规划之间的接口定义不明确 ,但在端到端中梯度从控制一直流向传感器输入,从而整体优化整个网络;

端到端方法可轻松扩展以处理现实世界机器人的繁重和长尾问题;

端到端具有确定性延迟的同质计算。

Ashok举了一些例子,比如车辆行驶过程中发现前方路面存在积水 ,此时有两种策略,一是直接从积水上开过,二是借用对向车道绕过积水。

驶入对向车道是危险的 ,但在这个具体场景中视野开阔,在避开水坑所需的路程之内对向车道没有车辆,借用对向车道避开水坑是一种可行的选择 。

特斯拉世界模拟器亮相ICCV	,VP亲自解密端到端自动驾驶技术路线

这种权衡取舍就很难用传统的编程逻辑来表达,而对于人类来说,这在观察场景时却相当简单。

基于以上考虑及其他因素 ,特斯拉采用了端到端的自动驾驶架构 ,当然,端到端系统也仍有许多挑战需要克服。

特斯拉如何解决端到端自动驾驶困难

端到端自动驾驶面临的困难,其中之一就是评估 。特斯拉推出的世界模拟器 ,也正是针对这一难题。

该模拟器使用特斯拉筛选出的同样的海量数据集进行训练,其功能并非预测给定状态下的行动,而是根据当前状态和下一步行动来合成未来状态。

这样的状态可以与智能体或策略AI模型连接起来 ,以闭环方式运行,从而评估性能 。

同时,这些视频并不局限于评估 ,它还可以用于闭环大规模强化学习,从而实现超越人类的表现。

特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线

除了评估之外 ,端到端自动驾驶还面临“维数灾难 ”,以及可解释性和安全性保证的问题。

在现实世界中,想让自动驾驶系统安全运行 ,就需要处理高帧率、高分辨率、长上下文输入 。

假设输入信息包括7个摄像头×36FPS×5 百万像素×30秒的场景画面 、未来几英里的导航地图和路线 、100Hz的运动数据 ,以及48KHz的音频数据,大约会有20亿输入Token 。

神经网络需要学习正确的因果映射,将这20亿个Token精简为2个 ,即车辆的下一个转向和加速动作。在不学习虚假相关性的情况下学习正确的因果关系是一个极其棘手的问题。

为此,特斯拉通过庞大的车队,每天收集相当于500年驾驶总和的数据 ,并使用复杂的数据引擎筛选最高质量的数据样本 。

使用这样的数据进行训练,就能让模型获得极高的泛化能力,从而应对极端情况。

特斯拉世界模拟器亮相ICCV	,VP亲自解密端到端自动驾驶技术路线

对于可解释和安全性问题,如果车辆的行为不符合预期,端到端系统的调试可能就会变得很困难 ,但模型也可以生成可解释的中间Token,可以根据情况用作推理Token。

特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线

特斯拉的生成式高斯泼溅就是这样一项任务 ,它具有出色的泛化能力 ,无需初始化即可建模动态物体,并可与端到端模型联合训练 。

其中所有的高斯函数都是基于量产车配置的摄像头生成的。

特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线

除了3D几何之外 ,推理还可以通过自然语言和视频背景进行。该推理模型的一个小版本已经在FSD v14.x版本中运行 。

特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线

更多技术细节,可以到Ashok的文章和原始演讲视频当中一探究竟。

端到端自动驾驶两大路线:VLA还是世界模型?

虽然端到端被视为自动驾驶的未来 ,但在业界,具体的软件算法路线也一直存在VLA和世界模型之争。

以国内为例,华为和蔚来都是世界模型路线的代表 ,元戎启行和理想则选择VLA路线,另外也有一些玩家认为应该将两者结合 。

VLA玩家认为,该范式一方面可以应用互联网已有的海量数据 ,积累丰富常识,进而理解世界。另一方面模型通过语言能力实际上是具备了思维链能力,能够理解长时序数据并进行推理。

更尖锐的观点认为 ,有些厂家不用VLA是因为算力不够 ,带不动VLA模型 。

世界模型玩家们则坚持世界模型更接近问题本质,例如华为车BU CEO靳玉志认为“VLA这样的路径看似取巧,并不能真正走向自动驾驶” 。

而现在 ,特斯拉的方案之所以备受关注,也正是因为在自动驾驶发展历程中,马斯克从未有过“选错”。

特斯拉选什么路线 ,VLA还是世界模型,关于端到端自动驾驶两大技术路线的历史性决战。

你看好VLA,还是世界模型?

参考链接:

[1]https://x.com/Tesla/status/1982255564974641628

[2]https://x.com/aelluswamy/status/1981644831790379245

本文来自微信公众号“量子位 ” ,作者:克雷西,36氪经授权发布 。

本文来自作者[勤浩宇]投稿,不代表视听号立场,如若转载,请注明出处:https://m.stddy.com/xinwen/202510-53805.html

(2)

文章推荐

发表回复

本站作者后才能评论

评论列表(4条)

  • 勤浩宇
    勤浩宇 2025年10月28日

    我是视听号的签约作者“勤浩宇”!

  • 勤浩宇
    勤浩宇 2025年10月28日

    希望本篇文章《特斯拉世界模拟器亮相ICCV,VP亲自解密端到端自动驾驶技术路线》能对你有所帮助!

  • 勤浩宇
    勤浩宇 2025年10月28日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 勤浩宇
    勤浩宇 2025年10月28日

    本文概览:特斯拉世界模拟器来了!这些看似真实的驾驶场景,全都是用模拟器生成:这个模拟器在今年的计算机视觉顶会ICCV上亮相,由特斯拉自动驾驶副总裁Ashok Elluswamy亲自讲解。...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们