马斯克直播演示特斯拉 FSD V12 测试版,该版本都有哪些值得关注的亮点?

[复制链接]
Virtual 发表于 2023-9-28 01:56:15|来自:中国 | 显示全部楼层 |阅读模式
8 月 26 日消息,在 10 天之前的 8 月 16 日,IT之家曾报道了马斯克官宣“下周开直播展示特斯拉 FSD V12”的消息。今天,马斯克如期在 X 平台(原推特)上开播,这一备受期待和关注的新版本 FSD 得以“首发亮相”。

马斯克在直播中驾驶的是基于 HW3 硬件的 Model S 车型,同时表示 HW 4 硬件目前暂时不受支持。由于采用了“视觉输入、控制输出”(输入视觉等传感器信号,输出转向、刹车、加减速等控制信号)系统,马斯克称“二者数据不完全兼容”,仍需专门针对 HW 4 硬件进行重新培训。
全部回复5 显示全部楼层
lhczyc 发表于 2023-9-28 01:57:04|来自:中国 | 显示全部楼层
8月26日,马斯克直播了他使用还没发布的特斯拉FSD V12版本自动驾驶回家的视频,大部分人可能都没看懂里面的规律。
这里做一下科普:
首先,V12版本马斯克称之为“端到端”(end to end),即出发地到目的地,直接交付FSD自动驾驶即可,这个特别有划时代意义。
V12以前的版本都不能完整实现端到端,也就是说,是伪自动驾驶,准L4级别的。V12以后,是准确的端到端,达到或超越L4级别。
其次,这个版本的FSD运作原理已经彻底大改。
标志数据:V12的运行功耗只有100多瓦。
这相当于什么概念,我家美的电冰箱的功率是530瓦/天,即V12行驶20多分钟,相当于一个电冰箱近5小时的用电量——这是非常省的。
相比V12之前的版本,还有其他品牌的自动驾驶,都是“三高”:对硬件要求高,对算力要求高,功耗也高。
这些都是由于自动驾驶的内在机理,逻辑框架型运算,导致的。具体来说,就是预先设置某个条件,触发某个算法规则,落地实施某项功能。
例如,我车正常行驶,边上有辆车从侧方加速超车,然后变道开到我车正前方,突然减速,“别”我车,我车紧急刹车,减速后停下。
上述场景中,有车侧方加速超车,形成条件,触发“他车超车”规则,启动了激光雷达侦测彼此距离,启动碰撞响应。
变道开到我车正前方,启动了“正常响应”规则(前车正常时速)和“异常响应”规则(前车减速)机制(我们姑且设置两条路径),结果前车别我车,即启动第二项规则,我车紧急刹车停下。
一个很正常的事件场景,人脑处理起来很简单。但在机器环境下,需要细化条件,预设阈值,然后触发对应的算法。
按照这种条件反射式的机器学习(Machine Learning),需要预置非常多的条件,每个条件对应一个规则,来告诉电动车该怎么做。
自然,这个程序代码量是非常巨大的,几十万行都是少的。
为了适应更复杂的情况,让自动驾驶更完善,业界此前的做法是预设更多的条件,编写更多的规则代码,造成代码量大爆炸。
所以,FSD不断进化,变得非常吃硬件,对芯片和算力的要求也越来越高。
从2020年开始,特斯拉Autopilot的决策计算从传统的程序逻辑全面转向神经网络,程序代码大大减少,开发过程更多变成了一个机器学习的过程。
采用这样的方案之后,即使发现系统在某方面存在缺陷,也无需进行代码修改,只需要投喂更多的针对性视频加强训练就可以了。
最新版V12在研发底层逻辑上可谓是天翻地覆的改变——它放弃了以往“逻辑条件+规则算法”的思路,转向了神经网络。
V12的FSD内核就一个AI程序,其工作原理很简单:
把车辆当前摄像头拍下来的画面,跟特斯拉积累的近万亿公里级别的历史行程数据进行比对,筛选出一些与当前的情况很接近的场景。
当时特斯拉车主怎么操作的,FSD就怎么操作。
我们把这种方式姑且称为“抄袭人类司机小作业”,原理简单,但开发逻辑高于底层的条件反射式的设计,AI处理起来更像人类遇到问题时的情形,是不是?
跳脱了原来的思路,现在FSD没有任何预设条件,也没有对应规矩了,人类遇到这个事情怎么开,FSD就怎么开。
这个AI程序的工作就变得非常简单,对硬件、算法的要求直接就降下来了,功耗也低了,但开车的效果却是很好的——它跟优秀的人类司机没什么差别。
神经网络就是这个好处,从历史行驶数据端,到当前驾驶路况端,距离最近。
特斯拉早就留了一手。
这家公司依靠实际卖出的车辆采集数据,不但获取车辆销售利润,还能依靠“免费劳动力”——特斯拉车主——来采集数据。
自动驾驶初创公司Comma.ai曾评价过,如果你想往你的自动驾驶网络中增加一辆新车,成本是多少?对于Waymo,成本是400美金;对于Comma.ai,成本是-1美金;而对于特斯拉,成本是-10美金。
特斯拉在海外运营车险业务多年,引入了驾驶员自动打分系统,车越稳的司机打分就越高,保费就越低;开车鲁莽的司机则反之。
用于FSD训练的数据都是高分司机的,低分司机的数据早就被自动过滤了,系统是越学越聪明,反应越来越像人类。
特斯拉FSD领先其他诸多自动驾驶技术,包含三个方面的优势:
1、 特斯拉创立以来,拥有海量的实际出行数据。
根据MIT教授Lex Fridman的估计,特斯拉应该已经收集了超过30亿英里的数据。作为比较,谷歌Waymo收集的驾驶里程是2亿英里。
直观来看,特斯拉积累的数据量已经是同业的100倍,覆盖的地域面很广,包含各种复杂程度,使得自动驾驶更加成熟。
2、 拥有把这些海量行程数据喂养AI训练的超算平台。
特斯拉早先从英伟达手上购买了上百万颗最先进的GPU芯片,组成了全球排名前五的超算中心。目前英伟达最新的A100已经奇货可居,买都买不到。
3、 有足够的预算。特斯拉超算中心一年运营和维护费用就超过20亿美元,一般二线的科技公司都承受不起。
佩服马斯克,真是个鬼才,居然把神经网络这样用,这需要深厚的行业认知和交叉学科能力。
从乔布斯到马斯卡,到山姆·阿尔特曼(OpenAI创始人),美国不断涌现世界级的科技人才,不得不佩服这个国家的研究内涵,总能走在行业的最前沿。
图片来自网络,侵删。





海底捞 发表于 2023-9-28 01:57:16|来自:中国 | 显示全部楼层
这个问题值得思考。
特斯拉的产品标注是level 2的自动驾驶系统,他却向用户宣称实现了level 4的功能(FSD,完全自主驾驶)。可是,到了版本12仍不敢将产品登记为哪怕是level 3的系统。但是!没人起诉他欺诈,反而有那么多人集体高潮了!
是我不懂这个世界?还是那一群狂欢者都是弱智?
xx1034221 发表于 2023-9-28 01:57:25|来自:中国 | 显示全部楼层
马斯克吹牛的时候多了,最著名的就是“马斯克时间”,至少等于常规时间*2。
所以这件事还是先等等看,让时间证明一切。
但如果,我是说如果哈,这玩意真成了,配合加装光学仪器的星链卫星,进行全球实时智能监控咋弄?
janejinz 发表于 2023-9-28 01:57:50|来自:中国 | 显示全部楼层
都说了之前版本的自动驾驶是纯试验品,并且还让你掏钱去当试验员
这个版本的自动驾驶,编程代码占比大幅度缩小,然后主要交给神经网络决策
当然你可能吹这个多好多好,但是这东西靠一万块H100训练,需要多少道路行驶数据呢?都是视频数据
那么数据哪来的呢?试验员用老版本FSD时采集的
另外,国内的FSD,由于很多地方不让进,所以训练数据的场景不全,就算更新到V12,部分场景也可能出错
peterll 发表于 2023-9-28 01:58:40|来自:中国 | 显示全部楼层
直接上干货

现在所有的自动驾驶系统,基本分为三个大模块,他们是感知,决策,执行。在感知模块,不管是纯视觉还是融合感知方案,都会用AI对图像物体进行识别和标注,从图像中分离出人,车,道路边缘,异形障碍物等。然后将标注后的结果发送到决策部门,决策部门会根据感知部门发送的标注结果,在人类设置的规则框架下给出决策,这里所说的人类设置的规则框架包括但不限于:红灯停,绿灯行,人是高危群体要优先让行,直行车道不能转弯,转弯车道不能直行,在这些基本原则的框架下,再根据感知部门发送的标注信息进行实时决策,然后给到执行部门最终输出一个加速减速打方向的操作。

因为感知部门给出的结果对于决策部门非常重要,如果不能准确识别和标注出需要注意的物体,车辆决策部门将无法将此物体考虑在内,从而发生危险。这也就是之前一直在争论纯视觉还是激光雷达的原因,纯视觉最初对于非通用物体也就是我们常说的异形障碍物无法识别,后特斯拉推出了Occupancy Network用来解决此类问题,效果非常不错。但这已经不重要了,因为V12来了,特斯拉要把之前所有的积累全部扔进垃圾桶,这也就是我说特斯拉掀桌子的原因。

V12端到端的强大之处在于,他不再拥有感知模块,甚至他没有任何一个模块,在感知层面他不再识别摄像头拍到画面上的信息,也不再进行标注,他甚至不再看画面,他看的是画面的最小单元像素点。他把画面上像素的位置,组成的形状已经运行的规律直接输入到神经网络,神经网络拥有几亿英里的真实视频学习经验,他会把现在输入的像素与之前学习的像素进行对比,然后直接输出一个结果,这个结果就是刹车,油门,方向盘。V12内也不存在任何一条人类输入的指令,没有人告诉他红灯要停,绿灯可以走,没有人告诉他转弯车道不准执行,人类是脆弱的不可以撞。没有搜索决策树,没有剪枝,没有任何过程。

这里比较抽象我展开讲一下,如果V12看到面前有个人,在他的世界里这不是一个人,这是画面正中心出现了几万个像素点,他们组成了现在的形状,他会去对比之前人类驾驶时出现相同像素点时人类的操作,其他条件不变的情况下,他会直接用相同的操作去操作。同样,红绿灯,车道线,一切能被摄像头排到的画面,都是数以万个的像素点,他会把每一个情况下不同像素点的位置与之前他看到的人类驾驶相似场景进行对比,然后输出结果。这里面没有任何规则,只有神经网络和数以亿英里量级的真实驾驶BEV画面学习经验。所以感知已经不重要了,你可以说一个异性障碍物识别有困难,但是拍到他没有任何困难,只要拍到他就会成为画面中的一堆像素点。这也就是纯视觉的最终解决方案!

严格上来讲,在 未来 V12 运行时,驾驶视觉上不会显示任何物体,仪表盘上没有车道线行人和车辆,没有任何东西。因为正如我之前所说,V12 只接收像素不做任何识别,所以没得展示。但是我推测特斯拉会为了照顾用户体验,继续沿用 V11 的驾驶视觉预览,但这只是展示,系统层面已不再使用这些信息。这应该是 V12 之前版本唯一能留下的遗产了。

很多人会说,如果训练用的数据是鲁莽驾驶数据,训练出的AI不就非常危险,是的,但是这个特斯拉2年前就已经考虑到并开始布局,特斯拉在北美的保险业务衍生了一套驾驶员行为监测系统,他正在北美的所有车辆上悄悄运行,这一套系统会根据驾驶员驾驶行为进行严格的打分,特斯拉用来训练的数据全部来自90分以上驾驶员,可以说对数据的要求极为苛刻。

所以V12端到端是重新定义游戏规则的全新自动驾驶解决方案,他方便快捷一步到位。很多人会说,别吹牛了,这么牛逼的路线,其他车企工程师想不到吗?他们为啥不去做?

这里我可以明确的告诉你,所有工程师都想得到,但是他们做不了,因为这个路线需要几十万颗英伟达H100级芯片组成的训练集,几亿英里的真实自动驾驶BEV视频数据,每年超过20亿美元的训练成本。这三个条件里,每年20亿美元的训练成本反倒成为了最容易达到的,因为另外两个条件你甚至有钱都买不到。

最后,根据马斯克最新的发文推断,V12将大概率在6个月内上线,FSD也将在6个月内走出北美市场扩展到全球。让我们拭目以待。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则