不止于“看见后刹车”：特斯拉 FSD 可在行人横穿马路前预判其意图

文章报道特斯拉在其 FSD 系统上的技术演进：自 V12 起引入端到端神经网络，V13/V14 加入基于 Transformer 的时序处理，构建约 15 秒的“时间缓冲区”以记忆动态物体轨迹，从而在行人踏入道路前预判意图；并通过占用网络和多关节“骨骼追踪”实现对交警手势及行人行为的识别，体现从被动反应向主动预判的转变。文章同时指出该技术虽有进步，但在监管审查、能见度差等恶劣环境及本地化场景（如外卖骑手、混合车道）仍面临可靠性与适配性挑战，需长期验证与迭代。

3 月 29 日消息，特斯拉官方账号今日在 X 上回复网友时，就其 FSD 辅助驾驶系统一项核心能力作出了说明，引发外界关注。

在一段对比人类驾驶员与 FSD 应对夜间横穿马路行人的视频下方，特斯拉官方账号回复称：FSD 并非在事后才进行制动，而是能够在行人踏入道路之前就预判其意图。

这也是特斯拉在自动驾驶技术路径上的一个关键演进方向 —— 从对外部环境的“被动反应”向对交通参与者行为的“主动预判”转变。这一能力的实现，得益于特斯拉 FSD 系统近期的底层架构升级。

技术资料显示，特斯拉 FSD 从 V12 版本开始就引入了“端到端”神经网络架构，改变了以往依赖预设规则的传统模块化设计。在此基础上，后续的 V13 及 V14 版本进一步加入了基于 Transformer 架构的时序处理能力。

具体而言，车辆不再单纯依赖摄像头看到的画面进行处理，而是构建了一个长达 15 秒左右的“时间缓冲区”。FSD 能够“记住”过去十几秒内每一个动态物体的运动轨迹，即使行人或骑行者短暂地被路边停靠的车辆或障碍物遮挡，AI 也能依据其消失前的速度和方向，推算其当前位置及可能的意图，有着类似人类驾驶员的“预判”能力，尽可能规避事故的发生。

2026 年 2 月，特斯拉欧洲官号发布了一段在荷兰进行的实测视频，展示了搭载 FSD V14.2.1 版本的车辆在真实路况下对交警手势的精准识别。

在视频中，尽管路口交通信号灯显示为红色，但当现场交警以标准手势指挥车辆通行时，测试车辆并未受到红灯约束，而是自主完成了通行动作，过程平稳连贯，无迟滞或误判。这一功能的核心在于，FSD 的神经网络不仅通过占用网络（Occupancy Network）将三维世界细化为高精度的立体像素来感知环境，还升级了“骨骼追踪”模型，能够实时捕捉人体上多达 18 个关节点动作，从而区分一个行人是站在路边看手机，还是主动发出“停止”或“通行”的手势指令。这意味着系统开始理解交通中非结构化的“社交信号”，而非仅仅执行硬性的交通法规。

从技术实现层面看，这同样意味着特斯拉 FSD 的决策逻辑正在发生质变。在传统的规则驱动模式下，车辆需要将“感知”到的物体进行分类，再通过预设的“规划”逻辑去执行“控制”指令，模块间的信息传递存在损耗。而在新的端到端架构下，AI 可通过观看海量的人类驾驶视频进行“自学”，直接由图像输入生成驾驶控制指令。特斯拉工程师此前曾总结，采用端到端算法的原因在于人类驾驶中的价值观极为复杂、现实世界细节过于丰富且反应要求极快，传统规则化编码难以覆盖所有“长尾场景”。

值得注意的是，尽管特斯拉 FSD 在技术层面展示了从“事后制动”向“事先预判”的跨越，但它在实际应用中仍面临现实挑战。

监管层面，美国国家公路交通安全管理局近期已升级对约 320 万辆特斯拉车辆的调查，重点关注系统在能见度不佳等恶劣环境下的可靠性。而在中国市场，由于数据采集与训练的本地化限制，部分用户反馈 FSD 在面对诸如外卖骑手穿行、复杂混合车道等本土化场景时，仍会出现水土不服的现象。这显示出，从“能够预判”到“在所有复杂场景下均能准确预判”，自动驾驶技术仍有较长的验证与迭代之路。