自动驾驶VLA技术, 被理想和小鹏寄予厚望, 却被华为和地平线抛弃

VLA（视觉-语言-动作）是一项自动驾驶领域的技术，最早由谷歌提出，2024年被理想和小鹏奉为神明，却在2025智驾路线大分流中，渐渐沦为边缘化技术。

L3级自动驾驶落地前夜，技术路线突然“分岔”

2025年8月，中国高阶智驾集体按下“快进键”：理想推送“VLA司机大模型”，小鹏新P7端出20Hz VLA架构技术；与此同时，华为乾崑智驾ADS 4随问界M9年度改款OTA开始商用，主打WA（World Action）世界模型技术路线。

VLA与WA，一条把“语言”塞进驾驶链路，一条直接让“世界行为”控车——原本统一的“智驾第一阵营”突然分裂成两大信仰。是“最强解法”还是“跑不动”？答案藏在三条追问里：VLA到底解决什么？落地还缺什么？它是不是终局最优解？

VLA曾经是“救世主”，给国内端到端补上最后10%

特斯拉提出端到端大模型技术路线，把规则驱动改成数据驱动，由于无法准确知道技术细节，却留下两大黑箱：

第一，系统“为什么这样动”讲不清——急刹可能是误判阴影，也可能是识别到行人，但模型不解释；

第二，没见过就不会——行人突然横穿、施工锥桶异形摆放，只能靠“撞过的数据”被动应对。

VLA在“视觉-动作”之间插入“语言”桥梁，把像素级特征抽象成语义级规则，再转成驾驶动作。理想智驾负责人郎咸朋比喻：端到端像猴子开车，VLA像教练开车——既能理解红灯=禁止通行，也能提前5秒预判“前方积水可能打滑”。

不过，共识是：当下L2++任务还不够复杂，VLA的碾压优势要到L3/L4才会彻底释放。于是，小鹏、理想、元戎把VLA当“端到端2.0”，华为、Momenta、博世则直接否定“语言必要”，押注世界模型。

VLA落地“三重门”，算力、数据、芯片带宽

算力：理想13 EFLOPS、小鹏8 EFLOPS云端集群，才能喂饱30B-72B参数模型；国内中小车企普遍0.2-0.6 EFLOPS，一次7B模型收敛就要1.2亿元，相当于哪吒全年研发费的40%。

数据：VLA需“视觉-语言-动作”三元组，理想29.3亿公里实车日志+10%生成式仿真，长尾场景数据密度要5-10倍才能收敛；中小车企既没车队，也买不起数据。

芯片带宽：3B参数VLA在Thor-U上只能跑10Hz——相当于“每秒卡10帧”的机器人；华为、小鹏自研芯片+千卡锁价锁量，英伟达首批40万片Thor-U 32万片被头部签完，留给现货的只有8万片，溢价30%起拍。

简单下个结论，VLA不是“堆钱就能上”，而是“钱+数据+芯片+时间”一个都不能少的极限工程。因为中间采用了人类自然语言作为过渡，对终端芯片算力消耗更大，延迟也更大。

出现真假VLA之争，小鹏“纯血”对线理想“嫁接”

小鹏G7 Ultra发布会上，何小鹏放话：“几十亿才能做真VLA，几个亿只能堆出微型VLA，本质还是端到端。”一旁元戎周光则强调：“7B-10B参数+22T token多模态数据才配叫VLA。”

对面，华为靳玉志直接否定VLA必要性：“语言模型擅长文本推理，缺三维空间感知，WA（World Action）才是终局。”Momenta曹旭东更犀利：“VLA安全提升5-10倍，L4需要100-1000倍，杯水车薪。”

技术路线无关对错，关乎资源禀赋：小鹏72B云端基座、理想13 EFLOPS、元戎早期GPT研究，都决定他们必须“all in VLA”；华为有云端世界模型+软硬一体，Momenta有数据飞轮+强化学习，自然选择“跳过语言”。

行业洗牌最关键一年，中小车企的“富士康化”生存

VLA把供应链打成“限量款”，芯片、算法、数据都成为了稀缺资源。

芯片：理想、蔚来、小鹏2024年锁完32万片Thor-U，零跑甚至只能溢价抢现货；

算法：头部自研，中小外购——但外购也分层，Momenta、华为只给“阉割版”，真正的VLA模型需按车价分成；

数据：没有10万公里级车队，就只能买“二手数据”，长尾覆盖率天生低一头。

结果就是中小车企被迫回归“富士康角色”——把冲压、焊接、总装良率做到极致，利润被芯片厂和算法公司两头吃。VLA不是技术革命，而是“智驾主权”的再集中。

头部之战：VLA vs WA，两条路线的资源赌局

VLA技术路线的坚定拥护者是理想、小鹏，千亿参数、千卡训练、自研芯片，赌的是“语言推理”带来长尾泛化；

WA技术路线跟特斯拉是站一边的，华为、Momenta、博世——世界模型、扩散生成、原生空间，赌的是“物理规则”带来绝对安全。

2025-2026年将是分水岭：VLA若能在Q2-Q4率先跑出“城市L3+长尾十倍降误”，理想、小鹏将借“通用AI基座”完成汽车+机器人双杀；若WA率先落地“无保护左转+暴雨夜间零接管”，华为将巩固“智驾底座”地位，进一步收割主机厂。

短期看，两条路线都会共存；长期看，谁能把“体验-成本-安全”三角同时拉到最优，谁就是终局赢家。

让技术归技术，让体验归体验

VLA之争，本质是“资源禀赋”与“技术价值观”的碰撞：有算力、有数据、有芯片的，赌VLA“一口气吃光长尾”；有云端、有平台、有全栈的，赌WA“跳过语言直接理解世界”。

但用户不关心 acronym，只关心“车位到车位”是否丝滑、“暴雨+施工”是否零接管。2025年L3拐点前夜，谁先跑出“可复制、可泛化、可盈利”的智驾体验，谁就能拿下下一个五年门票。

技术路线没有高下，只有适不适合；市场终局没有标准答案，只有体验唯一试金石。VLA or WA，让子弹再飞一年，让交付数据说话。