热搜词: 河南思皓 思皓

自动驾驶VLA技术, 被理想和小鹏寄予厚望, 却被华为和地平线抛弃

VLA(视觉-语言-动作)是一项自动驾驶领域的技术,最早由谷歌提出,2024年被理想和小鹏奉为神明,却在2025智驾路线大分流中,渐渐沦为边缘化技术。

L3级自动驾驶落地前夜,技术路线突然“分岔”

2025年8月,中国高阶智驾集体按下“快进键”:理想推送“VLA司机大模型”,小鹏新P7端出20Hz VLA架构技术;与此同时,华为乾崑智驾ADS 4随问界M9年度改款OTA开始商用,主打WA(World Action)世界模型技术路线。

VLA与WA,一条把“语言”塞进驾驶链路,一条直接让“世界行为”控车——原本统一的“智驾第一阵营”突然分裂成两大信仰。是“最强解法”还是“跑不动”?答案藏在三条追问里:VLA到底解决什么?落地还缺什么?它是不是终局最优解?

VLA曾经是“救世主”,给国内端到端补上最后10%

特斯拉提出端到端大模型技术路线,把规则驱动改成数据驱动,由于无法准确知道技术细节,却留下两大黑箱:

第一,系统“为什么这样动”讲不清——急刹可能是误判阴影,也可能是识别到行人,但模型不解释;

第二,没见过就不会——行人突然横穿、施工锥桶异形摆放,只能靠“撞过的数据”被动应对。

VLA在“视觉-动作”之间插入“语言”桥梁,把像素级特征抽象成语义级规则,再转成驾驶动作。理想智驾负责人郎咸朋比喻:端到端像猴子开车,VLA像教练开车——既能理解红灯=禁止通行,也能提前5秒预判“前方积水可能打滑”。

不过,共识是:当下L2++任务还不够复杂,VLA的碾压优势要到L3/L4才会彻底释放。于是,小鹏、理想、元戎把VLA当“端到端2.0”,华为、Momenta、博世则直接否定“语言必要”,押注世界模型。

VLA落地“三重门”,算力、数据、芯片带宽

算力:理想13 EFLOPS、小鹏8 EFLOPS云端集群,才能喂饱30B-72B参数模型;国内中小车企普遍0.2-0.6 EFLOPS,一次7B模型收敛就要1.2亿元,相当于哪吒全年研发费的40%。

数据:VLA需“视觉-语言-动作”三元组,理想29.3亿公里实车日志+10%生成式仿真,长尾场景数据密度要5-10倍才能收敛;中小车企既没车队,也买不起数据。

芯片带宽:3B参数VLA在Thor-U上只能跑10Hz——相当于“每秒卡10帧”的机器人;华为、小鹏自研芯片+千卡锁价锁量,英伟达首批40万片Thor-U 32万片被头部签完,留给现货的只有8万片,溢价30%起拍。

简单下个结论,VLA不是“堆钱就能上”,而是“钱+数据+芯片+时间”一个都不能少的极限工程。因为中间采用了人类自然语言作为过渡,对终端芯片算力消耗更大,延迟也更大。

出现真假VLA之争,小鹏“纯血”对线理想“嫁接”

小鹏G7 Ultra发布会上,何小鹏放话:“几十亿才能做真VLA,几个亿只能堆出微型VLA,本质还是端到端。”一旁元戎周光则强调:“7B-10B参数+22T token多模态数据才配叫VLA。”

对面,华为靳玉志直接否定VLA必要性:“语言模型擅长文本推理,缺三维空间感知,WA(World Action)才是终局。”Momenta曹旭东更犀利:“VLA安全提升5-10倍,L4需要100-1000倍,杯水车薪。”

技术路线无关对错,关乎资源禀赋:小鹏72B云端基座、理想13 EFLOPS、元戎早期GPT研究,都决定他们必须“all in VLA”;华为有云端世界模型+软硬一体,Momenta有数据飞轮+强化学习,自然选择“跳过语言”。

行业洗牌最关键一年,中小车企的“富士康化”生存

VLA把供应链打成“限量款”,芯片、算法、数据都成为了稀缺资源。

芯片:理想、蔚来、小鹏2024年锁完32万片Thor-U,零跑甚至只能溢价抢现货;

算法:头部自研,中小外购——但外购也分层,Momenta、华为只给“阉割版”,真正的VLA模型需按车价分成;

数据:没有10万公里级车队,就只能买“二手数据”,长尾覆盖率天生低一头。

结果就是中小车企被迫回归“富士康角色”——把冲压、焊接、总装良率做到极致,利润被芯片厂和算法公司两头吃。VLA不是技术革命,而是“智驾主权”的再集中。

头部之战:VLA vs WA,两条路线的资源赌局

VLA技术路线的坚定拥护者是理想、小鹏,千亿参数、千卡训练、自研芯片,赌的是“语言推理”带来长尾泛化;

WA技术路线跟特斯拉是站一边的,华为、Momenta、博世——世界模型、扩散生成、原生空间,赌的是“物理规则”带来绝对安全。

2025-2026年将是分水岭:VLA若能在Q2-Q4率先跑出“城市L3+长尾十倍降误”,理想、小鹏将借“通用AI基座”完成汽车+机器人双杀;若WA率先落地“无保护左转+暴雨夜间零接管”,华为将巩固“智驾底座”地位,进一步收割主机厂。

短期看,两条路线都会共存;长期看,谁能把“体验-成本-安全”三角同时拉到最优,谁就是终局赢家。

让技术归技术,让体验归体验

VLA之争,本质是“资源禀赋”与“技术价值观”的碰撞:有算力、有数据、有芯片的,赌VLA“一口气吃光长尾”;有云端、有平台、有全栈的,赌WA“跳过语言直接理解世界”。

但用户不关心 acronym,只关心“车位到车位”是否丝滑、“暴雨+施工”是否零接管。2025年L3拐点前夜,谁先跑出“可复制、可泛化、可盈利”的智驾体验,谁就能拿下下一个五年门票。

技术路线没有高下,只有适不适合;市场终局没有标准答案,只有体验唯一试金石。VLA or WA,让子弹再飞一年,让交付数据说话。