就在前两天,英国 AI 公司 Wayve 宣布获得新一轮 10.5 亿美元融资,投资方为软银、英伟达和现有投资人微软,可以说是顶级豪华阵容。
作为一家英国公司,Wayve 这轮融资也创造了英国 AI 公司有史以来最大的单笔融资。甚至英国首相也在一份声明中表示,它「巩固了英国作为人工智能超级大国的地位」。
在通用人工智能领域,Open.ai 在过去两年成为全球顶级的热门标的;而智能驾驶领域,曾经获得过 10 亿美金级融资的公司不多,只有 Waymo、Argo、Cruise 等少数几家。
Wayve 的巨额融资也勾起人们对于未来的强烈好奇:它有没有可能成为智能驾驶领域的 Open.ai,又或者说,成为端到端这代技术上的 Waymo/Cruise?
到目前为止,Wayve 已完成三轮融资,累计融资金额超过 13 亿美元。除了资本大鳄和商业巨头,有「深度学习三巨头」美誉、现 Meta 首席人工智能科学家 Yann LeCun,也是 Wayve 的投资人。
Wayve 上一次引发关注是在不久前 3 月份,原 Mobileye 中国区的负责人 Erez Dagan 加入 Wayve 担任总裁,主要负责产品、业务和战略。
本轮融资后,Wayve 将加速推出首款用于量产车辆的自动驾驶软件,包括 L2+ 智驾软件以及实现完全自动驾驶的软件系统。Erez 加入后,其重点关注的方向也是面向 OEM 的交付。据说,Wayve 正在与全球前几大车厂商洽谈合作。
自动驾驶 2.0:押注端到端
Wayve 由 Alex Kendall(联创兼现任 CEO)和 Amar Shah(已离开)于 2017 年共同创立,两为均来自剑桥大学。
其公司总部英国伦敦,目前约有 300 名左右的员工。
Wayve 称自己是第一个在公共道路上,开发和测试端到端深度学习自动驾驶系统的公司。
2015 年,Alex Kendall 与 Vijay Badrinarayanan(现任 AI 副总裁)、Roberto Cipolla 等人,一起提出了 SegNet,这是第一个使用端到端深度学习进行语义分割的实时方法,无需高精地图即可理解复杂环境。
从 2017 年开始,Wayve 就在汽车上对神经网络强化学习的一些早期成果进行了应用。公司把这套系统在道路上进行了模拟部署,随后逐渐扩大规模,最终实现在伦敦市中心的交通环境下进行真实驾驶。
Wayve 将自己的智驾系统称为AV2.0。
Wayve 认为,基于传统机器学习方法的AV1.0架构,所面临的根本问题是技术可扩展性。
因为它依赖复杂的传感器、高精度地图和手工编码的规则,使得系统成本居高不下,在行为预测、规划和处理长尾场景问题上,效果很难提升。
AV2.0 不依赖传统的高清地图和手工编码的规则,而是专注于构建数据驱动的学习型驾驶系统,而且可以扩展、适应、推广到系统从未见过的场景。
AV2.0 的特点如下:
采用端到端深度学习网络架构;
无需高精地图;
以安全为核心设计,符合行业安全期望;
传感器灵活性,兼容纯视觉到包括雷达和激光雷达的多种架构;
通过数据驱动进行泛化扩展;
在全球范围内,经济适用;
其中最重要的,就是端到端架构。
它抛弃传统的「感知 - 规划 - 执行」的架构,将车辆传感器原始的输入数据,直接转换为驾驶操作输出。
在行业内,端到端的方法已经得到了初步的验证。特斯拉此前发布的 FSD v12,就采用了端到端架构。国内外很多用户试用过后,普遍的评价是,基本达到了人类驾驶的水准。
这种方法的核心是自我监督学习。就像大语言模型 LLM 预测下一个单词一样,驾驶系统可以从原始的、未标记的数据中进行无监督学习。
自动驾驶和大型语言模型之间有许多相似之处,从根本上讲,它们都是大型的、高数据量的、复杂的决策问题。输入模型的数据越多,AI 模型的特定应用就越丰富,越具有表现力,无需人工输入即可对大量驾驶记录进行训练。
核心技术栈:解决可解释性,建立人机信任
Wayve 为自动驾驶的迭代升级开发了一个快速、连续和无缝的学习循环系统 Fleet Learning Loop,不断记录数据、训练模型、评估性能和部署更新的模型,以此循环。
在量产车队中,它能从 OEM 的各种车辆中收集真实世界的驾驶数据,然后上传到云端处理,再将迭代后的模型部署到车端,升级车辆的自动驾驶功能。
Wayve 还一直在开发智能驾驶基础模型(foundation model for driving)。该模型利用多模态数据,包括文本和非驾驶视频源,来优化对驾驶环境的内部表征。
Wayve 认为,这能增强 AI 模型的驾驶能力,允许从不同来源交叉学习与驾驶相关的概念,并提高与驾驶任务目标的一致性。
简单来说,就是通过从多个数据源学习,可以提高车辆对传感器流中最有意义和可操作性的方面的理解,从而提高智能驾驶的流畅度和安全性。
除此之外,Wayve 还开发了 LINGO 和 GAIA 两个模型,用来解决智驾场景的可解释性和信任等问题。
行业内对端到端架构的其中一大担忧是它是一个黑盒方案,其过程不可解释。LINGO 能用自然语言描述自己的驾驶决策,并解释决策的原因。
例如在行驶过程中,LINGO 做出了绕行路边停靠车辆的判断时,它可以向用户输出判断依据:由于交通堵塞,我正在缓慢靠近;我正在经过一辆停在路边的车;因为前方道路畅通,所以我加速前进。
Wayve 在去年下半年推出过 LINGO-1,当时该模型以视觉和语言信息为输入,但只能输出语言结果。LINGO-2 的输入和输出都可以是视觉和语言信息,甚至也包括驾驶行为,也就是能控制车辆的行驶。
按官方说法,LINGO-2 是一种将视觉、语言和行动综合起来,以解释和确定驾驶行为的驾驶模型,是第一个在公开道路上测试的,闭环「视觉 - 语言 - 行动」驾驶模型(VLAM)。
LINGO-2 架构
LINGO-2 的亮点在于:通过语言提示,调整驾驶行为。
可以使用一些限定的导航命令,如「靠边停车」、「右转」等,让 LINGO-2 调整车辆的行为。这也能帮助模型训练,并且增强人车交互。
LINGO-2 在指令的要求下停车
LINGO-2 回答场景问题,并解释驾驶操作
通过直接将语言和动作联系起来,LINGO 可以一定程度上揭示出 AI 系统如何做出决策,使得自动驾驶模型不再是一个「黑盒子」。
更重要的是,LINGO 可以增强人类对智能驾驶系统的信任。
目前,LINGO-2 还只在 Ghost Gym 模拟器中进行了验证,在现实世界中用语言控制汽车的行为是否可以可靠、安全地完成,还需要更多研究。
将世界模型融入驾驶模型
对于长尾场景,Wayve 给出的一个解决方法是 GAIA-1,一个为智能驾驶打造的生成式世界模型。
GAIA-1 架构
GAIA-1 首先是一个多模态生成模型,利用视频、文本和动作输入,生成逼真的驾驶场景视频。它能够对车辆的行为和其他基本场景特征,进行细粒度控制。无论是改变车辆的行为,还是修改整体场景,模型都能完成。
这样,GAIA-1 可以作为仿真模拟中的重要一环,生成无限的数据,来训练和验证自动驾驶系统,解决极端场景,特别是在获取真实世界数据成本高或风险大的情况下。
GAIA-1 可根据各种提示,生成驾驶场景
它还是一个真实的世界模型,可以学习、理解驾驶中的重要概念,比如什么是卡车、公共汽车、行人、骑自行车的人、道路布局、建筑物和交通信号灯。
所谓世界模型,是对环境及其未来动态的表征,能实现对周围环境的结构化理解,就像人类对自己周围的环境进行建模理解一样。
将世界模型整合到驾驶模型中,使得自动驾驶车辆能够预测未来事件,从而提前规划行动,在复杂或未知的情况下做出更加明智的决策。
目前版本的 GAIA-1拥有超过 90 亿个可训练参数,训练数据集包含了 2019 年至 2023 年在伦敦收集的 4700 小时的专有驾驶数据。模型可以预测视频序列中的后续帧,从而在不需要任何标签的情况下,实现自回归预测能力。
迈向商业化量产
目前,Wayve 在商业化上的作为不多。
此前,它一直在英国生鲜配送公司 Ocado 的车上训练模型,这家公司也是投资方之一,曾投资了 1360 万美元。
据称,Wayve 已经在全球 100 多个城市开始了系统测试。
本轮融资后,Wayve 将加速推出首款用于量产车辆的自动驾驶软件,包括 L2+ 智驾系统,以及实现完全自动驾驶的软件系统。
它也在与全球前几大车厂商洽谈合作,但具体名单未知。
原 Mobileye 中国区的负责人 Erez Dagan 加入 Wayve 担任总裁,其重要的关注方向也是面向 OEM 的交付。Erez 在 Mobileye 工作了 20 年,是全世界第一款纯视觉 ADAS 产品的创始团队成员,后来担任产品和战略执行副总裁,并在 Mobileye 被收购后担任英特尔集团副总裁。
联系到此前马斯克表示,特斯拉将于今年 8 月 8 日发布 Robotaxi,种种迹象似乎表明完全自动驾驶的技术路线正在逐渐清晰。
Wayve 的目标甚至不止于此。在最近 Techcrunch 的一次采访中,Alex Kendall 说到,Wayve 的驾驶大模型不仅在驾驶数据上进行训练,还对互联网规模的文本和其他来源进行训练,甚至使用英国政府的 PDF 文档来训练模型。
Wayve 正在构建具身 AI(Embodied AI)基础模型,一个基于非常多样化的数据进行训练的通用系统,能够在复杂的现实世界环境中感知、行动、学习和适应人类行为。智能驾驶只是这一系统目前最大的应用场景。
来源:HiEV 大蒜粒车研所