您的位置:主页 > 公告动态 > 国王金融动态 > 国王金融动态

CVPR最佳论文奖初次给了自动驾驶

国内的自动驾驭,总算走在国际前列!

来自上海人工智能实验室、武汉大学、商汤科技联合宣布的论文——《Planning-oriented Autonomous Driving》(以途径规划为导向的自动驾驭)取得了2023全球核算机视觉盛会CVPR*论文奖

要知道,这是CVPR在40年的颁奖历史上,*篇以自动驾驭为主题的*论文

也是近十年来核算机视觉三大*会议中,*篇来自我国研讨团队的*论文。

来历:OpenDriveLab

而CVPR是人工智能范畴*学术影响力的*会议之一,在谷歌学术方针2022年列出的全球最有影响力的6个科学期刊/会议中,CVPR位列第四,仅次于《天然》《新英格兰医学杂志》《科学》。

除了CVPR在学界和业界的影响力,其严苛的评选规范更使得这次关于自动驾驭论文的获奖尤为特别。

本年CVPR的投稿量合计9155篇,终究接纳论文2359篇,接纳率为25.8%,而终究入围*论文候选名单的仅有12篇。

接下来咱们一同看看,这篇论文有什么创始性理论立异。

01 

自动驾驭通用大模型UniAD

这篇获奖论文名为 《Planning-oriented Autonomous Driving》(以途径规划为导向的自动驾驭),论文中提出了自动驾驭通用算法大模型——Unified Autonomous Driving(UniAD)。

是的,这篇论文结合了本年爆火的大模型,证明了大模型与自动驾驭工业结合的潜力。

这篇论文初次将检测、盯梢、建图、轨道猜测、规划等整合到一个依据Transformer 的端到端网络结构下,创始了以大局使命为方针的自动驾驭大模型架构先河。

CVPR官方组委会给出的获奖理由是:该论文提出了一个端到端感知决议计划一体化结构,交融了多使命联合学习的新范式,使得进行更有用的信息交流,和谐感知猜测决议计划,以进一步提高途径规划才能。

来历:OpenDriveLab

下面咱们就详细来看看,这篇论文是怎样取得了组委会的认可。

现代自动驾驭体系的特色,是按次序进行模块化使命,比方感知、猜测和规划,为了履行各式各样的使命并完结高档智能。

但轿车智能化开展现已逐步红海化。自动驾驭对核算才能和海量数据的处理才能要求更高,传统的各个小模型堆叠的计划,明显无法满意城市自动驾驭的需求,还有可能会呈现多使命之间和谐缺乏。

来历:上海人工智能实验室

所以这篇论文以为,有必要规划和优化一个归纳的结构,来从头审视感知和猜测这类的要害组件,并对这些使命进行优先排序。

依据这样的布景,上海人工智能实验室、武汉大学及商汤科技联合提出了一个感知决议计划一体化的端到端自动驾驭通用大模型UniAD。

来历:上海人工智能实验室

自动驾驭通用算法结构—— Unified Autonomous Driving(UniAD)初次将检测、盯梢、建图、轨道猜测,占有栅格猜测以及规划整合到一个依据 Transformer 的端到端网络结构下,将全栈驾驭使命整合到一个网络中。

这次的获奖,无疑是印证了端到端的感知决议计划一体化算法被遍及以为是自动驾驭算法结局。

端到端比模块化好在哪?

“端到端”其实原本是深度学习(Deep learning)中的概念,英文为“End-to-End(E2E)”,指的是一个AI模型,只需输入原始数据就能够输出终究效果的进程。

经过一个大的模型完结多种模块化模型的功用,研制人员只需求针对这一个模型进行全体练习、调整优化,即可完结功能上的提高,因而能够更好地会集资源,完结功用聚集。

而端到端自动驾驭,便是经过模型直接经过输入的图画或许视频信息得到轿车驾驭行为的指令。

来历:商汤科技

输入传感器信号后就能够直接输出车控信号,大大降低了信息差错的概率,也因而大大提高了体系功能的上限。

此前模块化的规划尽管简化了跨团队的研制难度,但由于优化方针是被阻隔的,存在着跨模块信息丢掉、差错堆集和特征不对齐的危险。

而现在职业中大大都端到端的自动驾驭体系,一向没有一个很好的网络结构来交融悉数五大模块,都只能交融部分模块。

来历:论文

所以这篇论文创始性地将一切的模块使命,都包容到一个算法架构中,也是其得奖的要害原因。

据获奖团队介绍,这个UniAD模型能每个模块的长处结合起来,并从大局视点为各个组件之间协同到达互补的状况。

他们将一系列多摄像头图画输入特征提取器,并经过 BEVFormer 转换为一致的俯瞰图(BEV)。这部分能够快速替换为其他BEV模型,具有较好可拓展性。

依据论文,UniAD 的练习分两个阶段:

首要联合练习感知部分,即方针盯梢和建图模块,然后运用一切感知、猜测和规划模块端到端地练习模型20个阶段。

详细来看,他们除了将感知、猜测、规划作为自动驾驭的三个主要使命之外、还划出了六小类子使命,其间包含了方针检测、方针盯梢、场景建图、轨道猜测、栅格猜测和途径规划。

然后将这些大大小小的使命整合到一致的端到端网络结构下,由三大主使命环节中下达诸多子使命,再经过一致的接口进行通讯,便利互相进行规划。

感知环节,UniAD的方针检测与盯梢模块能够完结对动态元素的特征提取、帧间物体盯梢;在线建图模块完结了对静态物体的特征提取、实例级地图猜测。

猜测环节,UniAD能够完结动静态元素交互与长时序轨道猜测;占有栅格猜测模块完结了短时序全场景BEV、实例级猜测。

在规划使命中,UniAD完结依据自车query的轨道猜测和依据占有栅格的磕碰优化。

来历:论文

总的来说,UniAD经过将环视的图片以Transformer映射得到BEV的特征后,一起进行方针的盯梢,在线的建图,包含方针轨道的猜测,还有障碍物的猜测,现调查现猜测,然后决议怎样举动,终究完结驾驭行为。

优势展现

他们在nuScenes实在场景上还实践测试了UniAD模型。一切使命均改写了范畴*功能SOTA(State-of-the-art),尤其是猜测和规划作用远超之前*计划,行进的进程中一起生成高质量的可解释性感知和猜测效果,并做出安全的操作。

其间,多方针盯梢准确率逾越SOTA 20%,车道线猜测准确率提高30%,猜测运动位移和规划的差错则别离降低了38%和28%。

来历:商汤科技

详细来看,在晴天直行场景中,UniAD 能够感知左前方等候的黑色车辆,猜测其未来轨道(行将左转驶入自车的车道),并当即减速以进行躲避,待黑车驶离后再康复正常速度直行。

来历:上海人工智能实验室

在场景杂乱的十字路口,即使是由于下雨,搅扰较大的状况下,UniAD 能经过别离模块独自生成十字路口的全体路途结构,并完结左转指令。

来历:上海人工智能实验室

夜晚视界变暗的状况下,UniAD 也相同感知到前车泊车,且左右有障碍物的状况,而且完结了先停止,后左转的指令。

经过这些实例,证明了他们提出的这种理念在各个方面都要优于曾经的所谓*进的技能

作为自动驾驭技能研讨重要打破,UniAD 模型吞并了“多使命” 和“高效率”的特性,这次的获奖很大概率上也代表了当下自动驾驭未来的开展趋势。

02

落地还需求时刻

在自动驾驭范畴,端到端的大模型其实并不是什么新鲜概念。

早在2021年8月,特斯拉的 AI 高档总监Andrej Karpathy,就在特斯拉 AI DAY 上展现了一项新技能——依据 Transformer 的 BEV ( 俯瞰视角 ) 的感知计划。

这个计划,相当于车辆正上方有一驾无人机在仰望车辆与周围环境,这也是大模型技能初次使用于自动驾驭范畴。

现在两年的时刻曩昔,大模型越来越遭到厂商们的重视。

现在现已有不少企业在端到端BEV Transformer 模型上有所布局,除了商汤科技外,还有像特斯拉,英伟达以及毫末智行等一系列公司。

比方商汤科技和联合实验室团队发布自动驾驭通用UniAD大模型之前,就推出了“SenseAuto绝影”智能轿车渠道,搭建了智能座舱、智能驾驭、车路协平等事务板块。

在智能驾驭方面,商汤提供有两套不同的解决计划,别离是高速领航和城市领航。

其间,高速领航搭载5颗毫米波雷达、7颗摄像头,选用16~48 TOPS算力渠道。城市领航计划则在此基础上加了3个激光雷达,并选用大于200TOPS的高算力渠道。

商汤科技联合创始人、首席科学家、绝影智能轿车工作群总裁王晓刚,将这些效果归功于商汤继续建造打造“大模型 大设备”技能途径。

而论文中所说到的大模型技能,从落地到工业彻底跟进,仍需求很长一段时刻。

特别是UniAD大模型归于包括了一切规划使命的超大型架构,触及感知、猜测等非常杂乱的体系,需求具有巨大的核算才能支撑,当然也需求足够的时刻去练习核算才能。

来历:论文

从硬件水平,到练习时刻,再到体系性的技能优化和工程落地,端到端自动驾驭计划仍面对很大应战。

这次取得CVPR*论文奖,并不仅仅一次单纯的书面意义上的获奖,更像是人工智能大模型在自动驾驭上的一次交融前瞻,多模态大模型助力的也不仅是单个车辆的自动驾驭技能,而是推进高阶自动驾驭全体落地

所以,不管怎样,这关于自动驾驭职业来说是一个振作的音讯,等待全栈端到端自动驾驭计划的大规模使用!

参阅链接

1.

2.

3.

4.

5.

6.