Wap 公众号 评论
设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI浪潮下的数据:自动驾驶需要何种标注?|GAI进化论

2024-05-29 17:24:13 来源:

南方财经全媒体记者江月 上海报道d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

自动驾驶是人工智能时代里最令人兴奋的科技之一。过去大约十年来,自动驾驶技术开始起步并得到一定程度发展,但目前仍然在等待里程碑式的突破,以期未来真正实现规模化应用。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Holger Caesar是荷兰代尔夫特理工大学智能车辆组助理教授,他的学术生涯几乎和这一代自动驾驶浪潮同步启程,因此,他将过去约10年的时光专注在了这个领域的技术研究。其间,他在自动驾驶明星公司Motional作为项目负责人主导开发了自动驾驶数据集nuScenes和nuPlan,自2019年以来,这两个数据集也位居全球范围内最为使用广泛的开源自动驾驶数据集前列。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

事实上,数据是算法、算力之外第三驾驱动人工智能发展的马车,不少行业人士都认为,好的数据集十分难得,甚至是算力和算法发挥价值的前提条件。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

在人工智能新一轮浪潮来临时,Holger Caesar正致力于将自动驾驶数据集带向第三代。他告诉南方财经全媒体记者:“自动驾驶数据集的标注量可以缩小至目前水平的1/20至1/100,未来可能覆盖全球场景。”其中,基础模型的迅速发展带来了更便利的自动化,但带来的行业格局演变也正引起从业者的警惕。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

数据标注进入自动化的第三代d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

“基于模型训练、减少人工标注,数据集应该是更加可拓展(scalable)、成本可负担(affordable)的。”5月末在上海,Holger向南方财经全媒体记者讲述了他开发三代自动驾驶数据集的经历。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

在自动驾驶数据集起步之初,数据采集的小时数、车辆行驶区域等均受到限制,而且所有的标注全由人力操作。第一代数据集nuScenes正是如此,它采样于波士顿和新加坡,总时长仅有5.5小时。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

尽管如此,这已经包含大量信息。这短短数小时的素材获取了1000个场景,同时涵盖北美洲和亚洲城市不同的路况和天气,也同时覆盖了左行和右行交通规则,其中,多雨的新加坡给数据标注带来了相当大的挑战。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

nuScenes也是全球首个全感应的数据集,这意味着它并非仅依靠相机或激光雷达采集数据,而是结合了二者以及雷达、GPS和IMU(惯性测量单元)数据。这个数据集最终包括140万张图片,其中在4万张关键图片中包含140万个标注框。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

从2016年到2019年,全球不同机构采集均使用人工方法为自动驾驶数据集进行标注,nuScences的标注量已经足够说明,人工方法下的数据集建立有场景数量天花板(通常不超过1000个),而且开发时间长、人工培训成本高。尽管如此,初代数据集的开发令自动驾驶研发打开了局面。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

第二代数据集nuPlan是全球第一个大规模的规划型数据集,这一代数据加强了标注阶段的自动化,将数据集的小时数从5小时水平提升到1000小时以上。数据最终采集自波士顿、匹兹堡、拉斯维加斯和新加坡,包含1282个小时的行车数据。使用如此大的训练量,将数据集能力从感知(perception)提升到了规划(planning),也意味着将自动驾驶技术从低等级的辅助驾驶进一步提升到了自动驾驶能力。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

和上一代数据集不同的是,nuPlan将离线和实时数据进行了结合,利用离线感知(offline perception)进行了场景标记和交通灯模拟,更适合用于自动驾驶规划(planning)和预测(Prediction)。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,底层离线感知系统仍然需要人力标注,这仍然导致数据集昂贵且耗时。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

目前,Holger 设想第三代数据集将几乎不需要人类标注工作,这样可以极大降低数据集开发成本,并进一步提升可拓展性。“目前,全球仅有少数超大公司可以负担自动驾驶数据集开发,我希望能将AI开发进一步普及化,激发小公司和创新公司利用AI的能力。”Holger称。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

第三代数据集利用主动学习(active learning)、自监督学习(self supervised learning)、基础模型(foundation model)和语言模型(language model)等技术,这些方法可以将人力标注工作降低数个数量级,大约是上一代技术标注量的1/20至1/100。它还能灵活地适应新车辆、新城市等变量,未来可以开发有关自行车、火车和船只的新数据集。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

“未来,数据集开发方法还可以进一步应用到机器人、无人机、卫星、安防等领域。”Holger表示,这意味着自动驾驶领域的又一新技术将带来新的行业革命。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

人工智能令从业者兴奋d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

人工智能为自动驾驶解决了一个又一个难题,令后者不再只是一个封闭场景里的幻想,而更可能在未来于广阔世界里成为现实。作为从业者,从2022年下半年开始的人工智能浪潮令他感到兴奋,同时新格局变化也令他产生了一些警惕。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

首先是基础模型经由“转换器(transformer)”改造以来,变得更加强大,适应大规模的神经网络模型建立,并产生了不少震撼市场的大语言模型和多模态模型。“Transformer的到来让人惊叹,它把数据集提升到了一个高得多的量级,分析能力也更强劲了。”Holger指出。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Transformer是一种新型神经网络,大众熟知的ChatGPT、GPT系列模型、BERT模型等正是基于transformer开发的。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

目前,全球基础模型仍在不断开发,而这给数据标注带来了更多便利。Holger表示,这是因为基础模型能让图片训练适用于所有条件,也就是说,当天气、城市、摄像头等条件变化时,模型仍能自动训练。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

随着大语言模型在全球范围的流行,Holger认为这也可以给数据标注行业带来更多便利。“设想使用自然语言进行数据标注,例如对一张图片进行所有车辆标注,还能进一步修改标注目标,例如将图片中的卡车排除标注,这会令数据标注更加方便。”Holger称。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

除此以外,数据集训练也在更趋人道、环保和节能。由于在第三代数据集中使用自监督学习和主动学习,标注量成倍缩小。“从算力的角度,这更加高效,也意味着更节能环保。”Holger称,另外,数据标注行业从前几乎等同于“低薪高压”工作的代名词,未来也可能缩小这种工作量,转而增强职业训练技能。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

此外,新的模型训练也将覆盖更多的“边界情况(corner case)”,即那些不常见但对自动驾驶安全至关重要的场景,令自动驾驶真正从实验室里走到现实道路中。“在第三代技术中,我们正试图通过结合无监督学习去抓捕混合的车辆等,从而覆盖更多的‘边界’。”Holger称。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过,部分人工智能科技的发展正在悄然改变行业格局,这给从业者带来了一些关于未来的隐忧。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

算力硬件设备明显变得更加昂贵、供不应求,这是因为超大型人工智能公司正在囤积算力芯片,而部分公司拥有供应相关芯片的垄断地位。“未来的算力市场上,应该有更多公司供应算力芯片,而非只有一两家。”Holger表示。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

此外,“尽管基础模型的通用性非常强大,但这可能导致技术掌握在个别超大公司手中,这对于其他也在开发基础模型的创新机构不利。”Holger称。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过,Holger对大学和创新型研究机构在人工智能中的角色保持信心。“大型商业机构并不总是关心人工智能技术发展,因此这是我们(大学)发挥创新之处,我们也将把现有商用人工智能变得更加高效节能。”Holger称。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

商用AI可能会追逐周期浪潮,资金总是在行业高峰期进行堆积,但在行业低谷期撤退。Holger认为,人工智能发展也应该更加理性,一些热潮还需要时间验证。d2Z流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:AI浪潮下的数据:自动驾驶需要何种标注?|GAI进化论http://www.llsum.com/show-2-6360-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 我国中医药科技成果登记流程进一步优化

下一篇: 英伟达H20“退烧” 国产GPU向前

热门资讯

  • 洞悉竹类植物有了称手“利器”

    竹类植物是竹亚科植物的总称,与水稻、小麦、大麦和燕麦同属于禾本科BOP分支,具有重要的经济、生态和文化价值。为更好地服务竹类植物的系统进化和功

  • 让肺部磁共振成像从“不可看”到“看得清”

    患者只需吸入特制的“氙气”,3.5秒后一幅人体肺部磁共振3D影像就呈现出来。影像中,气体可抵达肺部的位置清晰可见,患者的肺部微结构、气体交换功能情

  • 我研究人员提出 老年人防跌倒健康服务新视角

    3月17日记者获悉,哈尔滨医科大学公共卫生学院副院长、教授田懋一与副研究员叶鹏鹏团队在一项研究中提出,应将预防老年人跌倒与国家基本公共卫生服务

  • 新AI系统可提供足球制胜战术

    未来的足球场,人工智能(AI)当“大脑”?《自然·通讯》19日发表一项来自谷歌深度思维的最新成果,研究团队报告了一个名为“TacticAI”的系统,能在足

  • 英伟达发布AI“超级芯片” 自称“非常、非常强大”

    据法新社3月18日报道,周一,美国半导体巨头英伟达公司发布了其最新型号的电子芯片,这些芯片旨在支持人工智能(AI)革命,英伟达正努力巩固其作为人工智能领

  • 借AI“慧眼”鉴别可疑论文图片

    今年1月,英国分子生物学家肖尔托·戴维发表文章,指控美国哈佛大学医学院附属丹娜-法伯癌症研究所科学家通过修改图片伪造数据。随后该研究所正

  • “婴儿香”原来是真的香

    所谓香喷喷的婴儿,到底是源于人们的爱意,还是说确有其香?《通讯·化学》21日一项小型研究首次分析了婴儿和青少年体味化学组成的差异。研究显示

  • 我国网民规模达10.92亿人:互联网普及率77.5%!

    3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12

  • 京东与OPPO重磅合作:销售额3年翻倍!

    3月23日消息,京东与OPPO战略合作协议签约仪式举行,双方签订未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。在签约仪式上,OPPO高级副CEO、首席产

  • 新技术破解结核病“早发现早治疗”难题

    3月24日是第29个世界防治结核病日,我国的宣传主题是“你我共同努力,终结结核流行”。在北京大学社会化媒体研究中心21日举办的“技术升级,加速我国终

  • 中广核:用创新技术提升核电站“智”力

    在近日开幕的中国国际核工业展览会上,中国核学会理事会党委书记、理事长王寿君表示,中国内地现有在运核电机组55台、居全球第三;在建核电机组26台,保持

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜