设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯

2024-05-06 12:46:02 来源: 量子位

跨模态增益挖掘Transformer潜力Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Yiyuan 投稿Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM
量子位 | 公众号 QbitAILcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

万万没想到,与任务无直接关联的多模态数据也能提升Transformer模型性能Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

比如训练一个图像分类模型,除了标注好类别的图像数据集,增加视频、音频、点云等模态数据,也能显著提升模型在图像分类上的性能。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这样一来,在AI训练阶段就可以减少与特定任务直接相关的标注数据需求,可以节省大量成本,或在数据有限的任务上提供新解决思路。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这个神奇的发现来自港中文MMLab和腾讯AI Lab的合作研究,相关论文已被CVPR 2024接收,引起广泛关注。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

从无关数据中学习有用知识

具体来说,团队提出了一种称为多模态通路(Multimodal Pathway)的新框架。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

该框架允许Transformer模型在处理特定模态的数据时,同时利用其他模态中的无关数据进行训练,从而在不增加额外推理成本的前提下显著提升模型性能。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

多模态通路的核心技术是跨模态重参数化 (Cross-Modal Re-parameterization)*。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这一技术的创新之处在于,它通过结构上的智能重组,使得模型能够在保持原有计算成本的同时,增加从其他模态学习的能力。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对于已经被广泛运用到多模态特征提取的Vision Transformer,团队关心的是这些神经网络中的主要线性层。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

具体来说,这一技术在模型的每一个线性层中引入了辅助模态的权重,这些权重通过可学习的参数进行调节,从而在不增加推理时间的情况下,实现模态间的知识迁移。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

如图所示,比如有不同模态的两个线性层FC和FC’, 那么跨模态结构重参数化就是要通过构建一个运算完全等价的线性层来承载两个模态的运算,在这里直接将来自不同模态的两部分权重 (W和W’)做线性组合(W+λW’)来平衡两个模态的权重对于目标模态的贡献。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

实验结果:跨模态增益挖掘Transformer潜力

在论文中,研究团队详细介绍了他们的实验设计和结果。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

在图像识别、点云处理、视频理解和音频分析等多个任务上应用了多模态通路技术,观察到多模态通路能够在12种不同的模态相互帮助的关系中实现一致的性能提升Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

例如,在ImageNet图像识别任务中,结合了点云数据的多模态通路Transformer模型,比传统的Transformer模型在识别准确率上提高了0.7%。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

与MAE预训练方法的各种改进相比,该方法无需高昂的计算成本来预训练1600 Epoch,而是直接在下游任务中微调,就能显著地提升模型性能。这充分展示了多模态学习在处理大规模复杂数据集时的强大潜力。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

研究人员还发现,跨模态知识迁移的效果不仅与模型参数规模有关,还可能与层次表示(Hierarchical Representation)能力密切相关。也就是越擅长学习层次化的抽象表示的模型,迁移效果就越好。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

更值得注意的是,该方法有效地证明了即使毫不相关的多模态数据之间,仍能存在着明显的多模态增益效果,这充分说明我们现在对多模态学习的理解与认知还有很大的提升空间。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

总的来说,这项研究不仅能够启发多模态学习在学术领域的发展,也为工业界提供了新的思路。通过利用现有的海量数据资源,即使这些数据与当前任务不直接相关,也能够为AI模型的训练带来积极的影响。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这种方法为数据资源有限或难以标注的领域提供了新的解决方案,特别是在自动驾驶、医疗影像分析、自然语言处理等技术要求极高的领域,多模态通路技术的应用前景广阔。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

此外,这一研究还揭示了AI跨模态学习的新机制,推动了学界对于不同数据模态间交互和协同处理的深入理解。研究团队表示,未来他们将探索将多模态通路技术应用于卷积神经网络(CNN)和其他跨架构的AI系统,以进一步挖掘这一技术的潜力。Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

论文地址:https://arxiv.org/abs/2401.14405Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM
项目网页:https://ailab-cvc.github.io/M2PT/Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM
开源代码:https://github.com/AILab-CVC/M2PTLcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM
讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/Lcd流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯http://www.llsum.com/show-2-5642-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: AI人才争夺战,华尔街入局:豪掷百万美元年薪抢人

下一篇: AI教母李飞飞首次创业!成立“空间智能”公司,已完成种子轮

热门资讯

  • 全国爱肝日丨专家提醒注意“小心肝”

    3月18日是第24个“全国爱肝日”。今年活动的主题是,“早防早筛,远离肝硬化”。重庆多所医院开展义诊咨询活动,通过普及肝病的防治知识,让民众主动筛查

  • 活性氧响应性材料 向肠炎部位精准投药

    3月17日,记者从陆军军医大学西南医院获悉,该院消化内科教授陈磊团队联合陆军军医大学教授张定林首次提出,活性氧响应性纳米材料能够把程序性死亡配体-

  • 239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远

      239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远  239万元/架的无人驾驶载人航空器也看上了电商渠道。  3月18日,亿航智能设备(广州)有限公司(下称“亿航

  • 感染新冠会“导致智商下降”吗?

    据英国《泰晤士报》网站3月15日报道,2020年1月,英国帝国理工学院的亚当·汉普希尔与英国广播公司合作,对8万人进行了30分钟的测试,目的是揭示生

  • 科学家用人工智能设计全新抗体

    据英国《自然》杂志网站19日报道,美国华盛顿大学科学家首次使用生成式人工智能(AI)工具,帮助他们制造全新抗体。研究团队表示,AI设计抗体或能更好靶向一

  • 探月工程四期鹊桥二号中继星成功发射

    3月20日8时31分,探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。火箭飞行24分钟后,星箭分离,将鹊桥二号中继星

  • “婴儿香”原来是真的香

    所谓香喷喷的婴儿,到底是源于人们的爱意,还是说确有其香?《通讯·化学》21日一项小型研究首次分析了婴儿和青少年体味化学组成的差异。研究显示

  • Kimi累趴下了,券商仍看好

    21世纪经济报道记者雷晨 北京报道近日,国内AI领域的明星产品——Kimi智能助手,因流量激增遭遇了短暂的服务中断。月之暗面随后发布公告,对此

  • “AI钢铁侠”黄仁勋,又进化了英伟达

      “AI钢铁侠”黄仁勋,又进化了英伟达  作 者丨倪雨晴  2024年,英伟达一年一度的GTC大会已然成为AI界春晚,现场座无虚席,全球AI爱好者翘首以待黄仁勋的独家SOLO。  北京

  • GPU持续升级 如何应对算力“贫富差距”

    英伟达的GPU又升级了。3月19日,英伟达CEO黄仁勋发布了最新的B200算力芯片GPU,FP8精度下的训练性能是上一代的2.5倍,FP4精度下的推理性能更是达到了上

  • vivo X Fold3首发碳纤维龙骨铰链:比苹果 15 Pro Max还轻薄

    3月23日消息,vivo即将于3月26日发布vivo X Fold3系列折叠屏电话,其中包含vivo X Fold3和vivo X Fold3 Pro两款新品。据悉,vivo X Fold3采用了首发的碳纤维

  • 首批未来产业创新成果惊艳亮相

    全球首台无细胞蛋白质合成生物反应器、全球首台全高温超导托卡马克装置(洪荒70)、64比特超导量子计算机研发与产业化项目、深海可燃冰探采重载作业机

推荐资讯

  • 日榜
  • 周榜
  • 月榜