设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt

2024-04-01 14:24:06 来源: 量子位

连黑客帝国的子弹都能数清楚kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

还记得黑客帝国经典的子弹时间吗?kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt

而面对难倒一众大模型「吉娃娃or松饼」的难题,它只需被投喂一张吉娃娃的照片,就能瞬间迎刃而解。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt

此前,也是同样的团队,推出了基于视觉提示的检测模型T-Rex。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

如今,他们将视觉和文本提示融合,相互弥补各自的缺陷,实现了更强的目标检测能力。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

并且与多目标跟踪模型结合后,各种视频检测任务也不在话下。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt

来看新研究到底说了什么。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

打通文本和视觉提示

在开集目标检测领域,尽管文本提示受到一定的青睐,但也存在一定的局限性。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

比如长尾数据短缺。稀有或者全新的物体类别的数据稀缺可能会削弱其学习效率。还有描述上的局限性,对于一些难以用语言描绘的对象,因受限于无法精确描述,也会削弱效果。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而视觉提示提供了更直观且直接的对象表示方法,但在捕捉常见对象的概念时效果就会很差。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

T-Rex2通过对比学习在单个模型中整合两种提示,因此接受多种格式的输入,包括文本提示、视觉提示以及两者的组合。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt

在不同场景中,它可以通过在两种提示方式之间切换来处理。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

因此,它大致有三种工作模式:kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

文本提示模式、交互式视觉提示模式、通用视觉提示模式。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt

以通用视觉提示模式为例,用户可以通过向模型提供任意数量的示例图片,来自定义特定对象的视觉嵌入,然后使用这个嵌入来检测任意图像中的对象。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

也就是不需要用户与模型直接互动,就能完成检测任务。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终在在四个学术基准测试集 COCO, LVIS, ODinW, 和Roboflow100 上取得了 Zero-Shot SOTA的性能。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt

开箱即用诸多领域

无需重新训练或微调,T-Rex2即可检测模型在训练阶段从未见过的物体。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注领域提供新的解决方案。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt

除此之外,结合现有的多目标跟踪模型( 如ByteTrack ),T-Rex2还可用于视频检测任务。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt

事实上,这种跨图检测能力,让目标检测技术在生产生活中可以真正开始广泛应用。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

比如工业生产流水线器件检测,交通航运领域的船舶、飞机检测,农业领域的农作物、果蔬检测,生物医学领域的细胞、组织检测,物流领域的货物检测,环境领域的野生动物监测等。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

现在,T-Rex2让通用物体检测又迈出了新的一步。kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

试玩链接:kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM
https://deepdataspace.com/playground/ivpkUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM
T-Rex2 API:https://github.com/IDEA-Research/T-RexkUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM
论文链接:kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM
https://arxiv.org/abs/2403.14610kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

— 完 —kUf流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompthttp://www.llsum.com/show-2-4433-0.html

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 一款手游有400+个AI角色!腾讯游戏新系统炸场GDC:训练成本大减90%

下一篇: GPT4单项仅7.1分,揭露大模型写代码三大短板,最新基准测试来了

热门资讯

  • 未来,政企深度用云需要一朵怎样的“云”?

    随着历史的车轮驶入2024年,大模型、AIGC等话题引发广泛热议,云计算与AI技术展现出了前所未有的深度融合趋势,就如同寒武纪的生物大爆发,激发着各行各业

  • 多功能金纳米花颗粒 可促进感染性组织修复

    3月17日,记者从海南大学获悉,该校化学化工学院副教授李萌婷与相关研究团队合作,合成了多功能复合金纳米花颗粒。该颗粒配合温和光热、光动力、药物控

  • AI领域,重磅消息传来!

    AI领域,一则重磅消息传来!最新消息,全球最知名的AI公司——OpenAI将在几个月内发布新版大型语言模型GPT-5,性能将有大幅跃升。目前,ChatGPT使用

  • 探月工程四期鹊桥二号中继星成功发射

    3月20日8时31分,探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。火箭飞行24分钟后,星箭分离,将鹊桥二号中继星

  • 与狗互动有助放松和提高注意力

    据韩国建国大学研究人员发表在最新一期开放获取期刊《公共科学图书馆·综合》上的一项研究,与狗共度美好时光可减轻压力,同时可增强与放松和注

  • 12类健康食品获电商10亿资源扶持 “吃得健康”酝酿产业机会

    21世纪经济报道记者孔海丽、实习生邓熙涵 北京报道“民以食为天,食与民同欢”,吃得健康、吃得安全是消费者长期以来的普遍共识。当代消费者

  • 量子互联网:小荷已露尖尖角

    近日,美国纽约州立大学石溪分校科学家菲格罗阿等人在一篇发表于《自然·量子信息》上的论文中称,他们通过把两个独立的光子存储在铷气里,首次在

  • 我国成功发射云海二号02组卫星

      我国成功发射云海二号02组卫星  中新网北京3月21日电(马帅莎 曹译 张艳)北京时间2024年3月21日13时27分,我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面

  • iPhone总裁库克访问中国:女子手持huaweiMate60与其合影

    3月25日消息,国内一场经济高峰论坛上,iPhone总裁蒂姆·库克再次成为焦点。然而,引起人们关注的并非库克的讲话内容,而是一张自拍照片。在论坛现场,一

  • 英国2026年试飞电动“飞的”

    据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出

  • 站在“气候行动最前线”,我们该如何行动?

    联合国政府间气候变化专门委员会(IPCC)最新发布的评估报告显示,全球温升预计在2021年至2040年内达到1.5℃。报告指出,自IPCC第五次评估报告发布以来,全

  • 诺基亚手机“掉队”带来的启示

    作为功能机时代的霸主,诺基亚手机曾经创造了巨大的辉煌,但也因错失智能手机发展机遇而“掉队”。近期,外媒Visual Capitalist统计了有史以来最畅销的1

推荐资讯

  • 日榜
  • 周榜
  • 月榜