设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

一键换装神器爆火,老黄换上抱抱脸T恤,CEO本人:我被替代了,和他争CEO职位争不过

2024-04-28 17:11:21 来源: 量子位

马斯克奥特曼也都来参加“时装秀”m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

西风 发自 凹非寺m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

量子位 | 公众号 QbitAIm2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

笑不活,最新虚拟试穿神器被网友们玩坏了。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

黄院士、马斯克、奥特曼、史密斯等一众大佬衣服集体被扒。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

前有老黄卸下皮衣套上糖果包装袋:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

后有奥特曼大秀花臂穿CUCCI:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

再有老马变成了蛛蛛侠:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

好莱坞巨星史密斯也风格大变:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

但说回研究本身,确实正儿八经的研究。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

名为IDM–VTON,由来自韩国科学技术院和OMNIOUS.AI公司的研究团队基于扩散模型打造。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

目前官方放出了demo,大伙儿可以试玩,推理代码已开源。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

除了开头所展示的,抱抱脸研究员也玩的不亦乐乎,给老黄换上了专属战袍。其CEO连忙转发打趣:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我被替代了,没法和他争CEO。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

看热闹的网友也是感慨,经过这么多年,终于不用再担心自己“手残”了(AI帮你搞定)。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

来玩啊~

我们也赶紧上手体验了一把。demo整个页面是这样婶儿的:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

操作起来也是非常简单。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

首先上传人物图,可以手动或者自动选择要修改的区域。然后,上传要换的衣服。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

直接点击Try-on,会自动生成掩模图和换装后的图:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

上面这张自动生成的掩模把手也选进去了,所以最后生成的左手效果不好。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们手动选取涂抹一下,同时人和衣服全部都用我们自己的图。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这次效果大伙儿觉得如何?m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

再来展示一波网友的试玩成品图。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

DeepMind联合创始人苏莱曼穿上了微笑面具修格斯联名款T恤:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

甚至不少网友真想要这件衣服。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

奥特曼再次被网友当成模特:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

当然也有翻车的时候,比如马斯克穿的就是山寨CUCCI。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

看完效果后,接着来看IDM–VTON在技术上是如何实现的。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

基于扩散模型

技术方面,IDM–VTON基于扩散模型,通过设计精细的注意力模块来提高服装图像的一致性,并生成真实的虚拟试穿图像。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

模型架构大概包含三部分:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • TryonNet:主UNet,处理人物图像。
  • IP-Adapter:图像提示适配器,编码服装图像的高级语义。
  • GarmentNet:并行UNet,提取服装的低级特征。

在为UNet提供输入时,研究人员将人物图片的含噪声潜在特征、分割掩模、带掩蔽的图片和Densepose数据整合在一起。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

他们还会为服装添加详细描述,例如[V]表示“短袖圆领T恤”。这个描述随后用作GarmentNet(例如,“一张[V]的照片”)和TryonNet(例如,“模特正在穿[V]”)的输入提示。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

TryonNet和GarmentNet产生的中间特征进行了合并,随后传递至自我注意力层。研究人员只使用了来自TryonNet的输出的前半部分。这些输出与文本编码器和IP-Adapter的特征一起,通过交叉注意力层进行融合。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终,研究人员对TryonNet和IP-Adapter模块进行了精细调整,并锁定了模型的其它部分。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

实验阶段,他们使用VITON-HD数据集训练模型,并在VITON-HD、DressCode和内部收集的In-the-Wild数据集上进行评估。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

IDM–VTON在定性和定量上都优于先前的方法。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

IDM-VTON可以生成真实的图像并保留服装的细粒度细节。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

更多细节,感兴趣的家人们可以查看原论文。m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

项目链接:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[1]https://idm-vton.github.io/?continueFlag=589fb545dbbb123446456b65a635d849m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[2]https://arxiv.org/abs/2403.05139m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[3]https://huggingface.co/spaces/yisol/IDM-VTON?continueFlag=589fb545dbbb123446456b65a635d849m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM
参考链接:m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[1]https://twitter.com/multimodalart/status/1782508538213933192m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[2]https://twitter.com/fffiloni/status/1783158082849108434m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[3]https://twitter.com/ClementDelangue/status/1783179067803533577m2Y流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:一键换装神器爆火,老黄换上抱抱脸T恤,CEO本人:我被替代了,和他争CEO职位争不过http://www.llsum.com/show-2-5481-0.html

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 神经元多款车规级芯片重磅来袭 点燃国产“芯”引擎

下一篇: 英特尔发布大型神经拟态系统

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜