设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

北大团队发起复现Sora计划“Open Sora” AnimateDiff大神响应_北大vr

2024-03-04 17:27:12 来源:

要点:GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

1. 北大团队联合兔展发起了复现Sora的计划,框架已搭建,袁粒和田永鸿领衔。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

2. Open Sora计划采用三部分组成的框架,包括Video VQ-VAE、Denoising Diffusion Transformer和Condition Encoder。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

3. 计划已经完成了初步功能的实现,团队在集结开源社区力量,希望尽可能完成复现。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

3月4日 消息:北大团队联合兔展启动了复现Sora的计划,该项目名为Open Sora。这一举措的背后是资源有限的情况下,团队希望汇集开源社区的力量,以尽可能完成复现工作。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

项目的核心团队由北大信息工程学院助理教授袁粒和北大计算机学院教授田永鸿等领导,共有13名成员。除了团队成员外,北大校友和AnimateDiff贡献者等也积极响应,并有人表示愿意提供高质量的数据集。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

项目地址:https://github.com/PKU-YuanGroup/Open-Sora-PlanGTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

关于Sora的复现技术细节已经公布,项目框架包括三个主要部分:Video VQ-VAE、Denoising Diffusion Transformer和Condition Encoder。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

为了解决Sora视频的可变长宽比问题,团队采用了上海AI Lab提出的FiT技术,实施了一种动态掩码策略。同时,团队还通过位置插值来处理可变分辨率,并使用Video VQ-VAE来支持可变时长的视频处理。团队已经初步实现了三个功能,并在项目主页上提供了两个demo,展示了10秒和18秒视频的重建效果。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

尽管已经取得了一些进展,但团队面临着诸多挑战。目前的训练是在8个A100-80G上进行的,但仍然远远不够,而且需要更多的数据和GPU进行训练。团队已经完成了一些任务,包括采样脚本和在embeddings上添加类条件,但仍有一些待办事项需要完成。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

项目的领衔者之一是袁粒,他是北大信息工程学院的助理教授,曾获得福布斯30岁以下亚洲杰出人物榜单的荣誉。另一位领衔者是田永鸿,他是北京大学博雅特聘教授,拥有丰富的科研经验和荣誉。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

关于谁能率先发布中文版Sora的问题,目前仍然是一个未解之谜。在业内,有传言称字节可能会成为首个发布中文版Sora的公司。尽管有一些AI模型类似于Sora,比如最近出现的Boximator和Dreamina,但它们与Sora仍存在一定差距。然而,这个问题的答案还有待时间的揭晓。GTz流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:北大团队发起复现Sora计划“Open Sora” AnimateDiff大神响应_北大vrhttp://www.llsum.com/show-3-11217-0.html

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 马斯克说pi「马斯克怒告OpenAI违背初衷」

下一篇: vivo x fold3 proX Fold3 Pro折叠屏手机有望配备骁龙8 Gen 3、6.53+8.03英寸屏幕 vivo

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜