中国团队发布视频大模型Vidu 称达到Sora级别

中国科研团队在一场未来人工智能先锋论坛上,发布视频大模型Vidu,称它达到了Sora级别。

据中国新闻网报道,清华大学联合生数科技星期六(4月27日)在2024中关村论坛年会未来人工智能先锋论坛上,正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。

该模型采用团队原创的Diffusion与Transformer融合的核心技术架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

据介绍,Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu是自Sora今年2月发布推出之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。

清华大学教授、生数科技首席科学家朱军在论坛上说,与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除在时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。

朱军说:“值得一提的是,Vidu采用的是‘一步到位’的生成方式。Vidu的命名不仅谐音‘Vedio’,也蕴含‘We do’的寓意。”

​中国科研团队在一场未来人工智能先锋论坛上,发布视频大模型Vidu,称它达到了Sora级别。据中国新闻网报道,清华大学联合生数科技星期六(4月27日)在2024中关村论坛年会未来人工智能先锋论坛上,正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该模型采用团队原创的Diffusion与Transformer融合的核心技术架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。据介绍,Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu是自Sora今年2月发布推出之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。清华大学教授、生数科技首席科学家朱军在论坛上说,与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除在时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。朱军说:“值得一提的是,Vidu采用的是‘一步到位’的生成方式。Vidu的命名不仅谐音‘Vedio’,也蕴含‘We do’的寓意。”  《联合早报》中国

    正文完
     
    版权声明:本站原创文章,由 2024-04-28发表,共计1029字。
    转载说明: 凡本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一和版权者联系,如果本网所选内容的文章作者及编辑认为其作品不宜上网供大家浏览,或不应无偿使用,请及时用电子邮件 [email protected] 通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

    留言板 +

    发送