|
Post by account_disabled on Jan 27, 2024 4:31:20 GMT
二,谷歌发布了 Lumiere,这是一款人工智能视频生成器,在随附的预印本中,谷歌将其称为“用于生成真实视频的时空扩散模型”。但我们不要自欺欺人了:他在制作滑旱冰、开车或弹钢琴等荒谬场景中可爱动物的视频方面做得非常出色。当然,它可以做得更多,但它可能是有史以来最先进的文本到动物的人工智能视频生成器。 据谷歌称,Lumiere 使用一种独特的架构一次 电话号码数据库 性生成视频的整个持续时间。或者,正如该公司所说,“我们引入了时空 U-Net 架构,可以通过模型中的一次传递一次性输出视频的整个时间持续时间。“这与合成远程数据的现有视频模型形成鲜明对比。” 关键帧之后是时间超分辨率,这种方法本质上使得全局时间一致性难以实现。” 简单来说,谷歌的技术旨在同时处理空间(事物在视频中的位置)和时间(事物在视频中如何移动和变化)的方面。因此,您可以通过一个无缝过程从头到尾创建整个视频,而不是通过将许多小部分或框架组合在一起来制作视频。 Google 发布的文章“Lumiere:视频生成的时空扩散模型”随附的官方宣传视频。 Lumiere 还可以执行许多派对技巧,谷歌演示页面上的示例对此进行了很好的描述。例如,您可以执行文本到视频生成(将书面消息转换为视频)、将静态图像转换为视频、使用参考图像生成特定样式的视频、使用基于文本的消息应用一致的视频编辑、创建动态图片。对图像的特定区域进行动画处理并提供绘画功能中的视频(例如,您可以更改一个人所穿衣服的类型)。 在 Lumiere 研究论文中,谷歌研究人员表示,AI 模型生成了 5 秒长的 1024x1024 像素视频,他们将其描述为“低分辨率”。尽管存在这些限制,研究人员还是进行了一项用户研究,并声称 Lumiere 的结果优于现有的人工智能视频合成模型。 广告 至于训练数据,谷歌没有透露从哪里获取输入 Lumiere 的视频,并写道:“我们在包含 3000 万个视频及其文本标题的数据集上训练我们的 T2V [文本到视频] 模型。” [原文如此] 视频为 80 帧、16 fps(5 秒)。基础模型在 128×128 下进行训练。
|
|