环球观焦点：视频版Stable Diffusion：英伟达做到最高1280×2048、最长4.7秒

来源:机器之心发布时间:2023-04-21 13:57:09

机器之心报道

(资料图)

编辑：杜伟

在生成式 AI 盛行的今天，英伟达在文本生成视频领域更进了一步，实现了更高分辨率、更长时间。

要说现阶段谁是 AI 领域的「当红辣子鸡」？生成式 AI 舍我其谁。包括 ChatGPT 等对话式 AI 聊天应用、Stable Diffusion 等 AI 绘画神器在内，生成式 AI 展示的效果深深地抓住了人们的眼球。

我们以图像生成模型为例，得益于底层建模技术最近的突破，它们收获了前所未有的关注。如今，最强大的模型构建在生成对抗网络、自回归 transformer 和扩散模型（diffusion model, DM）之上。其中扩散模型的优势在于能够提供稳健和可扩展的训练目标，并且参数密集度通常低于基于 transformer 的竞品模型。

虽然图像领域取得了长足进步，但视频建模却落后了，这主要归咎于视频数据训练的高昂计算成本以及缺乏大规模公开可用的通用数据集。目前视频合成虽有丰富的研究文献，但包括先前视频 DM 在内的大多数工作仅能生成分辨率较低且往往较短的视频。

因此，如何生成分辨率更高、更长的视频成为一个热门研究课题。近日慕尼黑大学、英伟达等机构的研究者利用潜在扩散模型（latent diffusion model, LDM）实现了高分辨率的长视频合成。相关论文已经发表在 arXiv 上。

项目主页：https://research.nvidia.com/labs/toronto-ai/VideoLDM/

论文地址：https://arxiv.org/pdf/2304.08818.pdf

在论文中，研究者将视频模型应用于真实世界问题并生成了高分辨率的长视频。他们关注两个相关的视频生成问题，一是高分辨率真实世界驾驶数据的视频合成，其在自动驾驶环境中作为模拟引擎具有巨大潜力；二是文本指导视频生成，用于创意内容生成。

为此，研究者提出了视频潜在扩散模型（Video LDM），并将 LDM 扩展到了计算密集型任务 —— 高分辨率视频生成。与以往视频生成 DM 工作相比，他们仅在图像上预训练 Video LDM（或者使用可用的预训练图像 LDM），从而允许利用大规模图像数据集。

接着将时间维度引入潜在空间 DM、并在编码图像序列（即视频）上仅训练这些时间层的同时固定预训练空间层，从而将 LDM 图像生成器转换为视频生成器（下图左）。最后以类似方式微调 LDM 的解码器以实现像素空间中的时间一致性（下图右）。

此外，为了进一步提高空间分辨率，研究者对像素空间和潜在 DM 上采样器进行时间对齐，将它们转换为时间一致的视频超分辨率模型。在 LDM 的基础上，本文方法以计算和内存高效的方式生成了全局连贯的长视频。对于非常高分辨率的合成，视频上采样器只需要在本地运行，保持了较低的训练和计算要求。

最后，研究者进行了消融实验，在分辨率为 512×1024 的真实驾驶场景视频上对其方法进行了测试，实现了 SOTA 视频质量，并合成了几分钟的视频。此外，他们还微调了 Stable Diffusion，将它变成一个高效、强大的文本到视频生成器，分辨率最高可达 1280 × 2048。

通过将经过训练的时间层迁移至不同的微调文本到图像 LDM，研究者首次展示了个性化的文本到视频生成，并希望自己的工作为高效的数字内容创建和自动驾驶模拟开辟新的途径。

我们来看几个文本到视频生成示例，比如「弹电吉他的泰迪熊、高分辨率、4K」。

比如「海浪拍打着一座孤独的灯塔、不详的灯光」。

再比如「夕阳下独自穿行在迷雾森林中的旅行者」。

方法解读：潜在视频扩散模型

这部分中，研究者描述了为实现高分辨率视频合成，对预训练图像 LDM 和 DM 上采样器进行视频微调。

将潜在图像转换为视频生成器

研究者高效训练视频生成模型的关键思路在于：重用预训练的固定图像生成模型，并利用了由参数 θ 参数化的 LDM。具体而言，他们实现了两个不同的时间混合层，即时间注意力和基于 3D 卷积的残差块。研究者使用正弦嵌入为模型提供了时间位置编码。具体流程如下图 4 所示。

用于长视频生成的预测模型

研究者还训练模型作为给定多个（首个）S 上下文帧的预测模型，通过引入时间二元掩膜 m_S 来实现。该掩膜 mask 了模型必须预测的 T − S 帧。此外研究者将该掩膜和 masked 编码视频帧馈入到模型中进行调节。

在推理过程中，为了生成长视频，研究者迭代地应用了采样过程，将最新的预测重新用作新的上下文。第一个初始序列通过从基础图像模型中合成单个上下文帧来生成，并基于此生成了一个新序列。然后以两个上下文帧为条件对动作进行编码。

用于高帧率的时间插值

高分辨率的特点不仅在于高空间分辨率，还在于高时间分辨率，即高帧率。为此研究者将高分辨率视频的合成过程分为了两部分，第一部分包括上文中的将潜在图像转换为视频生成器和用于长视频的预测模型，它们可以生成具有较大语义变化的关键帧，但受限于内存只能在较低帧率运行。第二部分则引入了一个额外模型，其任务是在给定关键帧之间进行插值。

研究者在实现过程中使用了掩膜调节机制。不过与预测任务不同，他们需要 mask 进行插值的帧，否则该机制保持不变，即图像模型被细化为视频插值模型。

超分辨率（SR）模型的时间微调

尽管 LDM 机制提供了很好的原始分辨率，但研究者的目标是将它推进到百万像素级别。他们从级联 DM 中获得灵感，并使用 DM 将 Video LDM 输出放大 4 倍。对于驾驶视频合成实验，研究者使用了像素空间 DM，并将分辨率扩大至 512×1024；对于文本到视频模型，他们使用了 LDM 上采样器，将分辨率扩大至 1280 × 2048。

实验结果

研究者专注于驾驶场景视频生成和文本到视频，因此使用了两个相关数据集，一个是真实驾驶场景（RDS）视频的内部数据集；另一个是 WebVid-10M 数据集，它将公开可用的 Stable Diffusion 图像 LDM 转换为了 Video LDM。

高分辨率驾驶视频合成

研究者在 RDS 数据集上训练 Video LDM pipeline，包括一个 4 倍像素空间视频上采样器。下表 1 显示了无上采样器时，128×256 分辨率下 Video LDM 的主要结果。研究者展示了有和无拥挤和白天 / 夜晚条件下其模型的性能。可以看到，Video LDM 通常优于 LVG，并且在一定条件下进一步降低了 FVD。

下表 2 显示了人类评估结果。就真实性而言，研究者的样本通常优于 LVG，并且来自条件模型的样本也优于无条件样本。

研究者将其视频微调像素空间上采样器与独立逐帧图像上采样做了比较，并使用了 128 × 256 30 fps 的真值视频进行调节，如下表 3 所示。

在下图左 1（底部）和图右 7（顶部）中，研究者展示了来自组合 Video LDM 和视频上采样器模型的条件样本。他们生成了高质量的视频。此外，研究者使用其预测方法生成了时间连贯的多分钟高分辨率驾驶长视频。

用 Stable Diffusion 做文本到视频生成

研究者没有先训练自己的 Image LDM 主干，其 Video LDM 方法可以利用并将现有的 Image LDM 转换为视频生成器。在本文中，他们将 Stable Diffusion 转换为了文本到视频生成器。

具体地，研究者使用 WebVid-10M 文本字幕视频数据集，训练了一个时间对齐版本的 Stable Diffusion 来做文本条件视频生成。他们在来自 WebVid 的帧上对 Stable Diffusion 的空间层进行简单微调，然后插入时间对齐层并训练它们（分辨率为 320 × 512）。研究者还在这些对齐层中添加了文本条件。

此外，研究者进一步对公开可用的潜在 Stable Diffusion 上采样器进行视频微调，使它支持 4 倍放大并生成分辨率为 1280 × 2048 的视频。研究者生成了由 113 帧组成的视频，并可以渲染成 4.7 秒的 24 fps 或 3.8 秒 30 fps 的片段。相关样本如上图 1 和下图 6 所示。

更多技术和实验细节请参阅原论文。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

标签：

环球观焦点：视频版Stable Diffusion：英伟达做到最高1280×2048、最长4.7秒

环球观焦点：视频版Stable Diffusion：英伟达做到最高1280×2048、最长4.7秒

环球热点评！龙里县气象台发布雷电黄色预警信号【Ⅲ/较重】

星舰炸出了什么？

国人全谷物都没吃够

每日报道：汽车贴膜后多久能开窗，新车贴膜后几天能开窗

天天热点！科大讯飞董事长刘庆峰：认知大模型将先落地五大应用场景

天天动态:乔治发布训练照我不会放弃 快船总经理小卡受伤不会影响乔治的恢复时间表(今日/头条)

美股异动 | 新东方(EDU.US)涨超5% 创始人透露该公司正在布局文旅产业|世界聚看点

快乐男生主题曲_快乐男生的冠军是谁

联播+丨与非洲“老朋友”会谈 习主席强调这些重要信息_环球观察

追梦踩踏事件“量刑标准”？乐福曾因踩斯科拉上身&脸 被禁赛2场

多晶硅连续降价“失守”20万元/吨 组件报价坚挺局面或难持续

丰立智能(301368.SZ)：公司坚持做精做强谐波减速器领域

朗诗与惠山国控签约 合作开发无锡新经济产业园地块

全球热议:云南省德宏傣族景颇族自治州陇川县2023-04-21 01:33发布雷电黄色预警

劳动合同法第三十六条规定_劳动合同法第三十六条

联播+丨与非洲“老朋友”会谈 习主席强调这些重要信息

【当前独家】家园守卫战英雄塔排名 家园守卫战英雄塔

速讯：《黑暗之魂3》不友好boss打法解析攻略 《黑暗之魂3》不友好boss打法解析攻略视频

上汽集团旗下动力电池工厂量产！|全球速看料

成都农业和重庆农业：一个比较视角

全球消息！康德的形而上学：物自身与智思物

4月20日投资晚报｜工信部推动6G、光通信、量子通信等关键核心技术加速突破，一季度房地产贷款增长呈上升态势，宁德时代一季度营收同比增长557%|全球微资讯

【优化营商环境】新乡高新区领导深入企业调研走访 上门颁发高新区主任质量奖 天天新消息

全球今日讯！天孚通信(300394.SZ)发布2022年度业绩，净利润4.03亿元，增长31.51%，拟10派5元

坚守！丘栋荣一季度决战互联网_世界独家

阅时代经典 谱出版新篇 | 北京印刷学院2023年世界读书日暨首届大学生读书节系列活动预告

买戒指怎么量手指尺寸图-买戒指怎么量手指尺寸

河北石家庄：春季旅游升温

今日讯！4月20日东明石化硫磺报价平稳

环球观焦点：视频版Stable Diffusion：英伟达做到最高1280×2048、最长4.7秒

机器之心报道编辑：杜伟在生成式AI盛行的今天，英伟达在文本生成视...

环球热点评！龙里县气象台发布雷电黄色预警信号【Ⅲ/较重】

龙里县气象台发布雷电黄色预警信号【Ⅲ 较重】

星舰炸出了什么？

马斯克的星舰炸了，马斯克发推文表示，“在一次令人兴奋的‘星舰’...

国人全谷物都没吃够

受访专家：中国康复研究中心北京博爱医院副主任营养师 史文丽中国...

每日报道：汽车贴膜后多久能开窗，新车贴膜后几天能开窗

汽车贴完膜后，夏天在3天内、冬天在7天内，不要随意升降车窗。因为...

天天动态:乔治发布训练照我不会放弃快船总经理小卡受伤不会影响乔治的恢复时间表(今日/头条)

联播+丨与非洲“老朋友”会谈习主席强调这些重要信息_环球观察

追梦踩踏事件“量刑标准”？乐福曾因踩斯科拉上身&脸被禁赛2场

多晶硅连续降价“失守”20万元/吨组件报价坚挺局面或难持续

朗诗与惠山国控签约合作开发无锡新经济产业园地块

联播+丨与非洲“老朋友”会谈习主席强调这些重要信息

【当前独家】家园守卫战英雄塔排名家园守卫战英雄塔

速讯：《黑暗之魂3》不友好boss打法解析攻略《黑暗之魂3》不友好boss打法解析攻略视频

【优化营商环境】新乡高新区领导深入企业调研走访上门颁发高新区主任质量奖天天新消息

阅时代经典谱出版新篇 | 北京印刷学院2023年世界读书日暨首届大学生读书节系列活动预告

受访专家：中国康复研究中心北京博爱医院副主任营养师史文丽中国...