sobral，solraptor

chanong

机器心脏报告

编辑：蛋酱泽南

如今已经成为一种艺术形式的天空到底发展出了怎样的技术路线？

最近几天，Sora 在世界各地的风险投资会议上成为人们谈论的话题。自从去年初ChatGPT 引发了一场技术范围的军备竞赛以来，没有人愿意在人工智能生成的新视频轨道上落后。人们很早就预见到了这个问题，但同样出乎意料的是：人工智能生成视频是继文本生成和图像生成之后持续技术发展的方向。此前，不少科技公司都争相推出自己的视频生成技术。但当OpenAI发布Sora时，我们立刻感觉发现了一个新世界，——的效果比以前的技术好几个数量级。

Sora 创建的视频：“美国西部的淘金热时代”。感觉可以直接用在有旁白和BGM的故事片里。 Sora推出及其技术报告后，确认了长达60秒的高分辨率、可控图像、多角度切换等先进效果。至于其背后的技术，研究人员基于扩散变压器（DiTs）的思想训练了一种新模型。在此模型中，变压器架构对视频或图像潜在代码的时空补丁进行操作。华为诺亚方舟研究院首席科学家刘群博士表示，Sola表明生成模型（尤其是多模态生成）的潜力仍然巨大。添加预测模块是正确的方向。对于未来的发展，还有很多需要考虑的地方。目前，NLP 领域还没有像Transformer 这样统一的方法。如果我们想探索未来的道路，我们可能首先要考虑到目前为止我们是如何走过的。那么Sora是如何被OpenAI发现的呢？从OpenAI的技术报告最后来看，相比去年GPT-4长长的作者名单，Sora的作者团队更加简单，可以看到只有13名成员可以指出。

这些参与者中，核心成员包括研发负责人Tim Brooks 和William Peebles，以及系统负责人Connor Holmes。有关该成员的信息也备受关注。例如，Sora 联合领导者Tim Brooks 毕业于加州大学伯克利分校伯克利人工智能实验室BAIR，获得博士学位，他的导师是Alyosha Efros。

在攻读博士学位期间，他发明了InstructPix2Pix，在Google 从事Pixel 手机摄像头的AI 算法研究，并在NVIDIA 从事视频生成模型的研究。另一位联合领导者威廉（比尔）皮布尔斯也来自加州大学伯克利分校，于2023年完成博士学位，也是阿廖沙·埃夫罗斯的学生。作为一名本科生，皮布尔斯在麻省理工学院跟随安东尼奥·托拉尔巴学**。

值得注意的是，Peebles等人的论文现在被认为是Sora的重要技术基础之一。论文《Scalable diffusion models with transformers》，名字和Sora概念非常相关，这篇论文被选为计算机视觉会议ICCV 2023的top。

论文链接：https://arxiv.org/abs/2212.09748 然而，这项研究在发表过程中也遇到了一些困难。上周五Sora 发表时，图灵奖获得者、Meta 首席科学家Yann LeCun 立即发推文：这项工作是由我的同事Caining Xie 和前学生William Peebles 贡献的，于2023 年被拒绝，首先因“缺乏创新”而被CVPR 删除，然后被ICCV 2023 接受。

具体来说，本文提出了一种基于Transformer架构的新扩散模型，即DiT。在这项研究中，研究人员将常用的U-Net 主干网络替换为在潜在补丁上运行的Transformer，以训练潜在扩散模型。他们通过以Gflops 为单位测量的前向路径复杂度来分析扩散变压器(DiT) 的可扩展性。研究人员发现，通过增加Transformer 的深度/宽度或增加输入令牌的数量，具有较高Gflops 的DiT 的FID 总是较低。除了良好的可扩展性之外，DiT-XL/2 模型在类条件ImageNet 512512 和256256 基准上的性能优于所有先前的扩散模型，后者在SOTA 数据上的FID 达到2.27。这篇论文目前仅有191 次引用。同时，我们可以看到，William (Bill) Peebles 的所有著作中被引用次数最多的是名为《GAN 无法生成什么》的论文。

当然，该论文的作者之一、前FAIR研究科学家、现任纽约大学助理教授谢才宁否认与Sora有任何直接联系。毕竟，Meta 和OpenAI 是竞争对手。

Sora的成功背后还有哪些关键技术呢？此外，Sora的成功还得到了工业界和学术界在计算机视觉和自然语言处理领域的一系列最新技术进展的支持。快速浏览一下参考文献列表，这些研究来自Google、Meta、微软、斯坦福、麻省理工、加州大学伯克利分校、Runway等机构，也有中国学者的工作，我是这么理解的。毕竟，今天的Sora 是整个AI 社区多年研究的成果。

这里选择了32 篇参考文献中的一些。

Ha、David 和Jrgen Schmidhuber，“世界模型”，arXiv 预印本arXiv:1803.10122 (2018)。

论文标题：World Models 作者：David Ha、Jurgen Schmidhuber 机构：Google Brain、NNAISENSE（Schmidhuber 创办的公司）、瑞士AI 实验室论文链接：https://arxiv.org/pdf/1803.10122.pdf 这是一篇6 年的论文。探索的主题是为强化学**环境构建生成神经网络模型。世界模型可以在没有监督的情况下快速训练，以学**环境的压缩空间和时间表示。我们发现，通过使用从世界模型中提取的特征作为代理的输入，我们可以训练一个非常紧凑且简单的策略来解决所需的任务。您还可以完全根据世界模型生成的幻想来训练代理。已经移植到真实环境中。机器之心报告：《模拟世界的模型：谷歌大脑与 Jrgen Schmidhuber 提出「人工智能梦境」》文章链接：https://mp.weixin.qq.com/s/rpPN2rgru6krRz2fr1RhsQ

Yan, Wilson 等人，“Videogpt: 使用vq-vae 和Transformer 生成视频”，arXiv 预印本arXiv:2104.10157 (2021)。

论文标题：VideoGPT: Video Generation using VQ-VAE and Transformers 作者：Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas 机构：UC Berkeley 论文链接：https://arxiv.org/pdf/2104.10157.pdf 本文提出的VideoGPT是，可以用于：扩展基于可能性的生成来建模自然视频。 Video-GPT将常用的图像生成VQ-VAE和Transformer模型以最小的改动应用于视频生成领域。研究人员使用VQVAE 通过3D 卷积和轴向自注意力来学**下采样原始视频的离散潜在表示。我们使用简单的类似GPT 的架构来执行自回归，并使用时空建模来编码离散的潜在位置。 VideoGPT的结构如下所示。

Wu, Chenfei, et al. “Nwa: 用于神经视觉世界创建的视觉合成预训练” 欧洲计算机视觉会议Cham: Springer Nature Switzerland，2022

论文标题：NWA: 用于神经视觉世界创建的视觉合成预训练作者：吴晨飞、梁健、季雷、杨帆、方跃建、姜大新、段南机构：北京大学微软亚洲研究院论文链接：https://arxiv.org /pdf/2111.12417.pdf 与之前可以单独处理图像和视频并专注于生成其中之一的多模态模型相比，NWA 提供了集成的多模态预训练模型。具有出色合成效果的下游视觉任务。为了同时覆盖不同的语言、图像和视频场景，NWA 采用了3D Transformer 编码器/解码器框架。它不仅可以将视频处理为3D 数据，还可以将文本和图像处理为3D 数据。它们分别是一维数据和二维数据。

该框架还包括3D 附近服务员(3DNA) 机制，以考虑空间和时间的局部特征。 3DNA 不仅降低了计算复杂性，还提高了生成结果的视觉质量。与几个强大的基线相比，NWA 在文本到图像生成、文本到视频生成、视频预测等方面取得了SOTA 的结果，并且还展现了惊人的零样本学**能力。机器之心报道：《AI 版「女娲」来了！文字生成图像、视频，8 类任务一个模型搞定》文章链接：https://mp.weixin.qq.com/s __biz=MzA3MzI4MjgzMw==mid=2650831783idx=1sn=c83088d0bc8ca7072ccb802bce1bd4fdchksm=84e5bfd 9b3 92 36cf3eea3cd09f701cedcab3ea91b785beeac0e035d66475230ed8f59c44343bscene=21#wechat_redirect

He, Kaiming, et al.“掩码自动编码器是一种可扩展的视觉学**器。”IEEE/CVF 计算机视觉和模式识别会议论文集，2022 年。

论文标题：Masked autoencoders are可扩展的视觉学**器作者：Kaiming He、Xinlei Chen、Saining Xie、Yanghao Li、Piotr Dollar、Ross Girshick 机构：Meta 论文链接：https://arxiv.org/abs/2111.06377 本文展示了称为的方法。掩码自动编码器（MAE）可以用作计算机视觉的可扩展自监督学**器。 MAE 方法很简单。屏蔽输入图像的随机补丁并重建丢失的像素。它基于两个核心思想。研究人员开发了一种非对称编码器-解码器架构。在这种架构中，一个编码器仅对补丁的可见子集进行操作（没有屏蔽令牌），而另一个简单的解码器可以从潜在表示和屏蔽令牌中提取。重建原始图像。研究人员进一步发现，屏蔽输入图像的很大一部分（例如75%）会产生重要且有意义的自我监督任务。结合这两种设计可以有效训练大型模型，使训练速度提高三倍以上，并提高准确性。使用MAE 进行预训练，仅在ImageNet-1k 上我们就可以实现超过87% 的top-1 准确率，优于使用ImageNet-21k 预训练的所有ViT 变体模型。在方法上，MAE选择直接重构原始图像的元素，证明了其改变人们感知的可行性，并且可以覆盖CV中几乎所有的识别任务，开辟了新的方向。简单、高度可扩展的算法是深度学**的核心。在NLP 中，像BERT 这样的简单自监督学**技术可以从指数级更大的模型中受益。在计算机视觉领域，尽管自监督学**取得了进步，但事实上的预训练范式仍然是监督学**。在MAE 研究中，研究人员观察到自动编码器是一种简单的自监督方法，类似于NLP 技术，为ImageNet 和迁移学**提供了可扩展的前景。因此，视觉领域的自监督学**可能遵循与NLP 类似的轨迹。机器之心报道：《大道至简，何恺明新论文火了：Masked Autoencoders 让计算机视觉通向大模型》文章链接：https://mp.weixin.qq.com/s __biz=MzA3MzI4MjgzMw==mid=2650830844idx=1sn=587ee19ab21672a3fc56a9bce0edde9achksm=84e5b382b3 923 a9 4f1660fb5541e2faa5459b2008228b80a1dee72b1237b162c44c39bbe7401场景=21#wechat_redirect

Rombach、Robin 等人，“采用潜在扩散模型的高分辨率图像合成”，IEEE/CVF 计算机视觉和模式识别会议论文集，2022 年。

论文标题：使用潜在扩散模型进行高分辨率图像合成作者：Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser、Bjorn Ommer 机构：Runway、慕尼黑大学论文链接：https://arxiv.org/pdf/2112.10752.pdf 基于其他出版物由此，Stable Diffusion 正式启动，开启了在消费级GPU 上运行文本到图像模型的时代。在本研究中，我们尝试使用扩散模型将文本转换为图像。扩散模型可以通过对相应损失项进行欠采样来忽略感知上不相关的细节，但仍然需要在像素空间中进行昂贵的函数评估，从而导致计算时间和能源的节省，对资源会有显着的影响。在这项工作中，我们通过明确分离压缩和生成学**阶段来避免这个问题，最终减少训练扩散模型的高分辨率图像合成的计算要求。机器之心报道：《消费级 GPU 可用，文本转图像开源新模型生成宇宙变迁大片》文章链接：https://mp.weixin.qq.com/s __biz=MzA3MzI4MjgzMw==mid=2650854008idx=3sn=2c706c0b8419b1508e57ca1daf4a7de4chksm=84e5160 6b 3 929f10abf84392f967c915b24fd035797f5da635aab692ab65714571b9f69784f5scene=21#wechat_redirect

Gupta、Agrim 等人，“使用扩散模型生成真实感视频”，arXiv 预印本arXiv:2312.06662 (2023)。

论文标题：Photorealistic Video Generation with Diffusion Models 作者：李飞飞其他机构：斯坦福大学、Google Research、佐治亚理工学院论文链接：https://arxiv.org/pdf/2312.06662.pdf 在Sora 之前，Video Generation 的研究备受好评。荣誉：Window attendant Latent Transformer，俗称W.A.L.T。该方法成功地将Transformer 架构集成到潜在视频扩散模型中，斯坦福大学的Feifei Li 教授是该论文的作者之一。值得注意的是，尽管概念简单，但这项工作是第一个在公共基准测试中通过实验证明Transformer 在潜在视频扩散方面的卓越生产质量和参数效率的工作。这也是本次发表的32篇Sora参考文献中最新的结果。机器之心报道：《将 Transformer 用于扩散模型，AI 生成视频达到照片级真实感》文章链接：https://mp.weixin.qq.com/s __biz=MzA3MzI4MjgzMw==mid=2650900310idx=4sn=2b862d4bcd6e74c4bb87608c9a57bfbfchksm=84e44 328 b3 93ca3eee4af4bd44e0672de17566bc205893e9f19e563deab3672728ee629d8c0fscene=21#wechat_redirect 最后是元研究科学家田元东昨天指出的使用下一帧预测而不是直接Sora的视频生成方法值得注意。进一步的技术细节很可能有待AI界的研究人员和从业者共同探索和揭开他们的秘密。

Meta 发表了许多该领域的研究。 Sora推出后，不得不说，尽管我们没有OpenAI的计算能力，但我们可以做的还有很多。

sobral，solraptor

热门搜索

相关文章

sobral，solraptor

三级螺纹钢有哪些型号规格？怎么挑

三级螺纹钢和三级抗震的区别是什么

x四代土影黑土腿中间

废文网李鬼分站的安安静静备胎计划

一级二级三级螺纹钢用途有什么区别

2023年新电费收费标准？公布2023年