当前位置:主页 > 区块链 > 资讯 > 详解Sora让互联网圈震惊

还未开放,Sora怎么就震惊了互联网圈?

2024-02-21 14:22:57 | 来源: | 作者:佚名
还未开放公众测试,OpenAI 凭借文本生成视频模型 Sora 制作的预告片,就把科技圈、互联网、社交媒体圈给震惊了,OpenAI 直接称它为「世界模拟器」,能够模拟物理世界中的人、动物和环境的特征,下面一起来看看正文内容

还未开放公众测试,OpenAI 凭借文本生成视频模型 Sora 制作的预告片,就把科技圈、互联网、社交媒体圈给震惊了。

根据 OpenAI 官方发布的视频,Sora 能够根据用户提供的文本信息,生成长达 1 分钟的复杂场景「超视频」,不仅画面细节逼真,这个模型还会模拟镜头运动感。

从已释出的视频效果看,业内兴奋的正是 Sora 体现出的理解真实世界的能力。相较其他文本到视频的大模型,Sora 在对语义理解、画面呈现、视觉连贯性和时长上都显示出优势。

OpenAI 直接称它为「世界模拟器」,宣告它能够模拟物理世界中的人、动物和环境的特征。但该公司也承认,目前 Sora 的还不完美,依然存在理解不到位和潜在的安全问题。

因此,Sora 仅对非常少数的人开放测试,OpenAI 尚未公布 Sora 何时会向大众开放,但它带来的震撼足以让研发同类模型的公司看到差距。

Sora「预告片」惊爆众人

OpenAI 文本生成视频模型 Sora 一出,国内又现「震惊体」评价。

自媒体惊呼「现实不存在了」,互联网大佬也吹爆了 Sora 的能力。360 创始人周鸿祎称,Sora 的诞生意味着 AGI 的实现可能从 10 年缩短至两年左右。短短几天,Sora 的谷歌搜索指数迅速拉升,热度直逼 ChatGPT。

Sora 的爆火源于 OpenAI 发布的 48 段视频,其中时长最长的为 1 分钟。这不仅打破了此前文生视频模型 Gen2、Runway 生成视频的时长极限,而且画面清晰,甚至它还学会了镜头语言。

1 分钟视频中,一位身着红裙的女性走在霓虹灯林立的街头,风格写实,画面流畅,最令人惊艳的是女主角的特写,连脸部的毛孔、斑点、痘印都模拟了出来,卡粉脱妆效果堪比直播关掉美颜滤镜,脖子上的颈纹甚至精准「泄露」了年龄,与脸部状态做到了完美统一。

除了对人物写实,Sora 还能够模拟现实中的动物与环境。一段视频维多利亚冠鸽的多角度特写,超清呈现了这只鸟全身至冠的蓝色羽毛,甚至细微到红色眼珠的动态和呼吸频率,让人很难分清这到底是 AI 生成的还是人类拍摄的。

对于非写实的创意动画,Sora 的生成效果也达到了迪士尼动画电影的画面感,让网友担忧起动画师的饭碗。

而 Sora 为文本生成视频模型带来的改进不仅在视频时长与画面效果上,它还能模拟镜头与拍摄的运动轨迹,游戏的第一人称视角,航拍视角,甚至是电影里的一镜到底。

看完 OpenAI 放出的精彩视频,你就能理解互联网圈、社交媒体舆论为什么会为 Sora 感到震惊,而这些只是预告片。

OpenAI 提出「视觉补丁」数据集

那么,Sora 是如何实现模拟能力的?

按照 Open AI 发布的 Sora 技术报告,这个模型正在超越先前图像数据生成模型的限制。

以往的文本生成视觉画面的研究采用过各种方法,包括循环网络、生成对抗网络(GAN)、自回归变换器和扩散模型,但共性是集中在较少的视觉数据类别、较短的视频或固定尺寸的视频上。

Sora 采用了一种基于 Transformer 的扩散模型,生图过程可以分为正向过程和反向过程两个阶段,以实现 Sora 能沿时间线向前或向后扩展视频的能力。

正向过程阶段模拟了从真实图像到纯噪点图像的扩散过程。具体来说,模型会逐步地向图像中添加噪点,直到图像完全变成噪点。而反向过程是正向过程的逆过程,模型会从噪点图像逐步恢复出原始图像。一正一反,虚实来回,OpenAI 以这种方式让机器 Sora 理解视觉的形成。

从全噪点到清晰图的过程

当然,这个过程需要反复地训练学习,模型会学习如何逐步去除噪声并恢复图像的细节。通过这两个阶段的迭代,Sora 的扩散模型能够生成高质量的图像。这种模型在图像生成、图像编辑、超分辨率等领域表现出了优秀的性能。

上述过程解释了 Sora 能做到高清、超细节的原因。但从静态的图像到动态的视频,仍需要模型进一步积累数据,训练学习。

在扩散模型的基础上,OpenAI 将视频和图像等所有类型的视觉数据转换为统一表示,以此来对 Sora 做大规模的生成训练。Sora 使用的表示方式被 OpenAI 定义为「视觉补丁(patches)」,即一种更小数据单元的集合,类似于 GPT 中的文本集合。

研究者首先将视频压缩到一个低维潜空间中,随后把这种表征分解为时空 patch,这是一种高度可扩展的表征形式,方便实现从视频到 patch 的转换,也正适用于训练处理多种类型视频和图片的生成模型。

将视觉数据转化为 patches

为了用更少的信息与计算量训练 Sora,OpenAI 开发了一个视频压缩网络,把视频先降维到像素级别的地低维潜空间,然后再去拿压缩过的视频数据去生成 patches,这样就能使输入的信息变少,从而减少计算压力。同时,OpenAI 还训练了相应的解码器模型,将压缩后的信息映射回像素空间。

基于视觉补丁的表示方式,研究者能对 Sora 针对不同分辨率、持续时间和长宽比的视频 / 图像进行训练。进入推理阶段,Sora 能通过在适当大小的网格中排列随机初始化的 patches 来判断视频逻辑、控制生成视频的大小。

OpenAI 报告,在大规模训练时,视频模型就表现出令人兴奋的功能,包括 Sora 能够真实模拟现实世界中的人、动物和环境,生成高保真的视频,同时实现 3D 一致性、时间一致性,从而真实模拟物理世界。

Altman 当二传手为网友测试

从结果到研发过程,Sora 显示着强大的能力,但普通用户还无从体验,目前只能写好提示词,在 X 上@OpenAI 创始人 Sam Altman,由他作为二传手,帮网友们在 Sora 上生成视频后放出来给公众看效果。

这也不免令人怀疑 Sora 是否真的如 OpenAI 官方展示得那么牛。

对此,OpenAI 直言,目前模型还存在一些问题。如同早期的 GPT 一样,现在的 Sora 也有「幻觉」,这种错误表示在以视觉为主的视频结果上显示地更为具象。

例如,它不能准确地模拟许多基本相互作用的物理过程,例如跑步机履带与人的运动关系,玻璃杯破碎与杯内液体流出的时序逻辑等等。

在下面这个「考古工作者们挖掘出一个塑料椅」的视频片段里,塑料椅直接从沙子里「飘」了出来。

还有凭空出现的小狼崽,被网友戏称为「狼的有丝分裂」。

它有时也分不清前后左右。

这些动态画面中存在的纰漏似乎都在证明,Sora 仍需要对物理世界运动的逻辑去做更多的理解和训练。此外,相比 ChatGPT 的风险,给人直观视觉体验的 Sora 存在的道德、安全风险更甚。

此前,文生图模型 Midjourney 已经告诉人类 「有图不见得有真相」,人工智能生成的以假乱真的图片开始成为谣言要素。身份验证公司 iProov 的首席科学官纽维尔博士就表示,Sora 能让「恶意行为者更容易生成高质量的假视频。」

可想而知,如果 Sora 生成的视频被恶意滥用,搞在欺诈和诽谤、传播暴力和色情上,造成的后果也难以估量,这也是 Sora 让人在震惊之余还会害怕的原因。

OpenAI 也考虑到了 Sora 可能带来的安全问题,这大概也是 Sora 仅对非常少数人以邀请制开放测试的原因。何时会大众开放?OpenAI 没有给出时间表,而从官方释出的视频看,其他公司追赶 Sora 模型的时间不多了。

免责声明:本文只为提供市场讯息,所有内容及观点仅供参考,不构成投资建议,不代表本站观点和立场。投资者应自行决策与交易,对投资者交易形成的直接或间接损失,作者及本站将不承担任何责任。!
Tag:Sora  

你可能感兴趣的文章

更多

热门币种

  • 币种
    最新价格
    24H涨跌幅
  • bitcoin BTC 比特币

    BTC

    比特币

    $ 77327.18¥ 526683.15
    +0.33%
  • ethereum ETH 以太坊

    ETH

    以太坊

    $ 2130.87¥ 14513.56
    -0.36%
  • tether USDT 泰达币

    USDT

    泰达币

    $ 0.9989¥ 6.8036
    -0.03%
  • binance-coin BNB 币安币

    BNB

    币安币

    $ 642.66¥ 4377.22
    -0.33%
  • ripple XRP 瑞波币

    XRP

    瑞波币

    $ 1.3696¥ 9.3284
    -1.23%
  • usdc USDC USD Coin

    USDC

    USD Coin

    $ 1.0006¥ 6.8151
    +0.01%
  • solana SOL Solana

    SOL

    Solana

    $ 84.8899¥ 578.19
    -0.68%
  • tron TRX 波场

    TRX

    波场

    $ 0.3559¥ 2.424
    -0.28%
  • dogecoin DOGE 狗狗币

    DOGE

    狗狗币

    $ 0.1039¥ 0.7076
    -0.48%
  • hyperliquid HYPE Hyperliquid

    HYPE

    Hyperliquid

    $ 48.6459¥ 331.33
    +1.94%

币圈快讯

  • ArkInvest买入440万美元Bullish股票

    2026-05-20 15:03
    5月20日,本周,凯茜·伍德领导的投资公司ArkInvest通过旗下三只交易所交易基金共计购买了价值440万美元的Bullish股票。此前,该股在过去五个交易日内下跌,周二略有反弹。根据Ark的每日交易声明,该公司周一购买了52,308股Bullish股票,周二购买了69,712股,用于其创新(ARKK)、下一代互联网(ARKW)和区块链与金融科技创新(ARKF)ETF。根据股票每日收盘价计算,这些收购的总价值约为440万美元。
  • Vitalik:以太坊正在推进原生隐私短期举措包括AA与FOCIL的结合等

    2026-05-20 15:01
    VitalikButerin于社交媒体发文,列出以太坊当前正在推进的多项原生隐私短期举措,包括AA与FOCIL的结合(为隐私协议交易提供一流支持及强大的打包保证)、KeyedNonces方案,以及访问层相关工作(涵盖Kohaku及私有读取等功能)。
  • ArkInvest逢低买入约440万美元Bullish股票此前该股连跌五日

    2026-05-20 15:01
    CathieWood旗下投资公司ArkInvest在本周一和周二两个交易日内,通过三只交易平台交易基金(ETF)合计买入了约440万美元的Bullish股票。 根据Ark每日交易披露及当日收盘价计算,Ark周一买入52,308股,周二买入69,712股,涉及的三只ETF分别为创新ETF(ARKK)、下一代互联网ETF(ARKW)以及区块链与金融科技创新ETF(ARKF)。此次买入发生在Bullish股价连续下跌之后。过去五个交易日,Bullish股价累计下跌15.4%,周二股价反弹1.88%,收于36.23美元。尽管小幅回升,过去一个月该股仍下跌16.7%。 Ark会积极调整其ETF持仓,确保单只股票占比不超过基金组合的10%。当某些资产价值大幅波动时,会进行权重再平衡,此次加仓属于这一常规管理操作。 基本面方面,上周Bullish披露了喜忧参半的第一季度业绩。公司净亏损6.049亿美元,亏损额较去年同期近乎翻倍,但调整后营收从去年同期的6240万美元增至9280万美元。CEOTomFarley指出,公司近期以42亿美元收购Equiniti的交易是潜在的增长催化剂,该交易旨在将Bullish的代币化技术栈与受监管的代理机构结合,打造一体化的区块链赋能发行服务商。 背景信息显示,Bullish于2025年8月上市,以每股37美元的价格发行了3000万股。根据BitcoinTreasuries数据,该公司仍是比特币的第六大公开公司持有者,持有约24,300枚BTC。
  • 制造初创公司SendCutSend完成1.1亿美元融资Paradigm等领投

    2026-05-20 14:56
    据《华尔街日报》报道,制造初创公司SendCutSend完成1.1亿美元融资,红杉资本、加密货币风险投资基金Paradigm和Stripe联合创始人PatrickCollison和JohnCollison共同领投,使其估值达到10亿美元。据悉,Paradigm原本是顶级的加密原生风投机构,管理着约127亿美元资产。但自2023年起,该机构开始调整战略方向:从其官网删除“加密”和“Web3”相关表述,联合创始人MattHuang公开表示“AI的发展太有趣了,不容忽视”。在此背景下,投资SendCutSend符合Paradigm向“AI+机器人+先进制造”方向拓展的逻辑。
  • 黑客组织TeamPCP声称已拿到GitHub约4000个私有仓库源代码并标价出售

    2026-05-20 14:49
    据GoPlus监测,黑客组织TeamPCP声称已拿到GitHub内部约4000个私有仓库中的源代码,并在地下论坛上标价5万美元进行出售,并支持样本验证。如果没人买,后续可能会免费公开这批数据。此前消息,GitHub官方确认正在调查此次的“内部仓库的未经授权访问”问题,疑似GitHub员工设备上安装了恶意VSCode/AICoding插件。
  • 查看更多