尽管各种限流与限制措施频频出台,Sora 2依旧火爆,从朋友圈和微信群仍然不时看到各种“生成奇迹”的视频。
这个被誉为 “视频的 GPT-3.5 时刻” 的产品,它为什么能做到这么逼真?除了“厉害”这两个字,我是不是该搞清楚它到底强在哪?
我去查了一些资料,也仔细读了 OpenAI 发布的 Sora System Card,意外发现了一个新概念:“世界模拟模型”(World Simulation Model)。
什么是“世界模拟模型”?
我专门让GPT用deep research模式给我解释了一遍,才明白这是人工智能研究里的一个核心方向。
我试着把它讲清楚。
首先要弄明白两个概念:世界模型 vs. 世界模拟模型。
简单说:
“世界模型”是理解世界的规则,“世界模拟模型”是让世界动起来。
1. “世界模型”
如果 AI 拥有一个“世界模型”,意味着它能在内部构建出对外部环境的“理解”:它知道物体会受重力影响,知道动作会带来结果,也能在脑海中预测“如果……就会……”的因果关系。
它掌握的是规则本身。就像一个熟读物理定律的理论高手,能精确解释“球为什么会掉下去”。
2. “世界模拟模型”
“世界模拟模型”则更进一步。它不仅理解规则,还能够在内部生成并演化一个自洽的世界。画面、动作、光线、声音、时间节奏都能在模型内部协调运行。
它不仅知道“下雨”,还知道“雨该怎么下”:风从怎么吹,地面上的水怎么反光,人走的时脚步声与水花怎么同步。
它不再只是“推理”,而是“重现”。
Sora 2是一个能在虚拟世界中重现因果关系的模型。
根据《Sora System Card》里面所说,Sora 2能够:
1. 物理一致性:世界不再“穿帮”
Sora 2 里过去常见的人物走路会“打滑”、物体会瞬间穿透这些不符合物理规律的问题显著减少。它能在内部模拟出重力、惯性、摩擦、光线反射等基本物理规律。风吹动衣角、光线随角度变化、雨滴砸在伞上反弹……这种物理一致性,是“世界模型”进化为“世界模拟模型”的关键一步。
2. 时间连贯性:从“动图”到“世界持续存在”
Sora 2 引入了时空一致性机制。它在生成时不仅考虑当前画面,还追踪角色、场景与光线在时间轴上的连续变化。因此,人物不会在下一帧突然换衣服,镜头推进时,空间结构依旧保持稳定。这意味着,Sora 2 不仅在生成“片段”,而是在模拟一个持续存在的世界。
3. 多模态同步:听得见的“世界”
Sora 2 还首次在同一模型中实现了****。脚步声、风声、雨声、灯牌闪烁的电流声……所有声音都与画面节奏自然对应。当一个世界能同时被“看到”和“听到”,****