优德88俱乐部中文官网

宣布于2026-04-21 07:37:08 来自季度盘货 ·

关注

细思极恐！张本智和将自己逼到绝境：一连6天发狠重演年终奇迹？？？？？？？？

乌称袭击俄要害军工企业

文 | 智械岛，，，，，作者 | 霍如筠（北京）4 月 16 日，，，，，阿里巴巴宣布了开放式天下模子 Happy Oyster，，，，，腾讯开源了 3D 天下模子 HY-World 2.0。。。。。。。。统一天，，，，，两家中国互联网巨头宣示了自己在天下模子赛道上的保存感。。。。。。。。此前不到一个月，，，，，李飞飞的 World Labs 刚完成 10 亿美元融资，，，，，Yann LeCun 的 AMI Labs 更是以 10.3 亿美元的种子轮震惊硅谷。。。。。。。。资源、巨头、创业者簇拥而入，，，，，一个响亮的口号迅速传遍行业：天下模子是大语言模子之后最主要的赛道。。。。。。。。但若是你真的去问这些玩家 " 天下模子究竟是什么 "，，，，，很可能会获得一堆相互矛盾的回覆。。。。。。。。有人说是 " 可交互的 3D 天下 "，，，，，有人说是 " 明确物理纪律的因果模子 "，，，，，有人说是 " 机械人训练的数字仿真器 "，，，，，尚有人爽性说 " 就是更高级的视频天生 "。。。。。。。。这不是学术讨论的不同，，，，，而是整个赛道正在履历的认知杂乱。。。。。。。。这篇文章试图理清这场杂乱。。。。。。。。我们会从三个层层递进的问题入手：为什么所有大厂突然都在押注天下模子？？？？？？？？他们的产品究竟在做什么，，，，，哪些是实、哪些是虚？？？？？？？？以及，，，，，那些被光环掩饰的逆境和模糊地带，，，，，事实有多深？？？？？？？？一、为什么突然 All in 天下模子？？？？？？？？要明确天下模子为何突然爆火，，，，，得先回到大语言模子的一个尴尬事实。。。。。。。。已往两年，，，，，ChatGPT 们展示了惊人的语言能力，，，，，也袒露了一个致命短板：它们不懂物理天下。。。。。。。。你问一个 LLM" 把杯子从桌子边沿推下去会怎样 "，，，，，它能回覆 " 杯子会掉到地上 "，，，，，却并不可真正明确重力、加速率、碰撞，，，，，它只是从训练数据中记着了类似的句子。。。。。。。。2026 年头的一项研究指出，，，，，幻觉不是数据问题，，，，，不是训练问题，，，，，而是 LLM 架构的内在缺陷。。。。。。。。这个缺陷在纯文本使命中或允许以忍受，，，，，但当 AI 要进入真实天下：操控机械人、驾驶汽车、在工厂里作业，，，，，它就酿成了一个无法绕过的坎，，，，，你不可让一个自动驾驶模子 " 或许准确 " 地判断前方障碍物，，，，，也不可让一个工业机械人 " 差未几 " 地展望零件运动轨迹。。。。。。。。于是，，，，，一个更基础的需求浮出水面：我们需要一个能明确物理天下因果律的 AI。。。。。。。。它不但要能说，，，，，还要能做；；；；；不但要望见，，，，，还要能预判。。。。。。。。这就是天下模子被推到聚光灯下的基础缘故原由。。。。。。。。大语言模子改变了人和信息的关系，，，，，而天下模子要改变的，，，，，是人和现实的关系。。。。。。。。已往两年 AI 的商业化主要停留在信息处置惩罚，，，，，写文案、做翻译、天生代码，，，，，但下一波增添引擎显然在物理天下：具身智能、自动驾驶、智能制造。。。。。。。。这些场景的配合要求是：AI 必需明确空间、展望动态、妄想行动。。。。。。。。以是，，，，，大厂押注天下模子，，，，，实质上是在争取 " 后 LLM 时代 " 的手艺制高点。。。。。。。。谁先让 AI 真正明确物理天下，，，，，谁就能在下一轮工业周期中占有主导。。。。。。。。海内外玩家的打法截然差别。。。。。。。。美国那里，，，，，DeepMind、World Labs、AMI Labs 更像是在做基础科学。。。。。。。。他们体贴的是怎样让 AI 拥有像人类一样的物理直觉和因果推理能力，，，，，商业化是远期目的。。。。。。。。Yann LeCun 自己都认可，，，，，AMI 的产品可能要几年后才华看到。。。。。。。。中国则是另一番情形。。。。。。。。阿里和腾讯险些在宣布模子的同时就绑定了商业场景：Happy Oyster 瞄准影视制作和游戏开发的付用度户，，，，，HY-World 2.0 直接输出可导入 Unity/UE 的 3D 资产，，，，，做起了 AI 造天下的生意。。。。。。。。唬唬唬唬尚有 Sand.ai 的 VidMuse，，，，，围绕音乐天生视频这个细分场景，，，，，上线几个月就做到了万万美元级别的年收入。。。。。。。。中国团队的逻辑很务实：天下模子首先得是一个能赚钱的产品。。。。。。。。这两种蹊径没有高下之分，，，，，但决议了各自的节奏和危害。。。。。。。。美国团队敢于押注十年后的突破，，，，，中国团队则必需在一年内看到回报。。。。。。。。问题是，，，，，当所有人都挤在统一个热词下喊口号时，，，，，局外人很难分清谁在做什么。。。。。。。。二、关于手艺标准的拷问花时间看完各家产品的先容，，，，，你很可能会陷入更大的疑心。。。。。。。。由于每个天下模子长得都纷歧样，，，，，它们的底层逻辑甚至相互矛盾。。。。。。。。先来看最反直觉的一派。。。。。。。。Yann LeCun 的 AMI Labs 走了一条很少有人敢跟的路，，，，，他们不以为 AI 需要天生逼真的画面。。。。。。。。LeCun 的 JEPA 架构刻意扬弃像素细节，，，，，只在笼统的隐空间里做展望。。。。。。。。最新宣布的 LeWorldModel 只有 1500 万参数，，，，，单 GPU 几小时就能训练完，，，，，但妄想速率比古板要领快了 48 倍。。。。。。。。弱点是，，，，，它的输出人类看不懂，，，，，你不可 " 看到 " 它展望的未来，，，，，只能相信它算对了。。。。。。。。这是一个纯粹的学术蹊径，，，，，离通俗用户很远，，，，，但 LeCun 赌的是：真正的智能不需要模拟每一片树叶的飘落，，，，，只需要明确 " 风会吹落树叶 " 这个因果。。。。。。。。另一条路来自李飞飞的 World Labs。。。。。。。。李飞飞相信，，，，，智能必需建设在三维空间的显式明确之上。。。。。。。。她的 Marble 模子能从一张照片或一段文字天生一个可编辑、可导航的 3D 天下，，，，，用户可以在内里自由移动视角。。。。。。。。World Labs 还开源了渲染引擎 Spark 2.0，，，，，让通俗浏览器都能流通加载上亿个 3D 点。。。。。。。。一个坦诚的评价是：Marble 善于重修空间的样子，，，，，但对空间中会爆发什么的明确还较量薄弱。。。。。。。。你可以走进它天生的房间，，，，，但你推不动内里的椅子，，，，，也打不翻桌上的杯子。。。。。。。。它是一个静态天下的复刻者，，，，，而不是动态物理的模拟器。。。。。。。。最热闹的阵营当属天生派。。。。。。。。谷歌的 Genie 3、阿里的 Happy Oyster、腾讯的 HY-World 2.0 都属于这一类。。。。。。。。他们的逻辑是：只要天生的画面足够逼真、交互足够流通，，，，，物理纪律自然会被学出来。。。。。。。。阿里在 Happy Oyster 里做了一个很有意思的功效叫导演模式，，，，，用户可以在视频播放的历程中随时输入文字指令，，，，，改变剧情走向、切换镜头角度。。。。。。。。腾讯更务实，，，，，直接输出可二次编辑的 3D 资产，，，，，让游戏开发者可以导入 Unity 或 UE 引擎里直接用。。。。。。。。但这类产品有一个配合的软肋：长时序一致性和物理准确性仍然不稳固。。。。。。。。Genie 3 的演示很惊艳，，，，，但几分钟后画面就最先走样。。。。。。。。阿里的周游模式现在只能支持 1 分钟的一连位移，，，，，凌驾这个时间会爆发什么？？？？？？？？官方没说。。。。。。。。腾讯的 3D 资产在简单场景下看起来不错，，，，，但它的优势主要体现在场景完整度和对输入图片的遵照水平，，，，，这些都是 " 看起来像 " 的指标，，，，，而不是 " 物理上对 " 的指标。。。。。。。。最后尚有一个特殊的玩家：英伟达。。。。。。。。Cosmos 平台不生产天下模子，，，，，它生产 " 生产天下模子的工具 "。。。。。。。。数据处置惩罚管线、视频分词器、预训练基础模子，，，，，所有免费开放下载。。。。。。。。唬唬唬唬黄仁勋的算盘很清晰：无论哪条蹊径最终胜出，，，，，训练和推理都需要英伟达的 GPU。。。。。。。。这是最智慧的生意，，，，，不赌偏向，，，，，只赌算力。。。。。。。。那么，，，，，这些天下模子哪些是名副着实的？？？？？？？？一个要害的手艺标准是：真正的天下模子必需是 " 行动条件化 " 的，，，，，也就是说，，，，，输入一个行动，，，，，模子要能输出天下状态的转变。。。。。。。。你用键盘按 "W"，，，，，画面里的视角应该向前移动；；；；；你给机械人一个抓取指令，，，，，模子应该展望物体的位置转变。。。。。。。。凭证这个标准，，，，，李飞飞的 Marble 就不太及格，，，，，用户只能看，，，，，不可做。。。。。。。。它更像一个 3D 重修工具，，，，，而不是天下模拟器。。。。。。。。谷歌的 Genie 3 和阿里的 Happy Oyster 虽然支持交互，，，，，但物理准确性存疑。。。。。。。。腾讯的 HY-World 2.0 输出的是静态资产，，，，，自己就不涉及动态展望。。。。。。。。唬唬唬唬换句话说，，，，，现在市场上险些没有一家抵达了 " 完善物理天下模拟器 " 的标准。。。。。。。。每家都在自己的能力规模内，，，，，选择了一个可展示、可商业化的切入点。。。。。。。。这自己没有错，，，，，错的是各人都在用 " 天下模子 " 这个模糊的大词来包装自己，，，，，让外界误以为他们已经解决了所有问题。。。。。。。。三、那些被刻意回避的模糊地带只读各家公司的新闻稿，，，，，会以为天下模子已经进入了规模唬唬唬唬化落地的前夜，，，，，但一些被忽略的细节拼出了一幅截然差别的图景。。。。。。。。数据问题首当其冲。。。。。。。。训练一个真正的天下模子，，，，，需要海量的 " 视察、行动、效果 " 三元组，，，，，但现实中没有这样的现成数据集。。。。。。。。有人用游戏数据，，，，，行动标签完善，，，，，但游戏里的物理是引擎模拟的，，，，，不是真实物理。。。。。。。。有人用人类第一人称视频，，，，，最靠近真实天下，，，，，但视频里没有行动标签，，，，，并且人的头部运动和手部行动纠缠在一起，，，，，模子根天职不清是谁在动。。。。。。。。唬唬唬唬尚有人用真实机械人遥操作数据，，，，，保真度最高，，，，，但收罗一小时数据可能要破费数万美元，，，，，基础跑不起来规模。。。。。。。。这意味着每个天下模子都有天生的 " 能力界线 "。。。。。。。。评估真空是另一个贫困。。。。。。。。你翻开任何一门第界模子公司的官网，，，，，险些都能看到 " 登顶全球权威评测榜第一 " 的口号。。。。。。。。问题是，，，，，这些评测榜单自己就不可熟。。。。。。。。有的着重视觉逼真度，，，，，有的着重物理准确性，，，，，有的着重使命完成率。。。。。。。。一个在视觉榜单上拿第一的模子，，，，，可能在物理榜单上垫底。。。。。。。。这种标准的不统一，，，，，让各家可以各说各话。。。。。。。。通俗人基础搞不清这究竟是统一个榜单的差别种别，，，，，照旧营销话术的巧妙编排。。。。。。。。唬唬唬唬尚有一个被刻意回避的 " 不可能三角 "。。。。。。。。天下模子面临三个相互制约的指标：空间标准、视觉保真度、实时交互性。。。。。。。。你不可能同时做到 " 天下很大、画面很清晰、交互很流通 "。。。。。。。。李飞飞的 Marble 就是最好的例子：1.1 版本画质好但空间规模有限，，，，，1.1-Plus 版本能天生大场景但画质发糊。。。。。。。。昆仑万维的 Matrix-Game 3.0 能做到 720P 下 40FPS 的实时天生，，，，，但演示场景的气概和重漂后都很有限。。。。。。。。险些没有产品会自动认可自己的短板，，，，，它们更倾向于展示最优工况下的演示视频，，，，，而把极限条件下的失败藏起来。。。。。。。。这种选择性展示正在制造一个危险的泡沫。。。。。。。。最后，，，，，资源的狂欢也带来了新的投契危害。。。。。。。。一个值得注重的征象是，，，，，资源从追捧 " 大厂老兵 " 转向押注顶尖高校的年轻学者。。。。。。。。逆矩阵科技的两位首创人，，，，，一个 98 年、一个 04 年，，，，，来自北大，，，，，首轮融资超万万美元。。。。。。。。他们的手艺蹊径是 " 强化学习 + 天下模子 "，，，，，现在只有论文，，，，，没有产品。。。。。。。。这不是说年轻人不可，，，，，而是说在范式混沌期，，，，，资源愿意为 " 界说下一代手艺 " 的可能性支付极高的溢价。。。。。。。。但大大都这样的实验室项目，，，，，最终无法跨越 " 论文→产品 " 的鸿沟。。。。。。。。Yann LeCun 这样的图灵奖得主都认可商业化要等几年，，，，，更况且是刚结业的博士生？？？？？？？？四、结语天下模子的目的，，，，，是让 AI 能够展望甚至干预物理天下。。。。。。。。那么，，，，，若是 AI 的展望错了，，，，，谁来肩负责任？？？？？？？？设想一个场景：一辆自动驾驶汽车的天下模子在仿真中 " 想象 " 出一个不保存的障碍物，，，，，导致车辆紧迫刹车，，，，，被后车追尾。。。。。。。。这个锅应该甩给算法工程师，，，，，照旧仿真数据的提供方？？？？？？？？再设想：一个工业机械人的天下模子过失展望了零件的运动轨迹，，，，，撞坏了整条生产线。。。。。。。。包管公司的理赔标准是什么？？？？？？？？更极端的场景：有人用天下模子天生了一个逼真的虚伪 3D 灾难视频，，，，，在社交媒体上引发恐慌。。。。。。。。平台有没有审核义务？？？？？？？？执法怎样界定这种 " 虚拟与现实混淆 " 的危险？？？？？？？？这些问题，，，，，现在没有任何一家公司、任何一个国家给出了清晰的谜底。。。。。。。。天下模子的伦理框架和执法界线，，，，，远远落伍于手艺的生长速率。。。。。。。。当资源和媒体聚焦于 " 谁能造出最逼真的虚拟天下 " 时，，，，，一个更基础的问题被弃捐了：我们真的准备好了吗？？？？？？？？这或许才是天下模子赛道最被低估的变量。。。。。。。。不是算力，，，，，不是数据，，，，，不是算法，，，，，而是责任。。。。。。。。

热门排行