世界模型:AI领域的下一个关键突破,英伟达、谷歌双双下场

1月7日,在全球瞩目的拉斯维加斯消费电子展(CES)上,英伟达CEO黄仁勋身着标志性皮衣登场,除了发布备受期待的GPU RTX 5090外,同时宣布了英伟达在AI领域的最新进展——Cosmos世界模型(Cosmos World Foundation Models,简称Cosmos WFMs)。该模型专为理解物理世界设计,能预测并生成具有物理感知的视频。

图片

据介绍,Cosmos WFMs根据不同需求分为三类:

1.Nano:适用于低延迟和实时应用;

2.Super:高性能的基线模型;

3.Ultra:提供最高质量和保真度的输出。

这些模型的参数规模从40亿到140亿不等,支持从视频搜索、策划到自动驾驶AI模型的多种场景。英伟达还推出了一系列配套技术,包括上采样模型、增强现实优化的视频解码器和确保负责任使用的“防护轨”模型。目前,Waabi、Wayve、Fortellix和Uber等公司已开始试用Cosmos WFMs。

值得注意的是,英伟达并未透露训练数据的具体来源,这也引发了版权争议,部分分析人士认为这是英伟达将Cosmos定位为“开放”而非“开源”的原因。

科技巨头与初创企业竞逐:世界模型成热点

除了英伟达,谷歌旗下DeepMind正全力布局世界模型。DeepMind组建了一支由前OpenAI研究员Tim Brooks领导的研究团队,并推出了Genie模型。Genie可模拟虚拟世界及物理互动效果,支持用户通过文本或图像生成不同主题的虚拟世界,如航海模拟和赛博朋克风格的西部世界。

与此同时,多家初创企业也加入竞争行列。“AI教母”李飞飞创立的World Labs,已筹集2.3亿美元致力于构建“大世界模型”。此外,初创公司Decart和Odyssey也在相关领域崭露头角,而OpenAI的Sora模型则已展示出对画布笔触及虚拟环境的出色模拟能力。

AI领域的革命性技术

什么是世界模型?简单来说,世界模型是通过海量数据训练形成的一种对现实世界运作规律的内部表征,能够预测行为的后果。这种技术源于人类心智模型的概念,模拟了人类潜意识中的推理能力,例如棒球击球手预测球的轨迹。

世界模型的核心优势:

1.生成式视频的突破:传统生成模型仅能模仿表面现象,而世界模型则通过理解物理规律,更准确地模拟物体运动。例如,它不仅能预测篮球的弹跳,还能理解弹跳背后的原因。

2.复杂预测与规划:Meta首席AI科学家Yann LeCun认为,世界模型能在数字和物理领域完成复杂任务,例如从凌乱的房间推理出清理步骤。这将为机器人技术、自动驾驶等行业带来颠覆性进步。

广阔应用与未来挑战

随着世界模型的发展,影视、游戏、自动驾驶和机器人等行业将迎来革命性变化。例如,游戏开发者可通过世界模型快速生成完整的3D虚拟世界,显著降低开发成本;机器人则可利用世界模型更精确地理解环境并制定解决方案。然而,技术的实现并非易事,其面临的要挑战包括:

•巨大的计算需求;

•模型幻觉与数据偏见问题;

•模拟复杂行为的难度。

尽管如此,世界模型的潜力不容忽视。如果未来技术突破上述障碍,其将成为AI与现实世界融合的关键一步,为各行各业带来新的可能性。

作为AI领域的下一个关键突破,世界模型展示了生成式视频、复杂推理与规划能力的无限可能。在巨头和初创企业的竞逐下,世界模型正加速从概念走向应用。我们或许正在见证一个新的AI时代的开端,它将重新定义人工智能在现实世界中的角色与价值。

*文章为光网号的作者观点,不代表平台立场
举报
展开阅读全文
0
赞赏
广告
{{moduleName}}
{{moduleName}}
{{item.NickName==''?item.UserCode:item.NickName}}
{{item.Like_quantity}}
{{item.Comment_content}}
{{formatDate(item.Addtime,"yyyy/MM/dd")}}·
回复
删除
{{item.NickName==''?item.UserCode:item.NickName}}: {{item.ReplyContent}}
查看全部{{item.ReplyNumber}}回复
暂无信息 快来说两句
还没评论 快来说两句
评论
我来说两句…