
资料来源:华尔街新闻
Google DeepMind周一宣布推出了第三代通用世界模型Genie 3,该模型Genie 3可能会产生前所未有的互动环境,该环境提供了文本提示,即Genie 3可以产生动态世界,该动态世界可以在每秒24帧中导航24帧并在720p分辨率中保持几分钟。
Genie 3首先以有限的研究预览以收集关键反馈的形式,首先用少数学者和创作者打开Genie 3。
Genie 3的突破
DeepMind在模拟环境领域积累了很多东西已有十多年了。从可以播放实时策略游戏的AI培训到为机器人开放的开放学习环境的开发,这些研究指出了KPURPOSE:开发世界强大的模型。
与上一代模型(例如Genie 1/2)和视频生成模型(例如WEO 2,对直觉物理的VEO 3的深刻理解)相比,Genie 3是第一个与Genie 2相比,允许实时接触的世界模型及其一致性和现实主义也有所改善。
基本能力
模拟世界的物理特性:Genie 3对物理定律有深刻的了解,并且可以模仿水流,光和阴影变化以及复杂的环境是现实的
打破自然世界:从冰川湖的活泼生态系统到可爱的毛茸茸的生物跳到幻想世界中的彩虹桥,Genie 3可以成为探索现实中的想象力
动画和小说建模:利用您的想象力创建幻想场景并表达动画角色
探索历史上的不同区域和场景:该模型可能会超过地理和时间障碍,如果它在隐藏的山脉中飞行,则导致用户探索不同的位置和历史时代
突破实时性能限制:实现高度控制并与实时接触。在自动降低的过程中每个帧的效果,模型应随着时间的推移考虑先前形成的轨迹。例如,如果用户在一分钟后恢复位置,则该模型必须在一分钟前引用该信息。为了实现实时接触,必须按照新用户输入的到来进行几次计算
长期环境一致性:为了使世界由人工智能形成,他们必须长期保持身体一致性。但是,回归产生的自动环境通常比制作整个视频更难以生产,因为准确性倾向于随着时间的流逝而积累,Genie 3环境在几分钟之内保持一致,可以回到一分钟前的视觉记忆,而Genie 3产生的世界更具动态性和丰富性,因为它在世界上是如此丰富和富裕的世界,因为它是基于世界的世界,因为它是基于世界和世界的世界,并且是世界和世界创造的。逐框。
挑衅世界事件:除了导航输入外,Genie 3还基于称为“敏感世界事件”的文本支持IS表现力的联系形式。世界世界事件可能会在产生的世界中发生变化,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验,这也会增加到反事实或“假设”情况的程度,代理商可以用来从经验中学习的经验来处理意外情况
增强体现智能机构的研究
Genie 3的真正目标之一是为体现的代理提供无限的丰富训练区。 DeepMind与通用代理Sima一起尝试了它。研究人员可以为SIMA设定目标(例如在面包店找到工业混合器),Sima试图通过向Genie 3发送导航说明来完成任务。
当前限制
当前的Genie 3极限:
行动空间有限:直接范围代理行动仍然有限
缺乏多代理模拟:很难准确模仿许多独立代理之间的复杂相互作用
地理准确性不足:无法恢复地理现实世界的位置
文本渲染不佳:除非在初步提示中指定,否则生成的文本通常是模糊的
有限的不同结论:目前支持几分钟的连续接触,而不是时间
本文有一组:AI Cambrian,原始标题:“ Google DeepMind在深夜发射核弹:世界模型Genie 3的首次亮相,重新定义“广义AI”“”“”“”。
风险警告和下降
MAP The Market是一个好主意,因此投资时要小心。本文不会产生个人投资建议,也不会考虑个人用户的特殊投资目标,财务状况或需求。用户应考虑本文中的任何意见,意见或结论是否符合其特定情况。投资基于这是您自己的责任。
金融的官方帐户
24小时广播滚动滚动最新的财务和视频信息,并扫描QR码以供更多粉丝遵循(Sinafinance)