字节Lance:轻量级原生统一多模态模型,以多任务协同实现理解与生成的新范式
字节跳动智能创作实验室提出仅3B激活参数的Lance统一多模态框架,基于双专家混合架构与模态感知旋转位置编码(MaPE),通过四阶段渐进式训练实现图像与视频的理解、生成与编辑全谱系覆盖。在GenEval、VBench等基准上取得开源统一模型领先表现,部分指标接近专用大规模生成模型,验证轻量级架构下的强竞争力。
记录大模型、视频生成、世界模型与具身智能领域的前沿洞察与深度思考
字节跳动智能创作实验室提出仅3B激活参数的Lance统一多模态框架,基于双专家混合架构与模态感知旋转位置编码(MaPE),通过四阶段渐进式训练实现图像与视频的理解、生成与编辑全谱系覆盖。在GenEval、VBench等基准上取得开源统一模型领先表现,部分指标接近专用大规模生成模型,验证轻量级架构下的强竞争力。
基于《Robots Need More Than VLAs & World Models》的技术解读,提出从"物理经验"到"物理智能"的范式转变。下一代机器人系统需要四大关键支柱:物理数据引擎(具身自动标注)、跨具身重定向(任务保持迁移)、物理基础世界模型(后果预测),以及自我改进的部署循环(任务条件化奖励grounding),形成从数据到部署的完整闭环。
清华大学等机构联合推出WorldArena 2.0,从模态、功能和平台三个维度系统扩展具身世界模型评测边界。首次将视触觉感知、在线强化学习环境、跨具身仿真与真实世界验证纳入统一体系,对12种前沿世界模型进行系统性评估,揭示仿真到现实的显著鸿沟,为领域提供全面而严格的评测基础设施。
清华大学等提出O-Voxel稀疏体素结构,通过灵活对偶网格与体积表面属性实现任意拓扑鲁棒建模与PBR材质编码。配套稀疏压缩VAE实现16倍空间压缩率,结合4B参数大规模流匹配模型,在图像到3D生成任务中达到领先性能,512³分辨率生成耗时仅约3秒,兼顾高保真与高效推理。
通过跨模态音视频记忆库、记忆式后训练管线(SFT+RLHF+DMD)、Director Agent与实时超分辨率模块,构建长时长、可交互、高清音视频生成系统。采用slot-paired audio-visual memory保持多镜头叙事中的身份一致性,支持用户实时修订与720p到2K的轻量高清化,在跨镜头一致性与音视频质量上达到最优表现。
从"看起来像"走向"能够被物理引擎使用",PhysX-Omni统一生成具备几何、材质、运动学与动力学属性的仿真就绪3D资产。通过多轮VLM全局理解到局部几何生成的coarse-to-fine流程,覆盖刚体、形变体与铰接体三类物理对象,直接输出XML/URDF等仿真格式,服务机器人策略学习与交互式场景生成。
NVIDIA联合斯坦福、加州理工等机构提出NitroGen,基于超过40,000小时、涵盖1,000余款游戏的互联网视频训练,通过自动化手柄动作提取构建大规模视频-动作数据集。采用流匹配统一视觉-动作架构,在未见游戏中微调可将任务成功率最高提升52%,并开源数据集与模型权重。
李飞飞与World Labs团队提出世界模型三分法——渲染器、模拟器与规划器,以POMDP闭环为理论根基,为当前混乱的"世界模型"概念建立清晰分析框架。指出模拟器是连接渲染与规划的关键枢纽,三者的融合正推动统一世界基础模型的诞生,为空间智能的长远发展指明方向。
Meta超级智能实验室提出视觉grounding 3D重建新范式,采用多阶段训练(合成预训练→半合成中间训练→真实世界SFT→偏好优化)与模型在环数据引擎,实现复杂自然场景下的高质量物体几何、纹理与布局联合预测,在真实世界人类偏好测试中取得至少5:1的胜率。
基于Zidan等人2026年发表的综述论文,系统梳理世界模型在架构设计、方法论家族、推理策略和应用领域四个维度的最新进展。涵盖从PlaNet、Dreamer到Sora、Cosmos、Genie等里程碑系统,探讨状态空间模型、Transformer、扩散模型、物理信息网络及语言增强多模态系统等技术路线。
Google DeepMind、UCL与牛津提出D4RT,通过统一Transformer架构与新颖查询机制,从单个视频中联合推断深度、时空对应关系及完整相机参数,实现动态场景四维重建。在姿态估计速度上达到200+ FPS,相较VGGT提升9倍,相较MegaSaM提升100倍,在速度与精度上全面超越现有方法。
X Square Robot Team提出事件驱动VLA预训练框架,将视频-动作学习原子单位从固定长度动作块转向语义连贯的动作事件,解决语言、视觉与动作的粒度不匹配问题。通过层次化标注、平衡采样与Staircase隐式思维链,在多样化真实机器人评估中展现广泛的泛化能力。
清华大学等团队提出首个面向空中视觉语言导航的自回归世界行动模型(WAM),将视频生成潜在自回归骨干网络重新应用于短视域世界状态预测并直接解码为航点行动。通过监督式导航动态 grounding 与 Action-aware GRPO 强化学习两阶段训练,在 UAV-Flow 和 IndoorUAV-VLA 基准测试中成功率提升超 12%,并实现向真实无人机平台的零样本迁移部署。
NVIDIA 联合清华大学、多伦多大学等提出可扩展的生成式多智能体世界模型框架 Gamma-World,通过 Simplex Rotary Agent Encoding 实现无参数排列对称身份编码,并引入 Sparse Hub Attention 将跨智能体注意力复杂度从二次降至线性。支持从双智能体训练到四智能体推理的零样本扩展,实现 24FPS 流式输出,并成功从 Minecraft 虚拟环境泛化至真实机器人协作场景。
京东未来研究院发布EgoLive数据集,面向机器人操作学习提供1680小时立体视频、65,866个操作片段与346种真实任务。通过定制化JoyEgoCam头戴设备与自动化多模态标注流程,实现毫米级手部重建与高质量语义标注,覆盖家庭服务、零售、药房等真实场景,为VLA模型训练提供可扩展的第一视角数据资源。
NVIDIA发布Cosmos 3全模态世界模型系列,通过Mixture-of-Transformers双塔架构统一语言、图像、视频、音频与动作模态。在UniGenBench、PAIBench-G、Physics-IQ等8项物理AI基准测试中取得开放模型第一,提供40亿至640亿参数三种规模,以OpenMDW-1.1许可证开源,旨在加速物理AI研究与产业落地。
系统梳理世界模型与具身世界动作模型的统一技术图景,涵盖200余篇核心文献。从基础世界模型、VLA模型、具身WAM、自动驾驶世界模型、效率与评测、数据集与生态六大支柱出发,解读从循环世界模型到Genie、Cosmos、Sora等基础仿真器,以及RT-2、π₀等VLA模型的演进脉络与前沿挑战。
Qwen Team提出统一视觉-语言-动作(VLA)基础模型Qwen-VLA,采用"认知主干+运动专家"双模块架构与四阶段渐进训练策略,在操作、导航与轨迹预测等多领域展现一致跨任务性能与强分布外泛化能力,验证统一框架不牺牲专用性能。
Galaxea团队发布G0.5模型,回归自回归本质,通过单一Transformer解码器统一生成推理与动作令牌,配合跨具身动作分词器、原生思维链流与视觉记忆模块,在七大独立评测场景中全面超越现有最优方法,为通用机器人控制提供新范式。
AgiBot联合BUAA、LV-NUS Lab、TJU团队提出GE-Sim 2.0,仅20亿参数即登顶WorldArena公开排行榜。系统基于动作条件视频生成框架,引入本体感知状态专家、VLM世界裁判与DMD2加速框架三大核心模块,实现高保真多视角视频仿真、机器可验证的自动评估与伪实时闭环推理,为机器人操作策略的可扩展评估与闭环学习提供全新技术路径。
上海实验室与AGIBOT Finch联合推出τ0-World Model,基于共享视频扩散骨干将策略学习、视频预测与动作评估纳入统一未来预测框架。模型在约27,300小时异构交互数据上完成预训练,通过模态特定监督掩码实现联合训练,并引入重去噪一致性评分(RCS)与低质量动作修正(LAR)的测试时计算策略,在多项跨本体长程精细操作任务中取得领先表现。
Genesis AI 发布面向机器人基础模型的全栈仿真基础设施 Genesis World 1.0,将仿真从"数据生成器"重新定义为"评估与迭代引擎"。仿真与真实硬件 rollout 相关性达 89%,单次评估从 200 小时压缩至 30 分钟,速度提升两个数量级,集成 Nyx 实时路径追踪渲染器、统一多物理引擎与 Quadrants 跨平台编译器三大核心组件。
X Square Robot 团队开源 40 亿参数 VLA 模型 Wall-OSS-0.5,验证预训练本身即可产生可执行的机器人行为。基于 30 亿参数 VLM 骨干,在覆盖 20 余种具身形态、每轮超百万条轨迹的数据上预训练。零样本即可在 17 项真实机器人任务中完成多项操作,平均进展达 51.1%;微调后在 15 项任务上平均进展达 60.5%,较基线提升 17.5 个百分点。
北京人形机器人创新中心发布首个统一理解、推理、想象与行动的具身基础模型Pelican-Unify 1.0。基于Qwen3-VL与Wan2.2构建统一循环架构,在WorldArena世界模型基准登顶(EWM 66.03),同时在八项VLM基准和RoboTwin双臂操作任务上达到顶尖水平,验证"统一化不牺牲专业化"的核心命题。
字节跳动提出Mamoda2.5,将细粒度混合专家(MoE)架构引入扩散Transformer(DiT),在单一模型中统一文本到图像/视频生成、图像/视频编辑及多模态理解五大任务。采用128专家Top-8稀疏激活、AR-Diffusion统一管线与联合少步蒸馏强化学习,在VBench 2.0和OpenVE-Bench上达到开源顶尖水平,视频编辑推理速度提升最高95.9倍。
基于《World Action Models: The Next Frontier in Embodied AI》综述论文的深度技术解读。系统梳理世界动作模型(WAMs)从反应式VLA到预见性推理的范式演进,深入剖析级联式(Cascaded)与联合式(Joint)两大架构家族的设计选择,涵盖扩散生成、自回归、显式与隐式生成等技术路径,并探讨数据生态、多维评估体系与开放挑战。
基于《From Seeing to Knowing the World: A Survey of Vision World Models》的深度技术解读。系统梳理视觉世界模型的统一框架(视觉编码、知识学习、可控模拟),深入剖析四大架构家族(序列生成、扩散生成、嵌入预测、状态转移)的设计选择与技术路径,并探讨从“生成好看的视频”到“真正理解世界”的评估体系与未来方向。
基于 Wang et al., arXiv:2604.23001 最新综述,系统梳理 VLA 研究三大支柱——数据集、基准测试与数据引擎。深入剖析真实世界与合成数据的 fidelity-cost 权衡困境,探讨从视频到数据引擎、硬件辅助采集到生成式数据引擎的技术演进路径。