Blog | 金鑫博士，华为视频生成&世界模型团队主管，中科院博士

JUL 03

ABot-M0.5：面向移动&操作的对齐感知世界动作模型

阿里巴巴AMAP CV Lab提出ABot-M0.5，基于Wan2.2视频扩散骨干构建统一生成式框架，通过帧级潜在动作、双层混合Transformer与Dream-Forcing训练策略，在时间粒度、动作空间与训练测试一致性三个层面实现对齐，在RoboCasa365、RoboTwin等移动操作与精细操作基准上取得领先性能。

🤖 具身智能 🧠 世界动作模型 ⚡ VLA 🏃 移动操作 🔮 Dream-Forcing

JUN 27

LingBot-VLA 2.0：面向跨本体通用机器人控制的从基础模型到真实场景的视觉-语言-动作系统演进

推出LingBot-VLA 2.0，在六万小时跨本体数据（覆盖20种机器人配置）、55维统一动作表征、MoE稀疏专家架构与双查询蒸馏框架上实现系统性升级，在GM-100双臂操作与长程移动任务上验证VLA技术从基础能力走向实用化部署的演进路径。

🤖 具身智能 🧠 VLA 🔄 跨本体 📊 规模化数据 🔮 预测动态

JUN 27

Qwen-RobotManip：以统一对齐框架解锁机器人操作基础模型的Scaling Law

通义千问团队提出Qwen-RobotManip，基于Qwen-VL构建，通过表征、运动与行为三维统一对齐框架，在38,100小时异构操作数据上实现跨形态规模化训练，在LIBERO-Plus、RoboTwin等分布外基准与RoboChallenge真实平台验证涌现性泛化能力。

🤖 具身智能 🧠 VLA 📈 Scaling Law 🔄 跨形态 🏆 分布外泛化

JUN 26

ACE-Ego-0：异构具身数据联合训练，统一第一视角人类视频与机器人数据，开启VLA预训练新范式

ACE Robotics联合港中文、上海交大、清华等机构提出ACE-Ego-0框架，创新性地将大规模第一视角人类视频与多本体机器人数据进行统一预训练。通过规范动作空间、跨本体形态条件化与时间对齐动作分块三大机制，结合可靠性感知的训练目标，在RoboCasa、RoboTwin 2.0等仿真基准及真实ARX双臂平台上取得业界领先性能，为VLA模型的数据规模化与泛化能力提升开辟新路径。

🤖 具身智能 🧠 VLA 🎥 人类视频 ⚡ 跨本体 🔮 预训练

JUN 26

Kairos：面向物理AI的原生世界模型栈，学习、维持与运行世界，赋能未来自进化具身智能体

大晓机器人团队提出面向物理AI的原生世界模型栈Kairos，通过跨具身数据课程（CEDC）实现原生预训练，借助混合线性时序注意力机制统一理解、生成与预测，并采用部署感知系统协同设计。在WorldModelBench、DreamGen、PAI-Bench等具身世界模型基准上以显著更少的参数达到当前最优性能，同时实现服务器级与消费级硬件上的低延迟推理，推动世界模型从实验室走向真实部署。

🤖 具身智能 🧠 世界模型 🏆 物理AI ⚡ 自进化 🔮 推理效率

JUN 26

PAIWorld：WorldArena基准最新榜首，面向机器人操作的三维一致世界基础模型

中国科学院工业人工智能研究所提出PAIWorld框架，针对机器人操作场景中的多视角三维一致性挑战，构建显式跨视角通信通路并引入三维几何监督信号。通过几何感知跨视角注意力、Geo-RoPE与潜在三维REPA的协同设计，在WorldArena基准以EWMScore 70.67%综合排名第一，在AgiBot-Challenge2026场景一致性指标取得最佳成绩，为具身智能的规划、模拟与数据合成提供可靠基础。

🤖 具身智能 🧠 世界基础模型 🏆 WorldArena ⚡ 三维一致性 🔮 多视角生成

JUN 21

Curr-0：面向人形机器人移动-操作-手部控制的全身协同灵巧操作基础系统

Current Robotics团队发布Curr-0，一个面向全尺寸人形机器人移动-灵巧操作的基础系统。基于HumanEx可穿戴全身数据采集系统获取的21,000小时人类数据，采用三系统基础模型（System-2推理、System-1全身运动、System-0灵巧交互）端到端训练，在超过70个自由度的本体上实现移动、操作与手部控制的全身协同，展示泡茶、文件盖章、点香、清理垃圾等日常任务的类人闭环操作能力。

🤖 具身智能 🧠 人形机器人 🏆 全身协同 ⚡ 灵巧操作 🔮 移动-操作耦合

JUN 17

DreamX-World 1.0：面向通用交互式世界建模的全栈技术实践

面向多领域（照片级真实、游戏风格、艺术风格）的通用交互式世界模型，支持文本与图像驱动的长程视频生成。通过多源数据引擎融合UE合成、游戏录制与真实视频，提出E-PRoPE高效相机控制、几何引导记忆检索与残差循环机制、事件指令微调，以及分布匹配蒸馏与强化学习后训练，在8块RTX 5090上实现最高16FPS的流式交互生成。

🔮 世界模型 🎮 交互式生成 📹 视频生成 🎯 相机控制 ⚡ 流式推理

JUN 17

混元Hy-Embodied-0.5-VLA：从视觉-语言-动作模型到真实世界机器人学习全栈系统

腾讯机器人实验室与混元团队联合提出端到端VLA系统HyVLA-0.5，覆盖自研指尖UMI数据采集、40亿参数MoT具身VLM骨干、流匹配动作专家、FlowPRO强化学习后训练与异步部署五大环节。基于1万小时UMI语料预训练，在RoboTwin 2.0及Dobot、JAKA、Astribot、Unitree等多真实平台验证跨本体迁移与力觉模态能力。

🤖 具身智能 🧠 VLA模型 🔧 跨本体迁移 📊 强化学习 🏭 工程落地

JUN 17

ω-EVA：基于隐变量交互式世界模型的机器人动作生成新范式

星源智XYZ Embodied AI提出潜变量交互式世界模型框架ω-EVA，实现"设想—验证—执行"闭环：策略生成动作提案，世界模型在潜变量空间预测未来后果，精炼器基于当前状态、想象未来与原始提案生成最终动作。以约12亿参数、无额外机器人预训练数据，在LIBERO上达98.6%成功率，在RoboTwin 2.0双臂任务上达90.3%。

🤖 具身智能 🔮 世界模型 🧠 VLA 🎯 动作生成 💡 潜变量预测

JUN 16

Bi-Adapt：基于语义对应实现跨类别双臂操作的高效泛化

新加坡国立大学等团队提出Bi-Adapt框架，通过视觉基础模型（DIFT）的跨类别语义对应能力，将已知类别的双臂操作经验迁移至全新物体类别，仅需50次交互即可完成适配。在展开、打开、取盖、关闭、旋盖五类任务上对新类别未见过实例成功率达59%-70%，并获ICRA 2026最佳论文提名，在真实xArm6平台上完成Sim-to-Real验证。

🤖 具身智能 🙌 双臂操作 🎯 少样本学习 🔗 语义对应 🏆 ICRA 2026

JUN 16

WorldOlympiad：视频世界模型的"铁人三项"评测新标杆

浙江大学等团队联合提出WorldOlympiad基准，首次将世界模型评估分解为物理真实性、几何一致性与交互保真度三个互补维度，在游戏、机器人操作与真实世界三大场景中构建1000条高质量长视频测试集。对8种主流长视频生成管线进行全面诊断，揭示当前模型在物理规律遵守、三维结构保持与长时程可控交互方面的能力边界。

🔮 世界模型 📊 评测基准 ⚛️ 物理仿真 📐 几何一致性 🎮 交互保真度

JUN 16

Dexterity-BEV：跨本体&跨相机&Action三维空间对齐，推动通用机器人策略学习

DexForce与港中文（深圳）联合提出Dexterity-BEV框架，通过引入对齐顶点图与顶点谱表示、构建规范化BEV对齐坐标系，以及建立全面的时空数据对齐处理流程，为VLA模型注入显式三维空间感知能力。在LIBERO与RoboTwin 2.0上验证跨本体（Franka/Agilex）与强相机视角扰动下的泛化能力，二维消融版本在同等条件下几乎失效。

🤖 具身智能 📐 三维感知 🎯 BEV表示 🔧 跨本体泛化 🧠 VLA

JUN 16

中科院DexJoCo：面向灵巧操作的基准测试与工具集

中科院自动化所等团队提出DexJoCo，一个面向任务导向灵巧操作的基准测试与工具集，涵盖工具使用、双手协调、长时程执行与推理四类共11项功能导向任务。基于约2300美元成本的Rokoko手套+HTC Vive遥操作系统采集1100条人类演示轨迹，支持ACT、Diffusion Policy、π0.5、GR00T N1.5等现代策略的系统评估，填补灵巧手操作基准空白。

🤖 具身智能 🖐️ 灵巧操作 📊 基准测试 🎮 遥操作系统 🧠 VLA评估

JUN 09

字节Lance：轻量级原生统一多模态模型，以多任务协同实现理解与生成的新范式

字节跳动智能创作实验室提出仅3B激活参数的Lance统一多模态框架，基于双专家混合架构与模态感知旋转位置编码（MaPE），通过四阶段渐进式训练实现图像与视频的理解、生成与编辑全谱系覆盖。在GenEval、VBench等基准上取得开源统一模型领先表现，部分指标接近专用大规模生成模型，验证轻量级架构下的强竞争力。

🧠 统一模型 🎨 多模态生成 🎬 视频生成 🖼️ 图像生成 ⚡ 轻量级架构

JUN 08

超越VLA与世界模型：构建下一代物理智能系统的四大支柱

基于《Robots Need More Than VLAs & World Models》的技术解读，提出从"物理经验"到"物理智能"的范式转变。下一代机器人系统需要四大关键支柱：物理数据引擎（具身自动标注）、跨具身重定向（任务保持迁移）、物理基础世界模型（后果预测），以及自我改进的部署循环（任务条件化奖励grounding），形成从数据到部署的完整闭环。

🤖 具身智能 🔮 世界模型 🧠 物理智能 ⚡ VLA 🔄 自我改进

JUN 07

WorldArena 2.0：迈向多模态、交互式与跨平台的世界模型评测新范式

清华大学等机构联合推出WorldArena 2.0，从模态、功能和平台三个维度系统扩展具身世界模型评测边界。首次将视触觉感知、在线强化学习环境、跨具身仿真与真实世界验证纳入统一体系，对12种前沿世界模型进行系统性评估，揭示仿真到现实的显著鸿沟，为领域提供全面而严格的评测基础设施。

🏆 WorldArena 🤖 具身智能 🔮 世界模型 🎯 评测基准 🦾 跨平台验证

JUN 04

CVPR26最佳学生论文O-Voxel：面向高质量3D生成的原生紧凑结构化潜空间

清华大学等提出O-Voxel稀疏体素结构，通过灵活对偶网格与体积表面属性实现任意拓扑鲁棒建模与PBR材质编码。配套稀疏压缩VAE实现16倍空间压缩率，结合4B参数大规模流匹配模型，在图像到3D生成任务中达到领先性能，512³分辨率生成耗时仅约3秒，兼顾高保真与高效推理。

🏆 CVPR 2026 🎨 3D生成 🧊 稀疏体素 🎬 PBR材质 ⚡ 高效推理

JUN 04

JoyAI-Echo：让五分钟叙事视频拥有可延续的角色记忆

通过跨模态音视频记忆库、记忆式后训练管线（SFT+RLHF+DMD）、Director Agent与实时超分辨率模块，构建长时长、可交互、高清音视频生成系统。采用slot-paired audio-visual memory保持多镜头叙事中的身份一致性，支持用户实时修订与720p到2K的轻量高清化，在跨镜头一致性与音视频质量上达到最优表现。

🎬 长视频生成 🎵 音视频同步 🧠 角色记忆 🎨 多模态生成 ⚡ 实时超分

JUN 03

PhysX-Omni：面向刚体、形变体与铰接体的统一仿真就绪3D生成

从"看起来像"走向"能够被物理引擎使用"，PhysX-Omni统一生成具备几何、材质、运动学与动力学属性的仿真就绪3D资产。通过多轮VLM全局理解到局部几何生成的coarse-to-fine流程，覆盖刚体、形变体与铰接体三类物理对象，直接输出XML/URDF等仿真格式，服务机器人策略学习与交互式场景生成。

🤖 具身智能 🧊 物理仿真 🎨 3D生成 🦾 机器人仿真 🔧 仿真就绪

JUN 6

CVPR26最佳论文提名：NitroGen，面向通用游戏智能体的视觉-动作基础模型

NVIDIA联合斯坦福、加州理工等机构提出NitroGen，基于超过40,000小时、涵盖1,000余款游戏的互联网视频训练，通过自动化手柄动作提取构建大规模视频-动作数据集。采用流匹配统一视觉-动作架构，在未见游戏中微调可将任务成功率最高提升52%，并开源数据集与模型权重。

🎮 游戏智能体 🧠 基础模型 🤖 具身智能 ⚡ 流匹配 🔮 世界模型

JUN 6

李飞飞世界模型的功能分类法：当渲染、模拟与规划走向融合

李飞飞与World Labs团队提出世界模型三分法——渲染器、模拟器与规划器，以POMDP闭环为理论根基，为当前混乱的"世界模型"概念建立清晰分析框架。指出模拟器是连接渲染与规划的关键枢纽，三者的融合正推动统一世界基础模型的诞生，为空间智能的长远发展指明方向。

🧠 空间智能 🔮 世界模型 🏗️ 模拟器 🎨 渲染器 📐 规划器

JUN 6

CVPR26最佳论文提名：SAM3D，单图生成可组合3D场景的基础模型

Meta超级智能实验室提出视觉grounding 3D重建新范式，采用多阶段训练（合成预训练→半合成中间训练→真实世界SFT→偏好优化）与模型在环数据引擎，实现复杂自然场景下的高质量物体几何、纹理与布局联合预测，在真实世界人类偏好测试中取得至少5:1的胜率。

🏗️ 3D重建 🧠 基础模型 👁️ 计算机视觉 🎨 生成模型 🔮 世界模型

JUN 6

世界模型：架构、方法、推理与应用全景综述

基于Zidan等人2026年发表的综述论文，系统梳理世界模型在架构设计、方法论家族、推理策略和应用领域四个维度的最新进展。涵盖从PlaNet、Dreamer到Sora、Cosmos、Genie等里程碑系统，探讨状态空间模型、Transformer、扩散模型、物理信息网络及语言增强多模态系统等技术路线。

📚 综述 🔮 世界模型 🤖 具身智能 🧠 强化学习 🎨 生成模型

JUN 6

CVPR26 Best Paper：D4RT，以查询为钥开启动态场景高效重建新范式

Google DeepMind、UCL与牛津提出D4RT，通过统一Transformer架构与新颖查询机制，从单个视频中联合推断深度、时空对应关系及完整相机参数，实现动态场景四维重建。在姿态估计速度上达到200+ FPS，相较VGGT提升9倍，相较MegaSaM提升100倍，在速度与精度上全面超越现有方法。

🏗️ 4D重建 👁️ 计算机视觉 🧠 Transformer 🎥 视频理解 🔮 世界模型

JUN 6

WALL-WM："事件级预测"世界动作模型，事件驱动的视觉-语言-动作预训练新范式

X Square Robot Team提出事件驱动VLA预训练框架，将视频-动作学习原子单位从固定长度动作块转向语义连贯的动作事件，解决语言、视觉与动作的粒度不匹配问题。通过层次化标注、平衡采样与Staircase隐式思维链，在多样化真实机器人评估中展现广泛的泛化能力。

🤖 具身智能 🧠 VLA模型 ⚡ 事件驱动 🔮 世界模型 🎮 机器人

JUN 4

WorldVLN：面向空中视觉语言导航的自回归世界行动模型

清华大学等团队提出首个面向空中视觉语言导航的自回归世界行动模型（WAM），将视频生成潜在自回归骨干网络重新应用于短视域世界状态预测并直接解码为航点行动。通过监督式导航动态 grounding 与 Action-aware GRPO 强化学习两阶段训练，在 UAV-Flow 和 IndoorUAV-VLA 基准测试中成功率提升超 12%，并实现向真实无人机平台的零样本迁移部署。

🤖 具身智能 🚁 无人机导航 🧠 世界行动模型 ⚡ VLA 🔮 世界模型

JUN 4

Gamma-World：面向多智能体交互的生成式世界模型新范式

NVIDIA 联合清华大学、多伦多大学等提出可扩展的生成式多智能体世界模型框架 Gamma-World，通过 Simplex Rotary Agent Encoding 实现无参数排列对称身份编码，并引入 Sparse Hub Attention 将跨智能体注意力复杂度从二次降至线性。支持从双智能体训练到四智能体推理的零样本扩展，实现 24FPS 流式输出，并成功从 Minecraft 虚拟环境泛化至真实机器人协作场景。

🤖 具身智能 🎮 多智能体 🧠 生成式世界模型 🔄 交互式模拟 🔮 世界模型

JUN 3

EgoLive：面向机器人操作学习的超大规模第一视角数据集

京东未来研究院发布EgoLive数据集，面向机器人操作学习提供1680小时立体视频、65,866个操作片段与346种真实任务。通过定制化JoyEgoCam头戴设备与自动化多模态标注流程，实现毫米级手部重建与高质量语义标注，覆盖家庭服务、零售、药房等真实场景，为VLA模型训练提供可扩展的第一视角数据资源。

🤖 具身智能 📊 数据集 🎥 第一视角 🦾 机器人学习 🏠 真实场景

JUN 3

NVIDIA Cosmos 3：全模态世界基础模型开启物理AI新纪元

NVIDIA发布Cosmos 3全模态世界模型系列，通过Mixture-of-Transformers双塔架构统一语言、图像、视频、音频与动作模态。在UniGenBench、PAIBench-G、Physics-IQ等8项物理AI基准测试中取得开放模型第一，提供40亿至640亿参数三种规模，以OpenMDW-1.1许可证开源，旨在加速物理AI研究与产业落地。

🧠 世界模型 🏭 NVIDIA ⚡ 物理AI 🎬 视频生成 🤖 具身智能

JUN 3

世界模型WM与具身世界动作模型WAM：从基础仿真器到具身智能的统一技术图景

系统梳理世界模型与具身世界动作模型的统一技术图景，涵盖200余篇核心文献。从基础世界模型、VLA模型、具身WAM、自动驾驶世界模型、效率与评测、数据集与生态六大支柱出发，解读从循环世界模型到Genie、Cosmos、Sora等基础仿真器，以及RT-2、π₀等VLA模型的演进脉络与前沿挑战。

🧠 世界模型 🤖 具身智能 📚 综述 🔗 VLA 🌐 技术图景

Jun 1

阿里Qwen-VLA：统一视觉-语言-动作建模，迈向通用具身智能

Qwen Team提出统一视觉-语言-动作（VLA）基础模型Qwen-VLA，采用"认知主干+运动专家"双模块架构与四阶段渐进训练策略，在操作、导航与轨迹预测等多领域展现一致跨任务性能与强分布外泛化能力，验证统一框架不牺牲专用性能。

🤖 具身智能 🧠 统一模型 ⚡ VLA 🔮 世界模型 🏆 跨任务泛化

JUN 1

Galaxea G0.5横扫7大具身评测：统一自回归架构重塑视觉语言动作模型

Galaxea团队发布G0.5模型，回归自回归本质，通过单一Transformer解码器统一生成推理与动作令牌，配合跨具身动作分词器、原生思维链流与视觉记忆模块，在七大独立评测场景中全面超越现有最优方法，为通用机器人控制提供新范式。

🤖 具身智能 🧠 自回归VLA ⚡ 统一架构 🏆 7大评测 🔮 跨具身

MAY 31

WorldArena竞赛冠军GE-Sim 2.0：面向机器人操作的全闭环视频世界模拟器

AgiBot联合BUAA、LV-NUS Lab、TJU团队提出GE-Sim 2.0，仅20亿参数即登顶WorldArena公开排行榜。系统基于动作条件视频生成框架，引入本体感知状态专家、VLM世界裁判与DMD2加速框架三大核心模块，实现高保真多视角视频仿真、机器可验证的自动评估与伪实时闭环推理，为机器人操作策略的可扩展评估与闭环学习提供全新技术路径。

🤖 具身智能 🏆 WorldArena 🎬 视频模拟器 ⚡ 闭环仿真 🔮 世界模型

MAY 31

最大预训练具身世界模型τ0-WM：面向机器人操作任务的统一视频-动作世界模型

上海实验室与AGIBOT Finch联合推出τ0-World Model，基于共享视频扩散骨干将策略学习、视频预测与动作评估纳入统一未来预测框架。模型在约27,300小时异构交互数据上完成预训练，通过模态特定监督掩码实现联合训练，并引入重去噪一致性评分（RCS）与低质量动作修正（LAR）的测试时计算策略，在多项跨本体长程精细操作任务中取得领先表现。

🤖 具身智能 🧠 统一模型 🎬 视频扩散 ⚡ 测试时计算 🔮 世界模型

MAY 29

Genesis World 1.0：机器人仿真进入可信评估新纪元

Genesis AI 发布面向机器人基础模型的全栈仿真基础设施 Genesis World 1.0，将仿真从"数据生成器"重新定义为"评估与迭代引擎"。仿真与真实硬件 rollout 相关性达 89%，单次评估从 200 小时压缩至 30 分钟，速度提升两个数量级，集成 Nyx 实时路径追踪渲染器、统一多物理引擎与 Quadrants 跨平台编译器三大核心组件。

🤖 具身智能 🔬 物理仿真 🔮 世界模型 ⚡ 可信评估 🎯 Sim-to-Real

MAY 29

自变量 Wall-OSS-0.5：面向物理部署的预训练 VLA 视觉-语言-动作模型

X Square Robot 团队开源 40 亿参数 VLA 模型 Wall-OSS-0.5，验证预训练本身即可产生可执行的机器人行为。基于 30 亿参数 VLM 骨干，在覆盖 20 余种具身形态、每轮超百万条轨迹的数据上预训练。零样本即可在 17 项真实机器人任务中完成多项操作，平均进展达 51.1%；微调后在 15 项任务上平均进展达 60.5%，较基线提升 17.5 个百分点。

🤖 具身智能 🧠 VLA 模型 ⚡ 预训练 🎯 零样本部署 🔓 开源

MAY 21

WorldArena榜单（阶段）第一名Pelican-Unify 1.0：迈向具身智能统一范式的新里程碑

北京人形机器人创新中心发布首个统一理解、推理、想象与行动的具身基础模型Pelican-Unify 1.0。基于Qwen3-VL与Wan2.2构建统一循环架构，在WorldArena世界模型基准登顶（EWM 66.03），同时在八项VLM基准和RoboTwin双臂操作任务上达到顶尖水平，验证"统一化不牺牲专业化"的核心命题。

🤖 具身智能 🧠 统一模型 🏆 WorldArena ⚡ VLA 🔮 世界模型

MAY 21

视频生成MOE Mamoda2.5：基于DiT-MoE的统一多模态理解与生成框架技术解析

字节跳动提出Mamoda2.5，将细粒度混合专家（MoE）架构引入扩散Transformer（DiT），在单一模型中统一文本到图像/视频生成、图像/视频编辑及多模态理解五大任务。采用128专家Top-8稀疏激活、AR-Diffusion统一管线与联合少步蒸馏强化学习，在VBench 2.0和OpenVE-Bench上达到开源顶尖水平，视频编辑推理速度提升最高95.9倍。

🎬 视频生成 🧠 多模态 ⚡ DiT-MoE 🎨 图像编辑 🚀 字节跳动

MAY 14

WAM世界动作模型：具身智能的下一个前沿

基于《World Action Models: The Next Frontier in Embodied AI》综述论文的深度技术解读。系统梳理世界动作模型（WAMs）从反应式VLA到预见性推理的范式演进，深入剖析级联式（Cascaded）与联合式（Joint）两大架构家族的设计选择，涵盖扩散生成、自回归、显式与隐式生成等技术路径，并探讨数据生态、多维评估体系与开放挑战。

📊 综述 🤖 具身智能 🧠 世界动作模型 ⚡ VLA 🔮 未来预测

技术博客

ABot-M0.5：面向移动&操作的对齐感知世界动作模型

LingBot-VLA 2.0：面向跨本体通用机器人控制的从基础模型到真实场景的视觉-语言-动作系统演进

Qwen-RobotManip：以统一对齐框架解锁机器人操作基础模型的Scaling Law

ACE-Ego-0：异构具身数据联合训练，统一第一视角人类视频与机器人数据，开启VLA预训练新范式

Kairos：面向物理AI的原生世界模型栈，学习、维持与运行世界，赋能未来自进化具身智能体

PAIWorld：WorldArena基准最新榜首，面向机器人操作的三维一致世界基础模型

Curr-0：面向人形机器人移动-操作-手部控制的全身协同灵巧操作基础系统

DreamX-World 1.0：面向通用交互式世界建模的全栈技术实践

混元Hy-Embodied-0.5-VLA：从视觉-语言-动作模型到真实世界机器人学习全栈系统

ω-EVA：基于隐变量交互式世界模型的机器人动作生成新范式

Bi-Adapt：基于语义对应实现跨类别双臂操作的高效泛化

WorldOlympiad：视频世界模型的"铁人三项"评测新标杆

Dexterity-BEV：跨本体&跨相机&Action三维空间对齐，推动通用机器人策略学习

中科院DexJoCo：面向灵巧操作的基准测试与工具集

字节Lance：轻量级原生统一多模态模型，以多任务协同实现理解与生成的新范式

超越VLA与世界模型：构建下一代物理智能系统的四大支柱

WorldArena 2.0：迈向多模态、交互式与跨平台的世界模型评测新范式

CVPR26最佳学生论文O-Voxel：面向高质量3D生成的原生紧凑结构化潜空间

JoyAI-Echo：让五分钟叙事视频拥有可延续的角色记忆

PhysX-Omni：面向刚体、形变体与铰接体的统一仿真就绪3D生成

CVPR26最佳论文提名：NitroGen，面向通用游戏智能体的视觉-动作基础模型

李飞飞世界模型的功能分类法：当渲染、模拟与规划走向融合

CVPR26最佳论文提名：SAM3D，单图生成可组合3D场景的基础模型

世界模型：架构、方法、推理与应用全景综述

CVPR26 Best Paper：D4RT，以查询为钥开启动态场景高效重建新范式

WALL-WM："事件级预测"世界动作模型，事件驱动的视觉-语言-动作预训练新范式

WorldVLN：面向空中视觉语言导航的自回归世界行动模型

Gamma-World：面向多智能体交互的生成式世界模型新范式

EgoLive：面向机器人操作学习的超大规模第一视角数据集

NVIDIA Cosmos 3：全模态世界基础模型开启物理AI新纪元

世界模型WM与具身世界动作模型WAM：从基础仿真器到具身智能的统一技术图景

阿里Qwen-VLA：统一视觉-语言-动作建模，迈向通用具身智能

Galaxea G0.5横扫7大具身评测：统一自回归架构重塑视觉语言动作模型

WorldArena竞赛冠军GE-Sim 2.0：面向机器人操作的全闭环视频世界模拟器

最大预训练具身世界模型τ0-WM：面向机器人操作任务的统一视频-动作世界模型

Genesis World 1.0：机器人仿真进入可信评估新纪元

自变量 Wall-OSS-0.5：面向物理部署的预训练 VLA 视觉-语言-动作模型

WorldArena榜单（阶段）第一名Pelican-Unify 1.0：迈向具身智能统一范式的新里程碑

视频生成MOE Mamoda2.5：基于DiT-MoE的统一多模态理解与生成框架技术解析

WAM世界动作模型：具身智能的下一个前沿

从看见到了解世界：视觉世界模型研究全景解析

VLA视觉-语言-动作模型数据：机器人数据基础设施的全景解析

金鑫博士