技术博客

记录大模型、视频生成、世界模型与具身智能领域的前沿洞察与深度思考

📅 2026

VLA视觉-语言-动作模型数据:机器人数据基础设施的全景解析

基于 Wang et al., arXiv:2604.23001 最新综述,系统梳理 VLA 研究三大支柱——数据集、基准测试与数据引擎。深入剖析真实世界与合成数据的 fidelity-cost 权衡困境,探讨从视频到数据引擎、硬件辅助采集到生成式数据引擎的技术演进路径。

金鑫博士

华为云盘古多模态大模型首席架构师 · 视频生成与世界模型团队主管