[email protected] 深圳市南山区 +91 235 548 7548

清华大学人工智能学院助理教授李一鸣,一位曾任职于英伟达的视觉与机器人领域研究员,在2026年初回国后,发现国内人工智能领域正面临着对“世界模型”概念的强烈追捧。他认为,当前AI领域对“世界模型”的理解存在泡沫,并指出其价值在于解决实际问题,而非仅仅是技术路线本身。

李一鸣团队近期提出了一套名为Physical AI Infra的基础设施,该系统由数据和物理双轮驱动,包含两个核心自研组件:用于快速规模化数据采集的“数据管线”,以及能实现“Real-to-Sim-Real”闭环的“物理引擎”。这个系统能够训练机器人执行切割、旋拧、按压等精细操作,并支持在不同类型的硬件和多种场景(如生产制造、零售、医疗辅助等)之间进行部署。

这项技术方案被成立于2026年4月的初创公司“厘清智能”采纳。成立仅两个月,“厘清智能”便完成了多轮融资,其种子轮融资额高达数亿元人民币。投资方包括顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等风险投资机构,以及智元机器人、灵心巧手、世纪金源等多家产业资本。

“厘清智能”的吸引力在于其稀缺的人才和技术路线。李一鸣本人在空间感知、多模态推理、自动驾驶和具身智能领域拥有丰富的经验,曾与AMI Labs联合创始人谢赛宁合作研究具身视觉推理,并与英伟达联合发表了多篇重要论文。公司50余名团队成员以清华大学学生为主,平均年龄23岁,他们专注于软硬一体化人才的培养。

在技术路线上,“厘清智能”选择了“重”的全栈自研模式,覆盖数据采集、模型训练到物理引擎的每一个环节。李一鸣认为,打通所有环节是确保信息流畅和协同优化的关键。他计划在2026年底前发布面向B端场景的世界模型,并预计在2028年实现解决方案的规模化部署,最终为客户提供跨本体、跨场景的软硬一体化解决方案。

李一鸣在接受《智能涌现》采访时表示,“厘清智能”并非一家单纯的世界模型公司,而是致力于构建一个包含数据管线、世界模型和物理引擎的完整系统。他强调,Physical AI的本质是解决实际问题,世界模型是实现这一目标的工具,而非终点。新一代的Physical AI团队应具备全栈能力,从数据采集到模型训练,全部自主研发。他将未来的具身智能公司定位为“World Model as Service”公司,提供软硬一体的系统解决方案。

关于Physical AI人才画像,李一鸣指出其核心是软硬一体化,并强调了清华大学在人才培养方面的优势。他认为,与语言模型不同,Physical AI需要融合硬件和软件的复合型人才,而这类人才目前非常稀缺。

李一鸣还谈到,具身模型的参数量需要达到甚至超过语言模型,才能实现“智能涌现”。他认为,人类数据比真实机器人数据更容易规模化,并已与多个行业场景方合作,快速积累数据。他强调,单纯依靠数据采集不足以构建完整的Physical AI基础设施,还需要融入物理规律来弥补数据局限性。通过将真实世界数据与物理世界模型对齐,可以显著减少机器人学习所需的真实数据量,例如,机器人学习切苹果,只需真实操作十次,其余练习可在物理模型中完成。

在对不同AI模型类型的看法上,李一鸣认为,世界模型负责机器与世界的交互,而语言模型则负责机器与人的交互。他指出,基于LLM构建的VLM和VLA模型与物理世界的适配性不佳,因为语言是高度离散化的空间,且充满人类的偏见。他认为,语言应作为辅助而非中心。

李一鸣提出,世界模型的训练需要监督微调(SFT)和强化学习(RL)的结合。由于物理数据量不足,需要自主采集数据并建立标准。他强调,世界模型必须遵循物理规律,因此自研的可微物理引擎至关重要。他将全栈打通感知、推理、决策和动作输出,并面向机器与世界交互任务设计的模型定义为“原生世界模型”。他认为VLA、JEPA和视频生成模型并非原生世界模型,因为它们在表征或预测能力上存在局限。

他指出,训练“原生世界模型”的关键在于高效地将物理世界进行“tokenization”,即将其转化为模型可理解的Token序列。他表示,其团队在视觉tokenizer方面已优于Meta的DINOv3模型,并将继续研究物理世界的高效表征。构建Physical AI的基础设施是另一个挑战,需要设计高效的物理引擎来模拟复杂物体和流体的状态转移,从而支持机器人进行强化学习。

展望未来,李一鸣认为2028年将是Physical AI规模化落地的关键节点。他提到,目前以轮臂(带轮子的机械臂)为主的硬件形态更适合大多数操作场景,而人形机器人则面临技术挑战。他计划初期积极与场景方合作,先从B端市场切入,再逐步拓展到C端。最终目标是构建一个通用的Physical AI基础设施平台,类似iOS之于移动应用,实现各类物理操作任务的规模化开发和部署。他将此称为“荔枝系统”,其核心能力源于原生世界模型架构以及数据与物理双轮驱动的训练与评测基础设施。

03 条评论

  • 阻碍中国足球直播行业发展的因素? - 世界杯直播

    张三

    2024年5月19日 上午11:25

    海量高清赛事直播,不错过任何精彩瞬间。我们与多家直播源合作,确保流畅稳定的观赛体验,让您身临其境。

    回复
    • 张伟 2026年5月10日 14:30 平台内容非常丰富,直播流畅,比分更新也很快,非常棒! 回复
  • 李娜 2026年5月12日 09:15 作为球迷,在这里我找到了所有我想要的信息,太方便了! 回复

在此留下您的评论