AI 技术日报 | 2026-06-21
🔥 能力突破
智源大会发布悟界·Physis-v0.1:世界模型进入”预测物理状态”新范式
技术解读
悟界·Physis-v0.1:
- 定位:全球首个通用世界基座模型
- 核心范式:Next Physical State Prediction(预测下一个物理状态)
- 关键突破:不是在像素空间中预测帧,而是在隐空间(Latent Space)中学习物理状态演化
悟界·RoboBrain Orca:
- 定位:具身智能”机器人大脑”
- 核心能力:统一表征 + 因果推演 + 模态解码
- 目标:让机器人不仅执行指令,还能预判后果、规划动作、动态调整
与传统方法的本质区别:
| 方法 | 预测目标 | 典型代表 |
|---|---|---|
| Next Token Prediction | 下一个词 | GPT、Claude |
| Next Frame Prediction | 下一帧画面 | Sora |
| Next Physical State | 下一个物理状态 | Physis-v0.1 |
工程启示
- 范式判断:世界模型 ≠ 视频生成。王仲远(智源院长)明确指出”视频模型可能生成一头在天上飞的猪”,而真正的世界模型必须理解物理规律
- VLA 是当下,世界模型是未来:VLA 解决”听懂指令→做出动作”,世界模型要解决”预测动作后的世界状态”
- 五大技术路线仍在探索:以语言为中心 / 以像素为中心 / 以 3D 结构为中心 / 以视觉表征(JEPA)为轴心 / 统一潜空间
- 中美在同一起跑线:智源判断世界模型领域暂无明显差距,是弯道超车机会
Physical AI 拐点:2026 年全球人形机器人部署从千台跨入万台
- 来源:163.com
- 日期:2026-06-09(趋势总结)
- 核心:AI 终于有”身体”了,而且不是 demo 视频里的身体,是真正在工厂里拧螺丝的那种
关键数据(截至 2026 年中)
| 厂商 | 产品 | 状态 |
|---|---|---|
| AGIBOT | G2 | 3月底交付第 1 万台 |
| 宇树科技 | H1 | 6月科创板过会,估值约 62 亿美元 |
| Tesla | Optimus | 量产中,目标 2-3 万美元/台 |
| Figure | Figure 03 | 在宝马工厂上线 |
| Boston Dynamics | Atlas | 卖给现代汽车 |
NVIDIA Cosmos 3:
- 定位:“世界基础模型”,整合”看懂世界 + 预测未来 + 生成动作”
- 配套 GR00T:人形机器人专用软件栈,跨品牌通用
- 意义:过去每家机器人公司从零训练模型,现在有了共享底座
工程启示
- Physical AI = AI 进入实体经济最后一道接口:知识工作 AI 已卷很深,全球 GDP 超一半是搬运、装配、护理等手活儿
- NVIDIA 出大脑,机器人出身体:生态分工模式确立
- C 端拐点预测 2028+:工业场景已可用,家庭场景可靠性要求高一个数量级
- 开源生态:Cosmos 3 + GR00T 是具身智能的”Android 时刻”
⚙️ 工程可行
Multi-Agent 协作架构:2026 年从”单 Agent”到”Agent Team”
- 来源:163.com
- 日期:2026-06-09(实战总结)
- 核心:单 Agent 开始过时,任务复杂度倒逼多 Agent 协作从论文走向产品
四种协作形态
| 形态 | 特征 | 适用场景 |
|---|---|---|
| Sub-agent | 一次性、隔离、向上汇报,并行加速 | 长程研究、编程任务 |
| Agent Team | 共享任务列表、mailbox 互相通讯 | 跨部门协作、复杂项目 |
| Dynamic Workflows | Claude 自己写 orchestration 脚本,动态拉 100+ 子 Agent | 大型代码库迁移、企业级 bug 排查 |
| Agent OS | CEO + COO + 研究员 + 助理的多角色组合 | 个人 AI 操作系统 |
Anthropic Dynamic Workflows(2026-05-28 随 Opus 4.8 发布):
- 不是手动派子 Agent,而是让 Claude 自己写 orchestration 脚本
- 可动态拉起数十甚至上百个子 Agent,并行跑、独立验证、交叉收敛
- 官方演示:大型代码库迁移和企业级 bug 跨服务排查,“几周活儿压到几天”
VS Code 1.109(2026-02):
- 将 Sub-agent 做成一等公民
- 支持多子 Agent 并发跑、可视化看进度
工程启示
- Sub-agent 真好用:token 翻倍但任务质量跳一档,特别适合长程研究和编程
- Agent Team 的挑战:token 成本高,多个 Agent 通讯可能出现死锁
- 动态工作流有效果,但成本真高:需要权衡
- 本质是分布式系统:模型当 worker,orchestration 当调度问题
Agent Skills:2026 年最值得学的”教 AI”技能
- 来源:163.com
- 日期:2026-06-09(实战总结)
- 核心:Skills 从 Anthropic 一家功能演变为行业标准,OpenAI、谷歌、国内厂商全部跟进
Skills 三层架构
┌─────────────────────────────────────┐
│ L1: 元数据(50-100 tokens) │ ← 会话启动时全部加载,模型"知道有这些 Skill"
├─────────────────────────────────────┤
│ L2: 指令(SKILL.md 正文,≤5000 tokens)│ ← 模型判断匹配时才加载
├─────────────────────────────────────┤
│ L3: 资源(scripts/references) │ ← 仅在 SKILL.md reference 时加载
└─────────────────────────────────────┘
解决的问题:
- 上下文稀缺性:把”有哪些能力”和”具体怎么干”在物理上拆开
- 个人知识资产化:隐性 SOP(如”这个表必须按这个口径填”)第一次具备版本化管理形态
工程启示
- Skills 是”教 AI”最干净的载体:比 Prompt 工程更结构化
- 渐进式披露机制是关键:避免上下文爆炸
- 实践建议:从工作流中的高频任务开始建 Skill,逐步积累
- 工具推荐:沃垠 AI、Coding Plan 等平台已支持 Skills 管理
✅ 实践验证
Coding Plan 价格革命:AI 编程进入”月费 20 元”时代
- 来源:163.com
- 日期:2026-06-09(趋势总结)
- 核心:GLM 推出 20 元/月起的 Coding Plan,彻底改变 AI 编程的成本结构
价格对比
| 方案 | 价格 | 定位 |
|---|---|---|
| Anthropic Pro | $20/月 | 个人开发者 |
| Anthropic Max | $100/月 | 高级用户 |
| GLM Coding Plan | 20-200 元/月 | 全覆盖 |
| MiniMax / Kimi | 对标跟进 | 竞争 |
能成的原因
- 模型边际成本下来:GLM-5.1 编程基准达 Opus 4.6 约 90% 水平,国内推理成本低
- 开发者不需要”最强”,需要”够用且不贵”:日常脚本、网站、Skill,GLM-5.1 够用
- 订阅制降低认知税:不再对”这次该不该问”做经济计算,愿意问得更多
工程启示
- 成本焦虑是过去两年最大的一道墙:Coding Plan 把这道墙拆掉了
- 预测:月费 20 美元这一档会成为开发者标配
- 生态兼容:改一行环境变量就能切,Claude Code 壳子里直接跑国产模型
Desktop Agent:AI 第一次真正”住进”你的电脑
- 来源:163.com
- 日期:2026-06-09(实战总结)
- 核心:2026 年上半年 Desktop Agent 终于跑通,AI 不再是浏览器里的 Chat 网页,而是本地进程
代表产品
| 产品 | 厂商 | 定位 |
|---|---|---|
| Codex | OpenAI | 多 Agent 工作流的 GUI 指挥中心 |
| Claude Cowork | Anthropic | 面向知识工作者的桌面 Agent |
| Qoder Work | 国内 | 桌面端 Agent |
| Kimi Work | Kimi | 桌面端 Agent |
Claude Cowork 细节:
- 定位:给非程序员用,“把收据整理成报销表”
- 有趣细节:产品本身是 Claude Code 自己写的,开发周期约一周半
- Claude Cowork 的 Enterprise 部署文档讲 SSO、MDM、MSIX 安装包——这是给 IT 部门看的语言
为什么是 2026 上半年
- 模型层准备好了:Claude 4.x / GPT-5 系列视觉理解、UI 元素定位、连续操作达到”敢上线”水平
- Skills 标准化了:每个应用都是一种隐性 SOP,Skills 给隐性知识提供了沉淀载体
- 企业进场:Workspace Agents、Cowork Enterprise——Desktop Agent 不只是个人助理,是企业 IT 资产
工程启示
- 消除了复制粘贴:文件是输入输出,应用是工具,整个工作流闭环
- 异步感才是 Agent 真正的形态:可以挂十几分钟跑长程任务,你干别的它跑完通知你
- 意义:AI 第一次写入 macOS 活动监视器 / Windows 任务管理器——这是它真正成为”AI 同事”的那道门槛
🛠️ 生态成熟
工信部具身智能实景实训专项行动:政策加速产业化
- 来源:搜狐
- 日期:2026-06-10
- 核心:工信部 + 国资委联合启动 2026 年度人形机器人与具身智能实景实训专项行动,目标万台级规模落地
政策要点
目标(2026 年底):
- 人形机器人在代表性场景完成常态部署,开启”作业模式”
- 凝练百个以上高价值应用场景
- 带动形成万台级规模落地能力
覆盖场景:
- 工业制造、民生服务、特种作业
- 生产制造、检测分析、维修维护、仓储物流、餐饮零售、医疗康养、安全生产、应急救援、防灾减灾
六大重点任务:
- 打造实景实训空间
- 组建创新应用联合体
- 攻关实用化作业技能
- 加强实景应用验证与常态部署
- 强化关键要素保障
- 凝练成熟经验
工程启示
- 国家级标准的意义:《人形机器人与具身智能标准体系(2026版)》填补了标准空白
- 规模化路径明确:实景实训 → 应用验证 → 常态部署 → 万台规模
- 产业链机会:上游伺服电机、减速器、传感器等关键零部件国产化提速
OpenClaw:开源 Agent Gateway 的破圈效应
- 来源:163.com
- 日期:2026-06-09
- 核心:OpenClaw(GitHub 37 万星)打通本地 Gateway + 全通讯渠道,成为全民 Agent 的破圈产品
技术特点
- 定位:本地 Gateway,接全套通讯渠道(微信、Telegram、WhatsApp、Slack、Discord、macOS/iOS 语音、Android 连续语音)
- 背后:同一个跑在你机器上的 Agent,同一份 Memory,同一份 Skill 库
- Token 消耗:约为 Claude Code 的 3-5 倍(因为要随时拎着完整上下文)
工程启示
- 意义:把”自动化 Agent”从极客玩具拽到大众能用的水平
- Token 成本问题:长时间在线 Agent 的上下文维护成本不可忽视
- 下半年预测:每个人可以有专属 Agent,OpenClaw 是第一个真正跑通的开源样本
📊 要点总结
今日关键
- 世界模型新范式:智源发布 Physis-v0.1,从”预测下一个词”到”预测下一个物理状态”
- Physical AI 拐点:全球人形机器人部署从千台跨入万台(AGIBOT 1 万台交付)
- Multi-Agent 成主流:Sub-agent / Agent Team / Dynamic Workflows / Agent OS 四种形态
- Desktop Agent 跑通:AI 第一次写入本地进程管理器
需要关注
- Coding Plan 价格革命:AI 编程进入月费 20 元时代,成本焦虑消失
- Skills 是”教 AI”新范式:比 Prompt 工程更结构化,值得学习
- 工信部具身智能专项行动:政策加速产业化,标准体系完善
行动项
- 评估世界模型(Physis 类)对自己业务的价值
- 开始建立团队 Skills 资产
- 评估 Desktop Agent 在工作流中的适用场景
- 关注具身智能产业链机会(上游零部件国产化)
附录:相关链接
| 类别 | 资源 | 链接 |
|---|---|---|
| 世界模型 | 智源悟界·Physis | https://www.sohu.com/a/1037887941_121948416 |
| 世界模型 | 智源大会 2026 | https://www.baai.ac.cn |
| 具身智能 | 工信部专项行动 | https://www.sohu.com/a/1034892907_114986 |
| Agent 技术 | 2026 AI 十大趋势 | https://www.163.com/dy/article/KV05NTP30556I7IY.html |
| Physical AI | NVIDIA Cosmos 3 | https://www.163.com/dy/article/KV05NTP30556I7IY.html |
| Desktop Agent | Claude Cowork | https://www.anthropic.com/claude-cowork |
| Coding Plan | GLM Coding Plan | https://www.zhipuai.cn |
| OpenClaw | GitHub | https://github.com/nicktorn89/openclaw |