AI 技术日报 | 2026-06-21

🔥 能力突破

智源大会发布悟界·Physis-v0.1：世界模型进入”预测物理状态”新范式

来源：搜狐 | 智源研究院
日期：2026-06-12（智源大会 2026）
核心：智源研究院发布两项世界模型成果，定义世界模型从”预测下一个词”到”预测下一个物理状态”的范式转变

技术解读

悟界·Physis-v0.1：

定位：全球首个通用世界基座模型
核心范式：Next Physical State Prediction（预测下一个物理状态）
关键突破：不是在像素空间中预测帧，而是在隐空间（Latent Space）中学习物理状态演化

悟界·RoboBrain Orca：

定位：具身智能”机器人大脑”
核心能力：统一表征 + 因果推演 + 模态解码
目标：让机器人不仅执行指令，还能预判后果、规划动作、动态调整

与传统方法的本质区别：

方法	预测目标	典型代表
Next Token Prediction	下一个词	GPT、Claude
Next Frame Prediction	下一帧画面	Sora
Next Physical State	下一个物理状态	Physis-v0.1

工程启示

范式判断：世界模型 ≠ 视频生成。王仲远（智源院长）明确指出”视频模型可能生成一头在天上飞的猪”，而真正的世界模型必须理解物理规律
VLA 是当下，世界模型是未来：VLA 解决”听懂指令→做出动作”，世界模型要解决”预测动作后的世界状态”
五大技术路线仍在探索：以语言为中心 / 以像素为中心 / 以 3D 结构为中心 / 以视觉表征（JEPA）为轴心 / 统一潜空间
中美在同一起跑线：智源判断世界模型领域暂无明显差距，是弯道超车机会

Physical AI 拐点：2026 年全球人形机器人部署从千台跨入万台

来源：163.com
日期：2026-06-09（趋势总结）
核心：AI 终于有”身体”了，而且不是 demo 视频里的身体，是真正在工厂里拧螺丝的那种

关键数据（截至 2026 年中）

厂商	产品	状态
AGIBOT	G2	3月底交付第 1 万台
宇树科技	H1	6月科创板过会，估值约 62 亿美元
Tesla	Optimus	量产中，目标 2-3 万美元/台
Figure	Figure 03	在宝马工厂上线
Boston Dynamics	Atlas	卖给现代汽车

NVIDIA Cosmos 3：

定位：“世界基础模型”，整合”看懂世界 + 预测未来 + 生成动作”
配套 GR00T：人形机器人专用软件栈，跨品牌通用
意义：过去每家机器人公司从零训练模型，现在有了共享底座

工程启示

Physical AI = AI 进入实体经济最后一道接口：知识工作 AI 已卷很深，全球 GDP 超一半是搬运、装配、护理等手活儿
NVIDIA 出大脑，机器人出身体：生态分工模式确立
C 端拐点预测 2028+：工业场景已可用，家庭场景可靠性要求高一个数量级
开源生态：Cosmos 3 + GR00T 是具身智能的”Android 时刻”

⚙️ 工程可行

Multi-Agent 协作架构：2026 年从”单 Agent”到”Agent Team”

来源：163.com
日期：2026-06-09（实战总结）
核心：单 Agent 开始过时，任务复杂度倒逼多 Agent 协作从论文走向产品

四种协作形态

形态	特征	适用场景
Sub-agent	一次性、隔离、向上汇报，并行加速	长程研究、编程任务
Agent Team	共享任务列表、mailbox 互相通讯	跨部门协作、复杂项目
Dynamic Workflows	Claude 自己写 orchestration 脚本，动态拉 100+ 子 Agent	大型代码库迁移、企业级 bug 排查
Agent OS	CEO + COO + 研究员 + 助理的多角色组合	个人 AI 操作系统

Anthropic Dynamic Workflows（2026-05-28 随 Opus 4.8 发布）：

不是手动派子 Agent，而是让 Claude 自己写 orchestration 脚本
可动态拉起数十甚至上百个子 Agent，并行跑、独立验证、交叉收敛
官方演示：大型代码库迁移和企业级 bug 跨服务排查，“几周活儿压到几天”

VS Code 1.109（2026-02）：

将 Sub-agent 做成一等公民
支持多子 Agent 并发跑、可视化看进度

工程启示

Sub-agent 真好用：token 翻倍但任务质量跳一档，特别适合长程研究和编程
Agent Team 的挑战：token 成本高，多个 Agent 通讯可能出现死锁
动态工作流有效果，但成本真高：需要权衡
本质是分布式系统：模型当 worker，orchestration 当调度问题

Agent Skills：2026 年最值得学的”教 AI”技能

来源：163.com
日期：2026-06-09（实战总结）
核心：Skills 从 Anthropic 一家功能演变为行业标准，OpenAI、谷歌、国内厂商全部跟进

Skills 三层架构

┌─────────────────────────────────────┐
│ L1: 元数据（50-100 tokens）         │ ← 会话启动时全部加载，模型"知道有这些 Skill"
├─────────────────────────────────────┤
│ L2: 指令（SKILL.md 正文，≤5000 tokens）│ ← 模型判断匹配时才加载
├─────────────────────────────────────┤
│ L3: 资源（scripts/references）      │ ← 仅在 SKILL.md reference 时加载
└─────────────────────────────────────┘

解决的问题：

上下文稀缺性：把”有哪些能力”和”具体怎么干”在物理上拆开
个人知识资产化：隐性 SOP（如”这个表必须按这个口径填”）第一次具备版本化管理形态

工程启示

Skills 是”教 AI”最干净的载体：比 Prompt 工程更结构化
渐进式披露机制是关键：避免上下文爆炸
实践建议：从工作流中的高频任务开始建 Skill，逐步积累
工具推荐：沃垠 AI、Coding Plan 等平台已支持 Skills 管理

✅ 实践验证

Coding Plan 价格革命：AI 编程进入”月费 20 元”时代

来源：163.com
日期：2026-06-09（趋势总结）
核心：GLM 推出 20 元/月起的 Coding Plan，彻底改变 AI 编程的成本结构

价格对比

方案	价格	定位
Anthropic Pro	$20/月	个人开发者
Anthropic Max	$100/月	高级用户
GLM Coding Plan	20-200 元/月	全覆盖
MiniMax / Kimi	对标跟进	竞争

能成的原因

模型边际成本下来：GLM-5.1 编程基准达 Opus 4.6 约 90% 水平，国内推理成本低
开发者不需要”最强”，需要”够用且不贵”：日常脚本、网站、Skill，GLM-5.1 够用
订阅制降低认知税：不再对”这次该不该问”做经济计算，愿意问得更多

工程启示

成本焦虑是过去两年最大的一道墙：Coding Plan 把这道墙拆掉了
预测：月费 20 美元这一档会成为开发者标配
生态兼容：改一行环境变量就能切，Claude Code 壳子里直接跑国产模型

Desktop Agent：AI 第一次真正”住进”你的电脑

来源：163.com
日期：2026-06-09（实战总结）
核心：2026 年上半年 Desktop Agent 终于跑通，AI 不再是浏览器里的 Chat 网页，而是本地进程

代表产品

产品	厂商	定位
Codex	OpenAI	多 Agent 工作流的 GUI 指挥中心
Claude Cowork	Anthropic	面向知识工作者的桌面 Agent
Qoder Work	国内	桌面端 Agent
Kimi Work	Kimi	桌面端 Agent

Claude Cowork 细节：

定位：给非程序员用，“把收据整理成报销表”
有趣细节：产品本身是 Claude Code 自己写的，开发周期约一周半
Claude Cowork 的 Enterprise 部署文档讲 SSO、MDM、MSIX 安装包——这是给 IT 部门看的语言

为什么是 2026 上半年

模型层准备好了：Claude 4.x / GPT-5 系列视觉理解、UI 元素定位、连续操作达到”敢上线”水平
Skills 标准化了：每个应用都是一种隐性 SOP，Skills 给隐性知识提供了沉淀载体
企业进场：Workspace Agents、Cowork Enterprise——Desktop Agent 不只是个人助理，是企业 IT 资产

工程启示

消除了复制粘贴：文件是输入输出，应用是工具，整个工作流闭环
异步感才是 Agent 真正的形态：可以挂十几分钟跑长程任务，你干别的它跑完通知你
意义：AI 第一次写入 macOS 活动监视器 / Windows 任务管理器——这是它真正成为”AI 同事”的那道门槛

🛠️ 生态成熟

工信部具身智能实景实训专项行动：政策加速产业化

来源：搜狐
日期：2026-06-10
核心：工信部 + 国资委联合启动 2026 年度人形机器人与具身智能实景实训专项行动，目标万台级规模落地

政策要点

目标（2026 年底）：

人形机器人在代表性场景完成常态部署，开启”作业模式”
凝练百个以上高价值应用场景
带动形成万台级规模落地能力

覆盖场景：

工业制造、民生服务、特种作业
生产制造、检测分析、维修维护、仓储物流、餐饮零售、医疗康养、安全生产、应急救援、防灾减灾

六大重点任务：

打造实景实训空间
组建创新应用联合体
攻关实用化作业技能
加强实景应用验证与常态部署
强化关键要素保障
凝练成熟经验

工程启示

国家级标准的意义：《人形机器人与具身智能标准体系（2026版）》填补了标准空白
规模化路径明确：实景实训 → 应用验证 → 常态部署 → 万台规模
产业链机会：上游伺服电机、减速器、传感器等关键零部件国产化提速

OpenClaw：开源 Agent Gateway 的破圈效应

来源：163.com
日期：2026-06-09
核心：OpenClaw（GitHub 37 万星）打通本地 Gateway + 全通讯渠道，成为全民 Agent 的破圈产品

技术特点

定位：本地 Gateway，接全套通讯渠道（微信、Telegram、WhatsApp、Slack、Discord、macOS/iOS 语音、Android 连续语音）
背后：同一个跑在你机器上的 Agent，同一份 Memory，同一份 Skill 库
Token 消耗：约为 Claude Code 的 3-5 倍（因为要随时拎着完整上下文）

工程启示

意义：把”自动化 Agent”从极客玩具拽到大众能用的水平
Token 成本问题：长时间在线 Agent 的上下文维护成本不可忽视
下半年预测：每个人可以有专属 Agent，OpenClaw 是第一个真正跑通的开源样本

📊 要点总结

今日关键

世界模型新范式：智源发布 Physis-v0.1，从”预测下一个词”到”预测下一个物理状态”
Physical AI 拐点：全球人形机器人部署从千台跨入万台（AGIBOT 1 万台交付）
Multi-Agent 成主流：Sub-agent / Agent Team / Dynamic Workflows / Agent OS 四种形态
Desktop Agent 跑通：AI 第一次写入本地进程管理器

需要关注

Coding Plan 价格革命：AI 编程进入月费 20 元时代，成本焦虑消失
Skills 是”教 AI”新范式：比 Prompt 工程更结构化，值得学习
工信部具身智能专项行动：政策加速产业化，标准体系完善

行动项

评估世界模型（Physis 类）对自己业务的价值
开始建立团队 Skills 资产
评估 Desktop Agent 在工作流中的适用场景
关注具身智能产业链机会（上游零部件国产化）

附录：相关链接

类别	资源	链接
世界模型	智源悟界·Physis	https://www.sohu.com/a/1037887941_121948416
世界模型	智源大会 2026	https://www.baai.ac.cn
具身智能	工信部专项行动	https://www.sohu.com/a/1034892907_114986
Agent 技术	2026 AI 十大趋势	https://www.163.com/dy/article/KV05NTP30556I7IY.html
Physical AI	NVIDIA Cosmos 3	https://www.163.com/dy/article/KV05NTP30556I7IY.html
Desktop Agent	Claude Cowork	https://www.anthropic.com/claude-cowork
Coding Plan	GLM Coding Plan	https://www.zhipuai.cn
OpenClaw	GitHub	https://github.com/nicktorn89/openclaw

ai动态_2026-06-21

AI 技术日报 | 2026-06-21

🔥 能力突破

智源大会发布悟界·Physis-v0.1：世界模型进入”预测物理状态”新范式

技术解读

工程启示

Physical AI 拐点：2026 年全球人形机器人部署从千台跨入万台

关键数据（截至 2026 年中）

工程启示

⚙️ 工程可行

Multi-Agent 协作架构：2026 年从”单 Agent”到”Agent Team”

四种协作形态

工程启示

Agent Skills：2026 年最值得学的”教 AI”技能

Skills 三层架构

工程启示

✅ 实践验证

Coding Plan 价格革命：AI 编程进入”月费 20 元”时代

价格对比

能成的原因

工程启示

Desktop Agent：AI 第一次真正”住进”你的电脑

代表产品

为什么是 2026 上半年

工程启示

🛠️ 生态成熟

工信部具身智能实景实训专项行动：政策加速产业化

政策要点

工程启示

OpenClaw：开源 Agent Gateway 的破圈效应

技术特点

工程启示

📊 要点总结

今日关键

需要关注

行动项

附录：相关链接

相关文章

AI 技术动态日报

AI 技术动态 | 2026-05-29

AI 技术动态日报（2026-05-30）"

目录