ai技术动态

ai动态_2026-06-21

阅读时间 11 分钟

暂无摘要

AI 技术日报 | 2026-06-21

🔥 能力突破

智源大会发布悟界·Physis-v0.1:世界模型进入”预测物理状态”新范式

  • 来源搜狐 | 智源研究院
  • 日期:2026-06-12(智源大会 2026)
  • 核心:智源研究院发布两项世界模型成果,定义世界模型从”预测下一个词”到”预测下一个物理状态”的范式转变

技术解读

悟界·Physis-v0.1

  • 定位:全球首个通用世界基座模型
  • 核心范式:Next Physical State Prediction(预测下一个物理状态)
  • 关键突破:不是在像素空间中预测帧,而是在隐空间(Latent Space)中学习物理状态演化

悟界·RoboBrain Orca

  • 定位:具身智能”机器人大脑”
  • 核心能力:统一表征 + 因果推演 + 模态解码
  • 目标:让机器人不仅执行指令,还能预判后果、规划动作、动态调整

与传统方法的本质区别

方法预测目标典型代表
Next Token Prediction下一个词GPT、Claude
Next Frame Prediction下一帧画面Sora
Next Physical State下一个物理状态Physis-v0.1

工程启示

  • 范式判断:世界模型 ≠ 视频生成。王仲远(智源院长)明确指出”视频模型可能生成一头在天上飞的猪”,而真正的世界模型必须理解物理规律
  • VLA 是当下,世界模型是未来:VLA 解决”听懂指令→做出动作”,世界模型要解决”预测动作后的世界状态”
  • 五大技术路线仍在探索:以语言为中心 / 以像素为中心 / 以 3D 结构为中心 / 以视觉表征(JEPA)为轴心 / 统一潜空间
  • 中美在同一起跑线:智源判断世界模型领域暂无明显差距,是弯道超车机会

Physical AI 拐点:2026 年全球人形机器人部署从千台跨入万台

  • 来源163.com
  • 日期:2026-06-09(趋势总结)
  • 核心:AI 终于有”身体”了,而且不是 demo 视频里的身体,是真正在工厂里拧螺丝的那种

关键数据(截至 2026 年中)

厂商产品状态
AGIBOTG23月底交付第 1 万台
宇树科技H16月科创板过会,估值约 62 亿美元
TeslaOptimus量产中,目标 2-3 万美元/台
FigureFigure 03在宝马工厂上线
Boston DynamicsAtlas卖给现代汽车

NVIDIA Cosmos 3

  • 定位:“世界基础模型”,整合”看懂世界 + 预测未来 + 生成动作”
  • 配套 GR00T:人形机器人专用软件栈,跨品牌通用
  • 意义:过去每家机器人公司从零训练模型,现在有了共享底座

工程启示

  • Physical AI = AI 进入实体经济最后一道接口:知识工作 AI 已卷很深,全球 GDP 超一半是搬运、装配、护理等手活儿
  • NVIDIA 出大脑,机器人出身体:生态分工模式确立
  • C 端拐点预测 2028+:工业场景已可用,家庭场景可靠性要求高一个数量级
  • 开源生态:Cosmos 3 + GR00T 是具身智能的”Android 时刻”

⚙️ 工程可行

Multi-Agent 协作架构:2026 年从”单 Agent”到”Agent Team”

  • 来源163.com
  • 日期:2026-06-09(实战总结)
  • 核心:单 Agent 开始过时,任务复杂度倒逼多 Agent 协作从论文走向产品

四种协作形态

形态特征适用场景
Sub-agent一次性、隔离、向上汇报,并行加速长程研究、编程任务
Agent Team共享任务列表、mailbox 互相通讯跨部门协作、复杂项目
Dynamic WorkflowsClaude 自己写 orchestration 脚本,动态拉 100+ 子 Agent大型代码库迁移、企业级 bug 排查
Agent OSCEO + COO + 研究员 + 助理的多角色组合个人 AI 操作系统

Anthropic Dynamic Workflows(2026-05-28 随 Opus 4.8 发布)

  • 不是手动派子 Agent,而是让 Claude 自己写 orchestration 脚本
  • 可动态拉起数十甚至上百个子 Agent,并行跑、独立验证、交叉收敛
  • 官方演示:大型代码库迁移和企业级 bug 跨服务排查,“几周活儿压到几天”

VS Code 1.109(2026-02)

  • 将 Sub-agent 做成一等公民
  • 支持多子 Agent 并发跑、可视化看进度

工程启示

  • Sub-agent 真好用:token 翻倍但任务质量跳一档,特别适合长程研究和编程
  • Agent Team 的挑战:token 成本高,多个 Agent 通讯可能出现死锁
  • 动态工作流有效果,但成本真高:需要权衡
  • 本质是分布式系统:模型当 worker,orchestration 当调度问题

Agent Skills:2026 年最值得学的”教 AI”技能

  • 来源163.com
  • 日期:2026-06-09(实战总结)
  • 核心:Skills 从 Anthropic 一家功能演变为行业标准,OpenAI、谷歌、国内厂商全部跟进

Skills 三层架构

┌─────────────────────────────────────┐
│ L1: 元数据(50-100 tokens)         │ ← 会话启动时全部加载,模型"知道有这些 Skill"
├─────────────────────────────────────┤
│ L2: 指令(SKILL.md 正文,≤5000 tokens)│ ← 模型判断匹配时才加载
├─────────────────────────────────────┤
│ L3: 资源(scripts/references)      │ ← 仅在 SKILL.md reference 时加载
└─────────────────────────────────────┘

解决的问题

  1. 上下文稀缺性:把”有哪些能力”和”具体怎么干”在物理上拆开
  2. 个人知识资产化:隐性 SOP(如”这个表必须按这个口径填”)第一次具备版本化管理形态

工程启示

  • Skills 是”教 AI”最干净的载体:比 Prompt 工程更结构化
  • 渐进式披露机制是关键:避免上下文爆炸
  • 实践建议:从工作流中的高频任务开始建 Skill,逐步积累
  • 工具推荐:沃垠 AI、Coding Plan 等平台已支持 Skills 管理

✅ 实践验证

Coding Plan 价格革命:AI 编程进入”月费 20 元”时代

  • 来源163.com
  • 日期:2026-06-09(趋势总结)
  • 核心:GLM 推出 20 元/月起的 Coding Plan,彻底改变 AI 编程的成本结构

价格对比

方案价格定位
Anthropic Pro$20/月个人开发者
Anthropic Max$100/月高级用户
GLM Coding Plan20-200 元/月全覆盖
MiniMax / Kimi对标跟进竞争

能成的原因

  1. 模型边际成本下来:GLM-5.1 编程基准达 Opus 4.6 约 90% 水平,国内推理成本低
  2. 开发者不需要”最强”,需要”够用且不贵”:日常脚本、网站、Skill,GLM-5.1 够用
  3. 订阅制降低认知税:不再对”这次该不该问”做经济计算,愿意问得更多

工程启示

  • 成本焦虑是过去两年最大的一道墙:Coding Plan 把这道墙拆掉了
  • 预测:月费 20 美元这一档会成为开发者标配
  • 生态兼容:改一行环境变量就能切,Claude Code 壳子里直接跑国产模型

Desktop Agent:AI 第一次真正”住进”你的电脑

  • 来源163.com
  • 日期:2026-06-09(实战总结)
  • 核心:2026 年上半年 Desktop Agent 终于跑通,AI 不再是浏览器里的 Chat 网页,而是本地进程

代表产品

产品厂商定位
CodexOpenAI多 Agent 工作流的 GUI 指挥中心
Claude CoworkAnthropic面向知识工作者的桌面 Agent
Qoder Work国内桌面端 Agent
Kimi WorkKimi桌面端 Agent

Claude Cowork 细节

  • 定位:给非程序员用,“把收据整理成报销表”
  • 有趣细节:产品本身是 Claude Code 自己写的,开发周期约一周半
  • Claude Cowork 的 Enterprise 部署文档讲 SSO、MDM、MSIX 安装包——这是给 IT 部门看的语言

为什么是 2026 上半年

  1. 模型层准备好了:Claude 4.x / GPT-5 系列视觉理解、UI 元素定位、连续操作达到”敢上线”水平
  2. Skills 标准化了:每个应用都是一种隐性 SOP,Skills 给隐性知识提供了沉淀载体
  3. 企业进场:Workspace Agents、Cowork Enterprise——Desktop Agent 不只是个人助理,是企业 IT 资产

工程启示

  • 消除了复制粘贴:文件是输入输出,应用是工具,整个工作流闭环
  • 异步感才是 Agent 真正的形态:可以挂十几分钟跑长程任务,你干别的它跑完通知你
  • 意义:AI 第一次写入 macOS 活动监视器 / Windows 任务管理器——这是它真正成为”AI 同事”的那道门槛

🛠️ 生态成熟

工信部具身智能实景实训专项行动:政策加速产业化

  • 来源搜狐
  • 日期:2026-06-10
  • 核心:工信部 + 国资委联合启动 2026 年度人形机器人与具身智能实景实训专项行动,目标万台级规模落地

政策要点

目标(2026 年底):

  • 人形机器人在代表性场景完成常态部署,开启”作业模式”
  • 凝练百个以上高价值应用场景
  • 带动形成万台级规模落地能力

覆盖场景

  • 工业制造、民生服务、特种作业
  • 生产制造、检测分析、维修维护、仓储物流、餐饮零售、医疗康养、安全生产、应急救援、防灾减灾

六大重点任务

  1. 打造实景实训空间
  2. 组建创新应用联合体
  3. 攻关实用化作业技能
  4. 加强实景应用验证与常态部署
  5. 强化关键要素保障
  6. 凝练成熟经验

工程启示

  • 国家级标准的意义:《人形机器人与具身智能标准体系(2026版)》填补了标准空白
  • 规模化路径明确:实景实训 → 应用验证 → 常态部署 → 万台规模
  • 产业链机会:上游伺服电机、减速器、传感器等关键零部件国产化提速

OpenClaw:开源 Agent Gateway 的破圈效应

  • 来源163.com
  • 日期:2026-06-09
  • 核心:OpenClaw(GitHub 37 万星)打通本地 Gateway + 全通讯渠道,成为全民 Agent 的破圈产品

技术特点

  • 定位:本地 Gateway,接全套通讯渠道(微信、Telegram、WhatsApp、Slack、Discord、macOS/iOS 语音、Android 连续语音)
  • 背后:同一个跑在你机器上的 Agent,同一份 Memory,同一份 Skill 库
  • Token 消耗:约为 Claude Code 的 3-5 倍(因为要随时拎着完整上下文)

工程启示

  • 意义:把”自动化 Agent”从极客玩具拽到大众能用的水平
  • Token 成本问题:长时间在线 Agent 的上下文维护成本不可忽视
  • 下半年预测:每个人可以有专属 Agent,OpenClaw 是第一个真正跑通的开源样本

📊 要点总结

今日关键

  • 世界模型新范式:智源发布 Physis-v0.1,从”预测下一个词”到”预测下一个物理状态”
  • Physical AI 拐点:全球人形机器人部署从千台跨入万台(AGIBOT 1 万台交付)
  • Multi-Agent 成主流:Sub-agent / Agent Team / Dynamic Workflows / Agent OS 四种形态
  • Desktop Agent 跑通:AI 第一次写入本地进程管理器

需要关注

  • Coding Plan 价格革命:AI 编程进入月费 20 元时代,成本焦虑消失
  • Skills 是”教 AI”新范式:比 Prompt 工程更结构化,值得学习
  • 工信部具身智能专项行动:政策加速产业化,标准体系完善

行动项

  • 评估世界模型(Physis 类)对自己业务的价值
  • 开始建立团队 Skills 资产
  • 评估 Desktop Agent 在工作流中的适用场景
  • 关注具身智能产业链机会(上游零部件国产化)

附录:相关链接

类别资源链接
世界模型智源悟界·Physishttps://www.sohu.com/a/1037887941_121948416
世界模型智源大会 2026https://www.baai.ac.cn
具身智能工信部专项行动https://www.sohu.com/a/1034892907_114986
Agent 技术2026 AI 十大趋势https://www.163.com/dy/article/KV05NTP30556I7IY.html
Physical AINVIDIA Cosmos 3https://www.163.com/dy/article/KV05NTP30556I7IY.html
Desktop AgentClaude Coworkhttps://www.anthropic.com/claude-cowork
Coding PlanGLM Coding Planhttps://www.zhipuai.cn
OpenClawGitHubhttps://github.com/nicktorn89/openclaw