AI 技术动态日报 - 2026-06-16
本日报聚焦大模型工程、AI Infra、模型训练/推理优化、多模态、AI Agent、RAG、具身智能等领域的工程与学术动态
🔥 今日热点
1. Google DeepMind 发布 DiffusionGemma:首个 26B MoE 文本扩散模型
来源:Spheron Blog | 2026-06-10
核心突破:
- Google DeepMind 发布首个开源文本扩散语言模型 DiffusionGemma(Apache 2.0)
- 采用 26B MoE 架构,每步仅激活约 3.8B 参数
- 通过并行精化 256-token 块生成文本,比同尺寸自回归模型快 4 倍
- 支持 FP8 量化,H100 推理效率显著提升
技术解读: 自回归模型逐 token 生成(从左到右,每步依赖前序 token);扩散模型从全mask的256-token块开始,通过T步去噪迭代恢复。对推理优化场景(批处理、长文档生成)有重要意义。
2. AWS 发布 Well-Architected Agentic AI Lens
来源:AWS 官方文档 | 2026-06-10
AWS 发布首个面向 Agentic AI 的架构指南,原生支持 MCP tools 和 A2A 协议。MCP + A2A 的双协议组合已成为行业共识,企业级 Agent 开发需要同时支持这两种协议。
3. MLSys 2026: KV Cache 成为基础设施级问题
来源:Modular Blog | 2026-06
5 周生产环境遥测显示,KV Cache 使用量已超过 GPU 显存。LMCache、Kitty、HiSparse 等项目涌现,存储后端多样化(Redis/S3/NFS/Valkey)将成为标配。
🤖 AI Agent 与多智能体
4. MCP 生态爆发:9400+ 公共服务器
来源:LangProtect Blog | 2026-06
2026年6月,MCP 生态已有 9,400+ 公共服务器(是年初的 3-4 倍)。但仅 24.4% 的组织对 Agent 间通信有完整可见性,安全成为焦点。
5. Oracle Private Agent Factory
来源:Oracle AI Blog | 2026-06-13
数据库原生的多 Agent 编排平台,支持 No-code 可视化开发、MCP 标准化集成、Python SDK。
🌐 世界模型与具身智能
6. AMI Labs 融资 $1.03B:世界模型进入亿元时代
来源:Silicon Sands News | 2026-03/06
World Labs(李飞飞)和 AMI Labs(Yann LeCun)合计融资 $2B+,all in 世界模型。核心技术:JEPA(Joint Embedding Predictive Architecture),从”预测下一个词” → “预测世界的下一状态”。
7. 具身智能进入量产元年:中国占据 85% 全球市场份额
来源:Robozaps Blog | 2026-06
2025年全球人形机器人出货 13,000+ 台,AGIBOT 和 Unitree 各出货 5,000+ 台,占全球 85%。2026年目标:10,000 台级别的实际部署。
📊 模型与框架
8. Nota AI MoE 量化论文被 ICML 2026 Workshop 接收
来源:PR Newswire | 2026-06-11
SRA-MoE 识别并优先处理对模型最终输出影响更大的输入,防止关键输入的专家选择被破坏。
9. DeepSeek Engram 与长上下文新进展
来源:Amplify Partners | 2026-01/06
分离记忆存储与推理计算(类似 MoE 分离参数激活),增加架构容量而不消耗 FLOPs。ELA(Exact Linear Attention) 用固定大小 O(1) 状态矩阵替代 KV Cache,支持超长上下文(>100K)。
10. Qwen3-235B-A22B:开源 MoE 新标杆
来源:TECHSY | 2026-06
总参数 235B,每 token 激活 22B(约 90% 计算节省)。128 个 MoE 专家,top-8 激活。
📈 趋势观察
端侧 AI:SLM 正在蚕食 LLM 市场
来源:The Prestige Times | 2026-06
Gartner 预测 2027 年企业 SLM 使用量将是 LLM 的 3 倍。Edge AI 芯片每 TOPS 成本 2022-2025 下降 40%。
本日报由 AI技术动态搜集 自动生成
数据来源:Tavily Search API
生成时间:2026-06-16