AI 技术日报 | 2026-06-15

🔥 能力突破

来源：Anthropic News
日期：2026-06-09（暂停访问：2026-06-12）
核心：Anthropic 发布 Claude Fable 5，在软件工程、知识工作、视觉、科学研究等领域达到 SOTA。但因安全原因于 6 月 12 日暂停访问。
解读：
- Mythos 级别能力：Fable 5 是 Anthropic 最高能力级别的模型，在长任务和复杂任务上领先所有其他模型
- 安全机制：为防止能力滥用，Fable 5 在某些主题的查询会被重定向到 Claude Opus 4.8
- 政府叫停：6 月 12 日 Anthropic 宣布暂停 Fable 5 和 Mythos 5 的访问，正在与美国商务部谈判
工程启示：
- Anthropic 的”安全即产品”策略正在影响商业化节奏
- 企业采购 AI 基础设施需要考虑”硬件主权”（Hardware Sovereignty）问题
- 开源模型本地部署需求激增，“Run Local Models”成为开发者共识

来源：BuildFastWithAI
日期：2026-06-14
核心：Gemini 3.5 Pro 预计 6 月底发布，支持 Deep Think 模式和 200 万 Token 上下文
解读：
- 上下文竞赛升级：从 100 万 Token 到 200 万 Token，Google 正在拉开与竞争对手的距离
- Deep Think 模式：类似 o3 的推理模式，提升复杂任务处理能力
工程启示：
- 超长上下文需要配套的推理优化技术（稀疏注意力、Streaming 等）
- RAG 与长上下文的取舍将成为关键架构决策

维度	vLLM	SGLang	TensorRT-LLM	TGI
核心创新	PagedAttention + Continuous Batching	RadixAttention + 零开销调度	TensorRT 编译优化	Rust 运行时
KV Cache	Block 级管理（block_size=16）	Radix Tree，Token 级精确匹配	自研 Paged KV Cache	Rolling Batch
定位	开源事实标准	高性能 + 结构化输出	NVIDIA 硬件天花板	HF 生态集成

关键差异：
- SGLang RadixAttention vs vLLM Prefix Caching：前者用 Radix Tree 实现 Token 级前缀共享，后者用 Hash 表做 Block 级匹配
- SGLang 的 xgrammar 在 GPU 端生成 token mask，结构化输出性能领先
- TensorRT-LLM 编译优化后性能最高，但编译耗时 30 分钟到数小时，且硬件绑定
工程启示：
- 通用场景：vLLM（成熟稳定）
- Agent 工作流：SGLang（Prefix Caching 优势明显）
- NVIDIA 专用场景：TensorRT-LLM（性能天花板）

来源：稀土掘金
日期：2026-06-08
核心：阿里合并通义大模型事业部与未来生活实验室，成立 Token Foundry 事业部，由 CEO 吴泳铭直接负责
解读：
- CEO 直管 = 最高优先级：阿里将 AI 提升到与电商、云计算同等的战略层级
- “Token Foundry”命名讲究：暗示 Token 是核心生产资料，与黄仁勋”Token 是利润单位”不谋而合
- 双轮驱动：周靖人负责前沿探索（AI 未来研究院），吴泳铭负责商业落地
工程启示：
- 国产大模型竞争进入组织能力比拼阶段
- “研究院 + 事业部”双轮模式在 Google、微软已被验证

来源：Caixin Global
日期：2026-06-10
核心：中国工业和信息化部发布人形机器人商用目标
解读：
- 具身智能产业化加速：从实验室到商用场景的跨越
- 标准先行：行业标准 YD/T 6770 已于 6 月 13 日正式生效
- 产业链机会：机器人操作系统、运动控制、感知算法等领域迎来窗口期
工程启示：
- 具身智能软件栈（World Model + 运动控制 + Sim2Real）是下一个技术高地
- NVIDIA Cosmos 3 世界模型为具身智能提供了训练基础设施

来源：BuildFastWithAI
日期：2026-06-14
核心：Goldman Sachs 发布 AI 资本支出预测报告
关键数据：
- 2026-2031 年 AI 累计资本支出：7.6 万亿美元
- OpenAI 计划到 2030 年投入 6000 亿美元建设 AI 基础设施
- Anthropic 目标 2026 年 ARR 达 470 亿美元
解读：
- 算力军备竞赛持续：GPU 供需矛盾将长期存在
- 云厂商涨价：阿里云已上调价格最高 34%，AI 硬件成本压力传导至下游

来源：Logicalis 2026 CIO Report
日期：2026-06-14
核心：Logicalis 发布 2026 年 CIO 报告
关键发现：
- 51% 的全球 CIO 认为 AI 发展速度过快
- 16% 的公司高度依赖单一 AI 提供商
- AI 安全成为企业采购的首要考量因素
工程启示：
- 多云/多模型架构是降低 Provider Dependency 的关键
- AI 安全产品（如 Palo Alto Prisma AIRS 3.0）市场快速增长

工程启示：
- RAG 已从”检索 + 生成”演变为复杂的 Agent 系统
- 图增强 RAG（Graph-RAG）是企业知识库的新方向
- 安全 RAG 成为金融、医疗等合规场景的必备能力