AI 技术日报 | 2026-06-20

🔥 能力突破

Gemini 3.5 Flash 正式发布：Agent 时代的价格屠夫

来源：163.com | CSDN | GitCode
日期：2026-05-19（Google I/O 2026）
核心：Gemini 3.5 Flash 以 Flash 价格实现 Pro 级性能，编程与 Agent 能力超越 GPT-5.5

核心技术指标

测试项目	Gemini 3.5 Flash	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.1 编码	76.2%	~70%	~68%
MCP Atlas 多工具协调	83.6%	~75%	~72%
GDPval-AA	1656 Elo	~1580	~1550
输出速度	289 tokens/s	~70	~75
上下文窗口	1M tokens	400K	200K
输出上限	65K tokens	32K	32K

关键架构：Antigravity 2.0

Agent 原生设计：专门优化多步骤任务编排
原生 MCP 支持：开箱即用的工具调用能力
Jupyter 原生：内置代码执行环境

定价策略

服务	输入价格	输出价格
Gemini 3.5 Flash	$1.50/M tokens	$9.00/M tokens
GPT-5.5	~$15/M tokens	~$75/M tokens

性价比：Gemini 3.5 Flash 是 GPT-5.5 的 1/10~1/15

工程启示

首选场景：编码任务、多工具协调、长上下文处理
成本优先：预算敏感项目强烈推荐，API 成本降低 10 倍
关注点：6 月 Gemini 3.5 Pro 正式发布，预计 2M 上下文 + 更高性能
工具链：Antigravity 2.0 的 Agent 编排能力值得深入研究

vLLM 2026 挑战与优化：H200 吞吐量提升 56% 的秘密

来源：AMD | Premai
日期：2026-06-14
核心：vLLM 在 2026 年面临新挑战，Model Runner V2 带来 GB200 平台 56% 吞吐量提升

2026 vLLM 核心挑战

挑战	影响	解决方案
模型规模增长	内存墙问题加剧	PagedAttention v2
上下文长度增加	KV-cache 爆炸	分布式缓存
架构复杂性 (MoE)	All-to-All 通信瓶颈	EP 优化
硬件迭代	需要适配 Blackwell	CUDA 13.0

Model Runner V2 (MRV2) 关键技术

GPU-native Triton Kernels：
- 定制化算子，减少 kernel launch 开销
- GB200 实测吞吐量提升 56%
Async Scheduling：
- 预填阶段和解码阶段流水线化
- 减少 GPU 空闲等待
v0.17.1 新特性（2026-03-11）：
- PyTorch 2.10 集成
- RTX Blackwell (SM120) 支持
- H200 深度优化

工程启示

升级建议：已在使用 vLLM 的项目关注 0.17.x 版本升级
新项目选型：vLLM 仍是生产环境默认选择
硬件关注：H200/B200 可获得 2 倍 H100 性能，vLLM 优化到位
替代方案：Agent 场景考虑 SGLang，Mac 用户考虑 oMLX

⚙️ 工程可行

AWQ 量化：2026 年生产环境 INT4 默认选择

来源：Spheron | Patsnap
日期：2026-01-01
核心：AWQ (Activation-Aware Weight Quantization) 已成 2026 年生产环境 INT4 量化的事实标准

AWQ vs 其他量化方法

方法	精度	速度	适用场景	质量损失
Naive INT4	INT4	快	仅边缘	显著
GPTQ	INT4	中	通用	中等
AWQ	INT4/FP8	快	生产推荐	最小
NF4	INT4	中	research	中等
SmoothQuant	INT8	快	激活异常	低

AWQ 为什么成为默认

Activation-Aware 特性：
- 考虑激活分布，而非仅优化权重
- 保留关键 token 的精度
生态完善：
- Hugging Face 预量化 checkpoint
- vLLM、SGLang、TensorRT-LLM 原生支持
- AWQ 官方工具一键量化
APAC 云 GPU 成本优化：
- AWQ-INT4 在 APAC 云 GPU 实现 77-82% 总成本降低
- 配合 spot 实例效果更佳

生产部署流程

# 1. 量化模型
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model = AutoAWQForCausalLM.from_pretrained("model_name")
quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4 }
model.quantize(tokenizer, quant_config=quant_config)

# 2. 部署
# vLLM: vllm serve model_dir --quantization awq
# SGLang: python -m sglang.launch_server --quantization awq

工程启示

新项目：直接使用 Hugging Face 上的 AWQ 预量化模型
量化选型：INT4 AWQ 是生产环境最优性价比选择
成本计算：AWQ-INT4 可降低 77-82% 推理成本
工具链：vLLM/SGLang 的 AWQ kernels 已优化到位，可直接部署

上下文缓存 (Context Caching) 2026：KV-Cache 演进到集群级

来源：Modular | NVIDIA NIM
日期：2026-01-01（MLSys 2026）
核心：KV-Cache 从引擎内优化演进为分布式、可组合的集群级基础设施

KV-Cache 五个时代

时代	阶段	特点
1	引擎内本地缓存	2023
2	PagedAttention	vLLM 突破
3	Prefix Caching	重复前缀复用
4	Offloading	CPU/SSD 卸载
5	分布式统一缓存	2026 新范式

MLSys 2026 关键论文方向

LMCache：
- 跨请求 KV-Cache 共享
- 长上下文工作负载 TTFT 降低 60%+
ShadowServe：
- 分布式前缀缓存的无干扰 KV 获取
- 解决网络带宽瓶颈
cache-aware routing：
- 路由决策与 KV-Cache 状态不可分
- bitmap indexing 实现大规模集群级缓存

前缀缓存适用场景

场景	缓存收益	典型案例
System prompt 复用	高	Agent 多轮对话
RAG 文档重复引用	高	同一文档多次查询
代码补全	中	编辑器插件
对话历史	中	上下文窗口内的历史消息

vLLM Prefix Caching 使用

# 启用前缀缓存
vllm serve model --enable-prefix-caching

# 自动检测重复前缀并复用 KV-cache

工程启示

Agent 场景：必须开启 prefix caching，多轮对话收益显著
RAG 场景：共享文档多次查询场景，prefix caching 可减少 50%+ prefill 开销
架构演进：关注 LMCache 等跨节点 KV-Cache 共享方案
评估指标：监控 TTFT (Time to First Token)，prefix caching 可大幅降低

✅ 实践验证

具身智能 2026：从”昂贵玩具”到”工厂标配”

来源：一带一路官网 | 36Kr | Sohu
日期：2026-05-29（世界智能产业博览会）
核心：具身智能从 Demo 展示转向真实工业场景规模化部署

2026 标志性事件

时间	事件	意义
2026-01	宇树 H1 登春晚	具身智能进入公众视野
2026-03	政府工作报告纳入具身智能	政策背书
2026-04	机器人马拉松举办	产业化验证开始
2026-05	世界智能产业博览会	规模化展示
2026-07	中国移动 1.24 亿采购订单	商业化拐点

实用场景分类

类型	场景	商业化进度
工业场景	汽车组装、危险化学品搬运	已落地，高强度任务
仓储物流	分拣、搬运	规模化部署中
专用机器人	农业采摘、家庭养老	2027 年预期
通用人形	多任务	2028+

关键突破：机器人”大脑”

优必选 Thinker：开源具身智能大模型
特斯拉：第三代人形机器人即将发布
核心难点：sim-to-real gap 从模拟到真实硬件

工程启示

2026 是落地元年：不再只是 Demo，开始产生商业订单
场景选择：专用场景比通用人形更早商业化
技术储备：关注机器人基础模型 + 高质量仿真训练环境
投资方向：具身智能”大脑”和数据是核心竞争力

🛠️ 生态成熟

视频生成 2026：Sora 2 推出客串功能，Midjourney V8 发布

来源：CSDN | Sina Finance
日期：2026-03-09 ~ 2026-04
核心：视频生成进入”GPT-3.5 时刻”，从玩具走向生产力

2026 视频生成格局

工具	版本	核心能力	定位
Sora	2	25s + 音视频同步 + 角色客串	最高质量
Runway	持续更新	Gen-3 Alpha	专业创作
Pika	持续更新	快速迭代	短视频
即梦	中国市场	字节跳动	本地化
可灵	中国市场	快手	本地化

Sora 2 关键功能

25 秒视频生成：是目前最长的高质量视频
音视频同步：自动生成对白、音效、背景音乐
1080P 全高清：满足专业级输出
角色客串：用户可以”出演”AI 生成的视频（美加地区）

Midjourney V8 Alpha（2026-03）

生成速度提升 5 倍
原生 2K 高清支持
文字渲染精准度大幅提升

工程启示

创作场景：Sora 2 代表最高质量，但等待时间长
快速迭代：Midjourney V8 速度提升显著
中国市场：即梦 + 可灵本地化优势明显
趋势判断：2027 年实时生成、AI 导演可期

📊 要点总结

今日关键

Gemini 3.5 Flash 价格革命：API 成本是 GPT-5.5 的 1/10，编程和 Agent 能力领先
vLLM MRV2 性能提升：GB200 平台 56% 吞吐量提升，2026 仍是主流选择
AWQ 量化成为默认：INT4 AWQ 是 2026 年生产环境最优量化方案
具身智能商业化拐点：中国移动 1.24 亿订单标志规模化落地开始

需要关注

6 月 Gemini 3.5 Pro 发布：2M 上下文 + 更高性能
vLLM 0.17.x 升级：H200/B200 用户关注
具身智能工具链：Thinker 开源模型 + Genie Sim 3.0

行动项

评估 Gemini 3.5 Flash API 在编码任务中的替代可能（成本降低 90%）
检查现有 vLLM 版本，考虑升级到 0.17.x
确认 RAG/Agent 项目是否开启 prefix caching

本日报基于 2026-06-20 搜集的公开信息，涵盖模型/框架/场景/学术动态

ai动态_2026-06-20

AI 技术日报 | 2026-06-20

🔥 能力突破

Gemini 3.5 Flash 正式发布：Agent 时代的价格屠夫

核心技术指标

关键架构：Antigravity 2.0

定价策略

工程启示

vLLM 2026 挑战与优化：H200 吞吐量提升 56% 的秘密

2026 vLLM 核心挑战

Model Runner V2 (MRV2) 关键技术

工程启示

⚙️ 工程可行

AWQ 量化：2026 年生产环境 INT4 默认选择

AWQ vs 其他量化方法

AWQ 为什么成为默认

生产部署流程

工程启示

上下文缓存 (Context Caching) 2026：KV-Cache 演进到集群级

KV-Cache 五个时代

MLSys 2026 关键论文方向

前缀缓存适用场景

vLLM Prefix Caching 使用

工程启示

✅ 实践验证

具身智能 2026：从”昂贵玩具”到”工厂标配”

2026 标志性事件

实用场景分类

关键突破：机器人”大脑”

工程启示

🛠️ 生态成熟

视频生成 2026：Sora 2 推出客串功能，Midjourney V8 发布

2026 视频生成格局

Sora 2 关键功能

Midjourney V8 Alpha（2026-03）

工程启示

📊 要点总结

今日关键

需要关注

行动项

相关文章

AI 技术动态日报

AI 技术动态 | 2026-05-29

AI 技术动态日报（2026-05-30）"

目录