AI 技术日报 | 2026-06-20
🔥 能力突破
Gemini 3.5 Flash 正式发布:Agent 时代的价格屠夫
- 来源:163.com | CSDN | GitCode
- 日期:2026-05-19(Google I/O 2026)
- 核心:Gemini 3.5 Flash 以 Flash 价格实现 Pro 级性能,编程与 Agent 能力超越 GPT-5.5
核心技术指标
| 测试项目 | Gemini 3.5 Flash | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|
| Terminal-Bench 2.1 编码 | 76.2% | ~70% | ~68% |
| MCP Atlas 多工具协调 | 83.6% | ~75% | ~72% |
| GDPval-AA | 1656 Elo | ~1580 | ~1550 |
| 输出速度 | 289 tokens/s | ~70 | ~75 |
| 上下文窗口 | 1M tokens | 400K | 200K |
| 输出上限 | 65K tokens | 32K | 32K |
关键架构:Antigravity 2.0
- Agent 原生设计:专门优化多步骤任务编排
- 原生 MCP 支持:开箱即用的工具调用能力
- Jupyter 原生:内置代码执行环境
定价策略
| 服务 | 输入价格 | 输出价格 |
|---|---|---|
| Gemini 3.5 Flash | $1.50/M tokens | $9.00/M tokens |
| GPT-5.5 | ~$15/M tokens | ~$75/M tokens |
性价比:Gemini 3.5 Flash 是 GPT-5.5 的 1/10~1/15
工程启示
- 首选场景:编码任务、多工具协调、长上下文处理
- 成本优先:预算敏感项目强烈推荐,API 成本降低 10 倍
- 关注点:6 月 Gemini 3.5 Pro 正式发布,预计 2M 上下文 + 更高性能
- 工具链:Antigravity 2.0 的 Agent 编排能力值得深入研究
vLLM 2026 挑战与优化:H200 吞吐量提升 56% 的秘密
2026 vLLM 核心挑战
| 挑战 | 影响 | 解决方案 |
|---|---|---|
| 模型规模增长 | 内存墙问题加剧 | PagedAttention v2 |
| 上下文长度增加 | KV-cache 爆炸 | 分布式缓存 |
| 架构复杂性 (MoE) | All-to-All 通信瓶颈 | EP 优化 |
| 硬件迭代 | 需要适配 Blackwell | CUDA 13.0 |
Model Runner V2 (MRV2) 关键技术
-
GPU-native Triton Kernels:
- 定制化算子,减少 kernel launch 开销
- GB200 实测吞吐量提升 56%
-
Async Scheduling:
- 预填阶段和解码阶段流水线化
- 减少 GPU 空闲等待
-
v0.17.1 新特性(2026-03-11):
- PyTorch 2.10 集成
- RTX Blackwell (SM120) 支持
- H200 深度优化
工程启示
- 升级建议:已在使用 vLLM 的项目关注 0.17.x 版本升级
- 新项目选型:vLLM 仍是生产环境默认选择
- 硬件关注:H200/B200 可获得 2 倍 H100 性能,vLLM 优化到位
- 替代方案:Agent 场景考虑 SGLang,Mac 用户考虑 oMLX
⚙️ 工程可行
AWQ 量化:2026 年生产环境 INT4 默认选择
- 来源:Spheron | Patsnap
- 日期:2026-01-01
- 核心:AWQ (Activation-Aware Weight Quantization) 已成 2026 年生产环境 INT4 量化的事实标准
AWQ vs 其他量化方法
| 方法 | 精度 | 速度 | 适用场景 | 质量损失 |
|---|---|---|---|---|
| Naive INT4 | INT4 | 快 | 仅边缘 | 显著 |
| GPTQ | INT4 | 中 | 通用 | 中等 |
| AWQ | INT4/FP8 | 快 | 生产推荐 | 最小 |
| NF4 | INT4 | 中 | research | 中等 |
| SmoothQuant | INT8 | 快 | 激活异常 | 低 |
AWQ 为什么成为默认
-
Activation-Aware 特性:
- 考虑激活分布,而非仅优化权重
- 保留关键 token 的精度
-
生态完善:
- Hugging Face 预量化 checkpoint
- vLLM、SGLang、TensorRT-LLM 原生支持
- AWQ 官方工具一键量化
-
APAC 云 GPU 成本优化:
- AWQ-INT4 在 APAC 云 GPU 实现 77-82% 总成本降低
- 配合 spot 实例效果更佳
生产部署流程
# 1. 量化模型
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model = AutoAWQForCausalLM.from_pretrained("model_name")
quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4 }
model.quantize(tokenizer, quant_config=quant_config)
# 2. 部署
# vLLM: vllm serve model_dir --quantization awq
# SGLang: python -m sglang.launch_server --quantization awq
工程启示
- 新项目:直接使用 Hugging Face 上的 AWQ 预量化模型
- 量化选型:INT4 AWQ 是生产环境最优性价比选择
- 成本计算:AWQ-INT4 可降低 77-82% 推理成本
- 工具链:vLLM/SGLang 的 AWQ kernels 已优化到位,可直接部署
上下文缓存 (Context Caching) 2026:KV-Cache 演进到集群级
- 来源:Modular | NVIDIA NIM
- 日期:2026-01-01(MLSys 2026)
- 核心:KV-Cache 从引擎内优化演进为分布式、可组合的集群级基础设施
KV-Cache 五个时代
| 时代 | 阶段 | 特点 |
|---|---|---|
| 1 | 引擎内本地缓存 | 2023 |
| 2 | PagedAttention | vLLM 突破 |
| 3 | Prefix Caching | 重复前缀复用 |
| 4 | Offloading | CPU/SSD 卸载 |
| 5 | 分布式统一缓存 | 2026 新范式 |
MLSys 2026 关键论文方向
-
LMCache:
- 跨请求 KV-Cache 共享
- 长上下文工作负载 TTFT 降低 60%+
-
ShadowServe:
- 分布式前缀缓存的无干扰 KV 获取
- 解决网络带宽瓶颈
-
cache-aware routing:
- 路由决策与 KV-Cache 状态不可分
- bitmap indexing 实现大规模集群级缓存
前缀缓存适用场景
| 场景 | 缓存收益 | 典型案例 |
|---|---|---|
| System prompt 复用 | 高 | Agent 多轮对话 |
| RAG 文档重复引用 | 高 | 同一文档多次查询 |
| 代码补全 | 中 | 编辑器插件 |
| 对话历史 | 中 | 上下文窗口内的历史消息 |
vLLM Prefix Caching 使用
# 启用前缀缓存
vllm serve model --enable-prefix-caching
# 自动检测重复前缀并复用 KV-cache
工程启示
- Agent 场景:必须开启 prefix caching,多轮对话收益显著
- RAG 场景:共享文档多次查询场景,prefix caching 可减少 50%+ prefill 开销
- 架构演进:关注 LMCache 等跨节点 KV-Cache 共享方案
- 评估指标:监控 TTFT (Time to First Token),prefix caching 可大幅降低
✅ 实践验证
具身智能 2026:从”昂贵玩具”到”工厂标配”
2026 标志性事件
| 时间 | 事件 | 意义 |
|---|---|---|
| 2026-01 | 宇树 H1 登春晚 | 具身智能进入公众视野 |
| 2026-03 | 政府工作报告纳入具身智能 | 政策背书 |
| 2026-04 | 机器人马拉松举办 | 产业化验证开始 |
| 2026-05 | 世界智能产业博览会 | 规模化展示 |
| 2026-07 | 中国移动 1.24 亿采购订单 | 商业化拐点 |
实用场景分类
| 类型 | 场景 | 商业化进度 |
|---|---|---|
| 工业场景 | 汽车组装、危险化学品搬运 | 已落地,高强度任务 |
| 仓储物流 | 分拣、搬运 | 规模化部署中 |
| 专用机器人 | 农业采摘、家庭养老 | 2027 年预期 |
| 通用人形 | 多任务 | 2028+ |
关键突破:机器人”大脑”
- 优必选 Thinker:开源具身智能大模型
- 特斯拉:第三代人形机器人即将发布
- 核心难点:sim-to-real gap 从模拟到真实硬件
工程启示
- 2026 是落地元年:不再只是 Demo,开始产生商业订单
- 场景选择:专用场景比通用人形更早商业化
- 技术储备:关注机器人基础模型 + 高质量仿真训练环境
- 投资方向:具身智能”大脑”和数据是核心竞争力
🛠️ 生态成熟
视频生成 2026:Sora 2 推出客串功能,Midjourney V8 发布
- 来源:CSDN | Sina Finance
- 日期:2026-03-09 ~ 2026-04
- 核心:视频生成进入”GPT-3.5 时刻”,从玩具走向生产力
2026 视频生成格局
| 工具 | 版本 | 核心能力 | 定位 |
|---|---|---|---|
| Sora | 2 | 25s + 音视频同步 + 角色客串 | 最高质量 |
| Runway | 持续更新 | Gen-3 Alpha | 专业创作 |
| Pika | 持续更新 | 快速迭代 | 短视频 |
| 即梦 | 中国市场 | 字节跳动 | 本地化 |
| 可灵 | 中国市场 | 快手 | 本地化 |
Sora 2 关键功能
- 25 秒视频生成:是目前最长的高质量视频
- 音视频同步:自动生成对白、音效、背景音乐
- 1080P 全高清:满足专业级输出
- 角色客串:用户可以”出演”AI 生成的视频(美加地区)
Midjourney V8 Alpha(2026-03)
- 生成速度提升 5 倍
- 原生 2K 高清支持
- 文字渲染精准度大幅提升
工程启示
- 创作场景:Sora 2 代表最高质量,但等待时间长
- 快速迭代:Midjourney V8 速度提升显著
- 中国市场:即梦 + 可灵 本地化优势明显
- 趋势判断:2027 年实时生成、AI 导演可期
📊 要点总结
今日关键
- Gemini 3.5 Flash 价格革命:API 成本是 GPT-5.5 的 1/10,编程和 Agent 能力领先
- vLLM MRV2 性能提升:GB200 平台 56% 吞吐量提升,2026 仍是主流选择
- AWQ 量化成为默认:INT4 AWQ 是 2026 年生产环境最优量化方案
- 具身智能商业化拐点:中国移动 1.24 亿订单标志规模化落地开始
需要关注
- 6 月 Gemini 3.5 Pro 发布:2M 上下文 + 更高性能
- vLLM 0.17.x 升级:H200/B200 用户关注
- 具身智能工具链:Thinker 开源模型 + Genie Sim 3.0
行动项
- 评估 Gemini 3.5 Flash API 在编码任务中的替代可能(成本降低 90%)
- 检查现有 vLLM 版本,考虑升级到 0.17.x
- 确认 RAG/Agent 项目是否开启 prefix caching
本日报基于 2026-06-20 搜集的公开信息,涵盖模型/框架/场景/学术动态