AI 日报 | 2026-06-17 | Tony‘s BLOG

type

Post

status

Published

date

Jun 17, 2026

slug

summary

Gemini 3.5 Pro 截至 6/17 仍未 GA（限量 preview），三家旗舰齐发的节奏比预告慢；MiniMax M3 成首个集前沿编码+1M context+原生多模态的开源权重模型。Agent 侧 Hermes Agent 以 +3800★/周反超 OpenClaw 增速。视觉侧多篇 AQA（动作质量评估）新论文（2511.05611 / 2604.08294 / 2511.01194）直接对攀岩动作打分与改进建议有迁移价值。

一、今日最重要的 5 条

1. Gemini 3.5 Pro 截至 6/17 仍未 GA，仍处限量 preview

Google I/O（5/19）已 GA 的只有 Gemini 3.5 Flash；Pro 主打 2M context + Deep Think 推理 + 前沿多模态，Sundar 当时只说 "give us until next month"，无确切日期。截至今日（6/17）Pro 仍是少数企业客户限量预览，尚未公开 GA。为什么重要：所谓"6 月模型洪峰"实际比预告慢，别被发布预期带节奏。对我：继续等正式 API 文档/定价再评估迁移；做视频多帧推理的长上下文方案先用现有 Flash/其他模型搭原型。

出处发布时间：2026-06-06 / 6 月中旬聚合。链接：techtimes 报道 · WaveSpeed 分析

2. MiniMax M3：首个"前沿编码 + 1M context + 原生多模态"的开源权重模型

M3（6 月发布）号称首个同时具备前沿编码能力、1M 上下文与原生多模态的开源权重模型，开源权重 SWE-Bench Pro 居首（59.0%）。为什么重要：把过去只能闭源拿到的"长上下文 + 多模态 + 编码"组合放进可自托管权重，对做视频理解 + 编码 agent 的人是底座级利好。对我：高相关——可本地/低成本试"视频帧 + 文本"多模态理解，避免被闭源 API 锁定。(具体跑分为二手，待验证)

链接：llm-stats coding 榜 · LLM News

3. 视觉侧重点：AQA（动作质量评估）多篇新论文集中出现

Pose-Aware Multi-Level Motion Parsing for AQA（arXiv 2511.05611，录用 ICICT 2026）用"动作单元解析 + 运动解析 + 条件解析"做细粒度打分；另有"Can Vision-Language Models Judge Action Quality?"（arXiv 2604.08294）实证评估 VLM 直接判动作好坏；以及拓扑感知 GCN 做姿态相似度与 AQA（2511.01194）。为什么重要：AQA 正是"上传视频→识别动作→给改进建议"里"打分+反馈"那一环的学术对应。对我：高相关，详见 C 部分。

链接：2511.05611 · 2604.08294 · 2511.01194

4. Agent 生态：Hermes Agent 以 +3800★/周反超 OpenClaw 增速

OpenClaw（本地优先个人 AI 助手，连接 50+ 集成）已达 ~373k★ 但增速回落到 +1700★/周；新秀 Hermes Agent 以 +3800★/周成为当前增长最快的 agent runtime（累计 star 不到 OpenClaw 一半）。为什么重要：增速拐点常预示下一个生态焦点；本地优先 + 多集成是个人 agent 的明确方向。对我：关注 Hermes 的架构与集成方式，作为"本地 agent"选型与学习样本。(star 数据为二手聚合，待验证)

链接：OpenClaw vs Hermes 对比 · Trendshift 实时榜

5. 工程现实：Copilot 转用量计费 + 出口管制影响模型可用性

6/1 起 GitHub Copilot 切换为基于用量的 AI Credits 计费；6/12 一项美国出口管制指令要求 Anthropic 对 Claude Fable 5 / Mythos 5 暂停外籍用户访问。为什么重要：这类"计费模式 + 合规"变化会直接影响你的 coding agent 成本结构与可用模型集合，比跑分更现实。对我：选型时把"计费方式 + 地区可用性"纳入考量，别只看 benchmark。

链接：morphllm coding agents 综述

二、按我的目标分类

A. 前沿模型 / 一手发布

Gemini 3.5 Pro（仍未 GA）

事件：截至 6/17 仍为限量 preview，未公开 GA。

核心内容：2M context + Deep Think + 前沿多模态，接棒 Ultra 定位；Flash 已 GA（API $1.50/$9.00 per M tokens）。

为什么重要：长上下文 + 多模态对视频理解类应用是底座级能力。

我需不需要点开：需要——但等正式 API 文档/定价，别提前迁移。

链接：WaveSpeed

MiniMax M3（开源权重，6 月）

事件：首个"前沿编码 + 1M context + 原生多模态"的开源权重模型。

核心内容：开源权重 SWE-Bench Pro 居首（59.0%，待验证）。

为什么重要：把长上下文 + 多模态 + 编码组合开源，利于自托管与低成本实验。

我需不需要点开：需要——可作视频多模态理解的开源候选底座。

链接：llm-stats

编码模型格局（GPT-5.5 / Opus 4.6 / GLM-5.1）

事件：GPT-5.5 仍是 OpenAI 最强公开编码模型（长程 agentic）；GLM-5.1 为最强开源全能编码模型。

核心内容：长程多文件重构、模糊调试、工具调用与验证回路。

为什么重要：开源（GLM-5.1）与闭源头部差距在缩小。

我需不需要点开：选 coding 底座时参考，无需逐个深读。

链接：kilo 开源模型榜

B. AI 工程 / Agent / Coding workflow

LLM/Agent eval 框架三件套：RAGAS / TruLens / DeepEval

内容：RAGAS 适合 RAG 质量快速起步；TruLens 适合 agentic + tracing 一体；DeepEval 适合接进 CI/CD 当部署门禁。Agent 评估关注 tool calling、task completion、reasoning、trace-based eval。

可落地价值：给"我的 agent/RAG 到底能不能上线"一个可重复的判定流程，而非单看跑分。

对我当前开发/学习的意义：给攀岩 app 的"动作建议"建一个最小私有 eval（人工标注若干视频的"好/坏建议"），用 DeepEval 当回归门禁。

链接：eval 框架对比 · Agent 评估指南

Copilot 用量计费切换（6/1）

内容：Copilot 转为基于 AI Credits 的用量计费。

可落地价值：影响个人开发的实际成本曲线。

对我的意义：做 side project 时要估算 token/credit 成本，别让 agent 工作流烧光预算。

链接：morphllm

C. 视觉 / 视频 / 运动人体分析

Pose-Aware Multi-Level Motion Parsing for AQA（arXiv 2511.05611）

内容：动作单元解析（精确分段 + 局部-全局姿态表示）+ 运动解析（时空特征）+ 条件解析（身体之外的影响因素）做细粒度动作打分。

与攀岩 app 的相关性：高——"动作分段 + 细粒度评分"正对应攀岩"逐个 move 评估"。

可迁移到项目的点：把一条攀岩录像切成动作单元，每段单独打分并给反馈，比整段一个分更有指导性。

优先级：高

链接：2511.05611

Can Vision-Language Models Judge Action Quality?（arXiv 2604.08294）

内容：实证评估 VLM 是否能直接判断动作质量。

与攀岩 app 的相关性：高——直接关系"能不能让一个多模态大模型直接看视频给攀岩建议"。

可迁移到项目的点：可据其结论决定走"VLM 直判" vs "姿态管线 + 规则/小模型"路线；多半是后者更可靠、前者做兜底解释。

优先级：高

链接：2604.08294

拓扑感知 GCN 做姿态相似度与 AQA（arXiv 2511.01194）

内容：用拓扑感知图卷积做人体姿态相似度与动作质量评估。

与攀岩 app 的相关性：中高——可做"你的动作 vs 高手示范"的相似度对齐。

可迁移到项目的点：姿态相似度可作"对照参考动作给差异提示"的技术核心。

优先级：中

链接：2511.01194

AthleticsPose / CIMI4D（数据集）

内容：AthleticsPose（真实运动场单目 3D 姿态数据集与评估，2507.12905）；CIMI4D（大规模攀岩动作多模态数据集，含人-场景交互，2303.17948）。

与攀岩 app 的相关性：高——CIMI4D 几乎是攀岩动作分析的专用数据，数据少时的关键资产。

可迁移到项目的点：CIMI4D 可直接做预训练/评测；AthleticsPose 提供单目 3D 评估方法论。

优先级：高（数据稀缺场景的核心资源）

链接：CIMI4D · AthleticsPose

Climbing Technique Evaluation via Skeleton Video（PMC10574944）

内容：用骨架视频流分析评估攀岩技术，给新手改进建议（误检在可接受范围）。

与攀岩 app 的相关性：极高——几乎是你 app 的学术原型。

可迁移到项目的点：其"骨架→错误检测→改进建议"流程可直接作为 v1 规则层蓝本。

优先级：高

链接：PMC10574944

D. 产品化 / 商业化 / 行业动态

出口管制开始影响模型可用性（6/12）

动态：美国出口管制指令要求 Anthropic 对 Fable 5 / Mythos 5 暂停外籍用户访问。

背后的趋势判断：前沿模型可用性正被地缘/合规切割，"可用模型集合"会因地区/身份而异。

对 side project / 求职 / 方向的启发：做产品要有"模型可替换"设计（抽象一层 model provider），别把核心能力绑死单一闭源模型；求职时"多模型适配 + 成本/合规意识"是加分点。

链接：morphllm

资本转向"垂直 + 可量化 ROI"（延续趋势）

动态：泛 agent wrapper 退潮，资本奖励可衡量的 workflow 替代、安全、执行基础设施与企业控制点。

背后的趋势判断："又一个 AI 套壳"被惩罚；垂直 + 真实可用 + 指标才拿钱。

对我的启发：攀岩动作分析是"垂直 + 可量化改进建议"的好定位，作品集强调真实可用 + 指标。

链接：awesome-ai-agents-2026

E. 学习价值 / 求职价值

AQA 方法论（以 2511.05611 为主线）

内容：动作分段 + 细粒度评分 + 条件因素建模。

适合我怎么用：精读 + 复现 + 面试表达。

推荐动作：实现"攀岩录像→动作单元切分→每段打分+一句改进建议"的最小 demo。

链接：2511.05611

"VLM 能否判动作质量"的取舍（2604.08294）

内容：VLM 直判 vs 姿态管线路线之争。

适合我怎么用：收藏精读，作为架构决策依据。

推荐动作：读完写一段"为什么我选姿态管线 + VLM 做解释层"的决策记录，面试可讲。

链接：2604.08294

私有 eval 工程（DeepEval / RAGAS）

内容：把 eval 当部署门禁。

适合我怎么用：复现 + 纳入项目工程化。

推荐动作：给攀岩 app 的"建议生成"建最小回归测试集。

链接：Agent 评估指南

三、今日高分 GitHub Repo

1. confident-ai/deepeval

GitHub：https://github.com/confident-ai/deepeval

方向标签：eval / dev tools

这项目是干什么的：LLM/agent 评估框架，可像单元测试一样把 eval 接进 CI/CD。

为什么今天值得关注：agent 评估指标（tool calling / task completion / trace）在 2026 成为上线门禁标准做法。

与我的相关性：高——可给攀岩 app 的"建议生成"建私有回归测试。

上手成本：低

是否建议收藏：是

是否建议复现：是（接进你自己的小项目）

一句话判断：把"模型靠不靠谱"变成可重复测试的工程工具。

2. ARUNAGIRINATHAN-K/awesome-ai-agents-2026

GitHub：https://github.com/ARUNAGIRINATHAN-K/awesome-ai-agents-2026

方向标签：agent / 资源汇总

这项目是干什么的：300+ agent/框架/工具的对比、benchmark 与深度索引。

为什么今天值得关注：横向了解 agent 生态地图，选型前的地图册。

与我的相关性：中（选型参考）。

上手成本：低

是否建议收藏：是

是否建议复现：N/A

一句话判断：选型前翻一遍，省去到处搜。

3. facebookresearch/VideoPose3D

GitHub：https://github.com/facebookresearch/VideoPose3D

方向标签：video / pose / motion

这项目是干什么的：基于 2D 关键点轨迹的视频 3D 人体姿态估计（时序卷积 + 半监督）。

为什么今天值得关注：攀岩动作分析的经典可复现 3D 基线。

与我的相关性：高

上手成本：中

是否建议收藏：是

是否建议复现：是（作对照基线）

一句话判断：3D pose 入门的稳妥起点。

4. google-ai-edge/mediapipe

GitHub：https://github.com/google-ai-edge/mediapipe

方向标签：deployment / pose / edge-mobile

这项目是干什么的：BlazePose 等端侧实时姿态 / 全身 3D landmark。

为什么今天值得关注：移动端落地最现实的姿态基线。

与我的相关性：高（攀岩 app v1 首选端侧方案）。

上手成本：低

是否建议收藏：是

是否建议复现：是

一句话判断：手机端实时姿态，直接能上手做 MVP。

5. open-mmlab/mmaction2

GitHub：https://github.com/open-mmlab/mmaction2

方向标签：video / action recognition

这项目是干什么的：动作识别/时序动作检测的成熟工具箱（含骨架动作识别 STGCN 系列）。

为什么今天值得关注：与今天的 AQA 主题直接对接——骨架动作识别是动作打分的上游。

与我的相关性：高（攀岩动作分类/分段的现成工具）。

上手成本：中

是否建议收藏：是

是否建议复现：是（先跑骨架动作识别）

一句话判断：动作识别要工程化，先看它。

6. confident-ai 之外的 app 层：Pixelle-Video（需核实）

GitHub：（搜索结果显示约 9.2k★，仓库链接与可复现性待核实）

方向标签：video / multimodal / app

这项目是干什么的：输入主题自动生成成片（脚本/画面/配音/配乐/合成）。

为什么今天值得关注：端到端视频生成产品化样本，管线编排可借鉴。

与我的相关性：中（偏生成，非视频理解；借鉴 pipeline 思路）。

上手成本：中

⚠️ 警告：偏 demo 型，文档/可复现性需核实，勿盲目投入。

是否建议收藏：可选

是否建议复现：否

一句话判断：看 pipeline 编排，别指望即插即用。

类型平衡：AI 工程/agent（#1 #2）、视觉/视频/motion（#3 #4 #5）、产品/应用层（#6）。

四、今日最值得我看的 3 个链接

Pose-Aware Multi-Level Motion Parsing for AQA（2511.05611） — "动作分段 + 细粒度评分"正是攀岩逐 move 评估的方法对应，今天最该精读。arxiv.org/abs/2511.05611

Climbing Technique Evaluation via Skeleton Video（PMC10574944） — 几乎是你 app 的学术原型，"骨架→错误检测→改进建议"可直接当 v1 蓝本。PMC10574944

Can VLMs Judge Action Quality?（2604.08294） — 直接决定"VLM 直判 vs 姿态管线"的架构路线，省去反复试错。arxiv.org/pdf/2604.08294

五、今日行动清单

收藏但不必立刻看：拓扑感知 GCN（2511.01194）、awesome-ai-agents-2026、Hermes Agent 动态。

值得精读：2511.05611（AQA 分段+评分）、2604.08294（VLM 判动作）、Climbing Skeleton（PMC10574944）。

值得复现/试用：MediaPipe 出关键点 → mmaction2 跑骨架动作识别 → 用 DeepEval 给"建议生成"建最小 eval；如条件允许试 CIMI4D 攀岩数据集。

记到项目 roadmap：攀岩 app v1 = MediaPipe 出 2D/3D landmark → 动作单元切分（借 2511.05611 思路）→ 每段规则+小模型打分 → 一句改进建议；VLM 仅做解释层兜底；建私有 eval 当回归门禁。

面试可讲的 1~2 点：(a) "VLM 直判 vs 姿态管线+VLM 解释层"的架构取舍与理由；(b) 用私有 eval（DeepEval）把动作建议质量做成可重复回归测试的工程方法论。

六、今日信息质量说明

今日无确认的一手重磅模型发布：Gemini 3.5 Pro 截至 6/17 仍未 GA（较可信），MiniMax M3 跑分与部分 star 数据为二手（待验证）。真正高价值、低噪声的是视觉侧 AQA 一组论文（2511.05611 / 2604.08294 / 2511.01194）+ 攀岩专用数据集 CIMI4D + 骨架攀岩评估原型（PMC10574944），对你的攀岩动作分析 app 有直接迁移价值。建议今天把时间花在精读 AQA 方法 + 动手搭"分段打分"管线，而非追模型新闻。

GitHub star 数与部分仓库链接来自二手聚合源，正式引用前请以官方仓库为准。