AI 日报 | 2026-06-17
type
Post
status
Published
date
Jun 17, 2026
slug
summary
Gemini 3.5 Pro 截至 6/17 仍未 GA(限量 preview),三家旗舰齐发的节奏比预告慢;MiniMax M3 成首个集前沿编码+1M context+原生多模态的开源权重模型。Agent 侧 Hermes Agent 以 +3800★/周反超 OpenClaw 增速。视觉侧多篇 AQA(动作质量评估)新论文(2511.05611 / 2604.08294 / 2511.01194)直接对攀岩动作打分与改进建议有迁移价值。
tags
新闻
开发
攀岩
category
技术分享
icon
password
Comment
自动生成 · 高密度工程情报简报 · 风格:结论优先、少废话
说明:今日含较多二手聚合源与泄露/路线图信息,凡未经一手确认者均标注待验证。宁缺毋滥。

一、今日最重要的 5 条

1. Gemini 3.5 Pro 截至 6/17 仍未 GA,仍处限量 preview
Google I/O(5/19)已 GA 的只有 Gemini 3.5 Flash;Pro 主打 2M context + Deep Think 推理 + 前沿多模态,Sundar 当时只说 "give us until next month",无确切日期。截至今日(6/17)Pro 仍是少数企业客户限量预览,尚未公开 GA。为什么重要:所谓"6 月模型洪峰"实际比预告慢,别被发布预期带节奏。对我:继续等正式 API 文档/定价再评估迁移;做视频多帧推理的长上下文方案先用现有 Flash/其他模型搭原型。
出处发布时间:2026-06-06 / 6 月中旬聚合。链接:techtimes 报道 · WaveSpeed 分析
2. MiniMax M3:首个"前沿编码 + 1M context + 原生多模态"的开源权重模型
M3(6 月发布)号称首个同时具备前沿编码能力、1M 上下文与原生多模态的开源权重模型,开源权重 SWE-Bench Pro 居首(59.0%)。为什么重要:把过去只能闭源拿到的"长上下文 + 多模态 + 编码"组合放进可自托管权重,对做视频理解 + 编码 agent 的人是底座级利好。对我:高相关——可本地/低成本试"视频帧 + 文本"多模态理解,避免被闭源 API 锁定。(具体跑分为二手,待验证)
3. 视觉侧重点:AQA(动作质量评估)多篇新论文集中出现
Pose-Aware Multi-Level Motion Parsing for AQA(arXiv 2511.05611,录用 ICICT 2026)用"动作单元解析 + 运动解析 + 条件解析"做细粒度打分;另有"Can Vision-Language Models Judge Action Quality?"(arXiv 2604.08294)实证评估 VLM 直接判动作好坏;以及拓扑感知 GCN 做姿态相似度与 AQA(2511.01194)。为什么重要:AQA 正是"上传视频→识别动作→给改进建议"里"打分+反馈"那一环的学术对应。对我:高相关,详见 C 部分。
4. Agent 生态:Hermes Agent 以 +3800★/周反超 OpenClaw 增速
OpenClaw(本地优先个人 AI 助手,连接 50+ 集成)已达 ~373k★ 但增速回落到 +1700★/周;新秀 Hermes Agent 以 +3800★/周成为当前增长最快的 agent runtime(累计 star 不到 OpenClaw 一半)。为什么重要:增速拐点常预示下一个生态焦点;本地优先 + 多集成是个人 agent 的明确方向。对我:关注 Hermes 的架构与集成方式,作为"本地 agent"选型与学习样本。(star 数据为二手聚合,待验证)
5. 工程现实:Copilot 转用量计费 + 出口管制影响模型可用性
6/1 起 GitHub Copilot 切换为基于用量的 AI Credits 计费;6/12 一项美国出口管制指令要求 Anthropic 对 Claude Fable 5 / Mythos 5 暂停外籍用户访问。为什么重要:这类"计费模式 + 合规"变化会直接影响你的 coding agent 成本结构与可用模型集合,比跑分更现实。对我:选型时把"计费方式 + 地区可用性"纳入考量,别只看 benchmark。

二、按我的目标分类

A. 前沿模型 / 一手发布

Gemini 3.5 Pro(仍未 GA)
  • 事件:截至 6/17 仍为限量 preview,未公开 GA。
  • 核心内容:2M context + Deep Think + 前沿多模态,接棒 Ultra 定位;Flash 已 GA(API $1.50/$9.00 per M tokens)。
  • 为什么重要:长上下文 + 多模态对视频理解类应用是底座级能力。
  • 我需不需要点开:需要——但等正式 API 文档/定价,别提前迁移。
MiniMax M3(开源权重,6 月)
  • 事件:首个"前沿编码 + 1M context + 原生多模态"的开源权重模型。
  • 核心内容:开源权重 SWE-Bench Pro 居首(59.0%,待验证)。
  • 为什么重要:把长上下文 + 多模态 + 编码组合开源,利于自托管与低成本实验。
  • 我需不需要点开:需要——可作视频多模态理解的开源候选底座。
编码模型格局(GPT-5.5 / Opus 4.6 / GLM-5.1)
  • 事件:GPT-5.5 仍是 OpenAI 最强公开编码模型(长程 agentic);GLM-5.1 为最强开源全能编码模型。
  • 核心内容:长程多文件重构、模糊调试、工具调用与验证回路。
  • 为什么重要:开源(GLM-5.1)与闭源头部差距在缩小。
  • 我需不需要点开:选 coding 底座时参考,无需逐个深读。

B. AI 工程 / Agent / Coding workflow

LLM/Agent eval 框架三件套:RAGAS / TruLens / DeepEval
  • 内容:RAGAS 适合 RAG 质量快速起步;TruLens 适合 agentic + tracing 一体;DeepEval 适合接进 CI/CD 当部署门禁。Agent 评估关注 tool calling、task completion、reasoning、trace-based eval。
  • 可落地价值:给"我的 agent/RAG 到底能不能上线"一个可重复的判定流程,而非单看跑分。
  • 对我当前开发/学习的意义:给攀岩 app 的"动作建议"建一个最小私有 eval(人工标注若干视频的"好/坏建议"),用 DeepEval 当回归门禁。
Copilot 用量计费切换(6/1)
  • 内容:Copilot 转为基于 AI Credits 的用量计费。
  • 可落地价值:影响个人开发的实际成本曲线。
  • 对我的意义:做 side project 时要估算 token/credit 成本,别让 agent 工作流烧光预算。

C. 视觉 / 视频 / 运动人体分析

Pose-Aware Multi-Level Motion Parsing for AQA(arXiv 2511.05611)
  • 内容:动作单元解析(精确分段 + 局部-全局姿态表示)+ 运动解析(时空特征)+ 条件解析(身体之外的影响因素)做细粒度动作打分。
  • 与攀岩 app 的相关性:高——"动作分段 + 细粒度评分"正对应攀岩"逐个 move 评估"。
  • 可迁移到项目的点:把一条攀岩录像切成动作单元,每段单独打分并给反馈,比整段一个分更有指导性。
  • 优先级:
Can Vision-Language Models Judge Action Quality?(arXiv 2604.08294)
  • 内容:实证评估 VLM 是否能直接判断动作质量。
  • 与攀岩 app 的相关性:高——直接关系"能不能让一个多模态大模型直接看视频给攀岩建议"。
  • 可迁移到项目的点:可据其结论决定走"VLM 直判" vs "姿态管线 + 规则/小模型"路线;多半是后者更可靠、前者做兜底解释。
  • 优先级:
拓扑感知 GCN 做姿态相似度与 AQA(arXiv 2511.01194)
  • 内容:用拓扑感知图卷积做人体姿态相似度与动作质量评估。
  • 与攀岩 app 的相关性:中高——可做"你的动作 vs 高手示范"的相似度对齐。
  • 可迁移到项目的点:姿态相似度可作"对照参考动作给差异提示"的技术核心。
  • 优先级:中
AthleticsPose / CIMI4D(数据集)
  • 内容:AthleticsPose(真实运动场单目 3D 姿态数据集与评估,2507.12905);CIMI4D(大规模攀岩动作多模态数据集,含人-场景交互,2303.17948)。
  • 与攀岩 app 的相关性:高——CIMI4D 几乎是攀岩动作分析的专用数据,数据少时的关键资产。
  • 可迁移到项目的点:CIMI4D 可直接做预训练/评测;AthleticsPose 提供单目 3D 评估方法论。
  • 优先级:(数据稀缺场景的核心资源)
Climbing Technique Evaluation via Skeleton Video(PMC10574944)
  • 内容:用骨架视频流分析评估攀岩技术,给新手改进建议(误检在可接受范围)。
  • 与攀岩 app 的相关性:极高——几乎是你 app 的学术原型。
  • 可迁移到项目的点:其"骨架→错误检测→改进建议"流程可直接作为 v1 规则层蓝本。
  • 优先级:

D. 产品化 / 商业化 / 行业动态

出口管制开始影响模型可用性(6/12)
  • 动态:美国出口管制指令要求 Anthropic 对 Fable 5 / Mythos 5 暂停外籍用户访问。
  • 背后的趋势判断:前沿模型可用性正被地缘/合规切割,"可用模型集合"会因地区/身份而异。
  • 对 side project / 求职 / 方向的启发:做产品要有"模型可替换"设计(抽象一层 model provider),别把核心能力绑死单一闭源模型;求职时"多模型适配 + 成本/合规意识"是加分点。
资本转向"垂直 + 可量化 ROI"(延续趋势)
  • 动态:泛 agent wrapper 退潮,资本奖励可衡量的 workflow 替代、安全、执行基础设施与企业控制点。
  • 背后的趋势判断:"又一个 AI 套壳"被惩罚;垂直 + 真实可用 + 指标才拿钱。
  • 对我的启发:攀岩动作分析是"垂直 + 可量化改进建议"的好定位,作品集强调真实可用 + 指标。

E. 学习价值 / 求职价值

AQA 方法论(以 2511.05611 为主线)
  • 内容:动作分段 + 细粒度评分 + 条件因素建模。
  • 适合我怎么用:精读 + 复现 + 面试表达。
  • 推荐动作:实现"攀岩录像→动作单元切分→每段打分+一句改进建议"的最小 demo。
"VLM 能否判动作质量"的取舍(2604.08294)
  • 内容:VLM 直判 vs 姿态管线路线之争。
  • 适合我怎么用:收藏精读,作为架构决策依据。
  • 推荐动作:读完写一段"为什么我选姿态管线 + VLM 做解释层"的决策记录,面试可讲。
私有 eval 工程(DeepEval / RAGAS)
  • 内容:把 eval 当部署门禁。
  • 适合我怎么用:复现 + 纳入项目工程化。
  • 推荐动作:给攀岩 app 的"建议生成"建最小回归测试集。

三、今日高分 GitHub Repo

1. confident-ai/deepeval
  • 方向标签:eval / dev tools
  • 这项目是干什么的:LLM/agent 评估框架,可像单元测试一样把 eval 接进 CI/CD。
  • 为什么今天值得关注:agent 评估指标(tool calling / task completion / trace)在 2026 成为上线门禁标准做法。
  • 与我的相关性:高——可给攀岩 app 的"建议生成"建私有回归测试。
  • 上手成本:低
  • 是否建议收藏:是
  • 是否建议复现:是(接进你自己的小项目)
  • 一句话判断:把"模型靠不靠谱"变成可重复测试的工程工具。
2. ARUNAGIRINATHAN-K/awesome-ai-agents-2026
  • 方向标签:agent / 资源汇总
  • 这项目是干什么的:300+ agent/框架/工具的对比、benchmark 与深度索引。
  • 为什么今天值得关注:横向了解 agent 生态地图,选型前的地图册。
  • 与我的相关性:中(选型参考)。
  • 上手成本:低
  • 是否建议收藏:是
  • 是否建议复现:N/A
  • 一句话判断:选型前翻一遍,省去到处搜。
3. facebookresearch/VideoPose3D
  • 方向标签:video / pose / motion
  • 这项目是干什么的:基于 2D 关键点轨迹的视频 3D 人体姿态估计(时序卷积 + 半监督)。
  • 为什么今天值得关注:攀岩动作分析的经典可复现 3D 基线。
  • 与我的相关性:高
  • 上手成本:中
  • 是否建议收藏:是
  • 是否建议复现:是(作对照基线)
  • 一句话判断:3D pose 入门的稳妥起点。
4. google-ai-edge/mediapipe
  • 方向标签:deployment / pose / edge-mobile
  • 这项目是干什么的:BlazePose 等端侧实时姿态 / 全身 3D landmark。
  • 为什么今天值得关注:移动端落地最现实的姿态基线。
  • 与我的相关性:高(攀岩 app v1 首选端侧方案)。
  • 上手成本:低
  • 是否建议收藏:是
  • 是否建议复现:是
  • 一句话判断:手机端实时姿态,直接能上手做 MVP。
5. open-mmlab/mmaction2
  • 方向标签:video / action recognition
  • 这项目是干什么的:动作识别/时序动作检测的成熟工具箱(含骨架动作识别 STGCN 系列)。
  • 为什么今天值得关注:与今天的 AQA 主题直接对接——骨架动作识别是动作打分的上游。
  • 与我的相关性:高(攀岩动作分类/分段的现成工具)。
  • 上手成本:中
  • 是否建议收藏:是
  • 是否建议复现:是(先跑骨架动作识别)
  • 一句话判断:动作识别要工程化,先看它。
6. confident-ai 之外的 app 层:Pixelle-Video(需核实)
  • GitHub:(搜索结果显示约 9.2k★,仓库链接与可复现性待核实
  • 方向标签:video / multimodal / app
  • 这项目是干什么的:输入主题自动生成成片(脚本/画面/配音/配乐/合成)。
  • 为什么今天值得关注:端到端视频生成产品化样本,管线编排可借鉴。
  • 与我的相关性:中(偏生成,非视频理解;借鉴 pipeline 思路)。
  • 上手成本:中
  • ⚠️ 警告:偏 demo 型,文档/可复现性需核实,勿盲目投入。
  • 是否建议收藏:可选
  • 是否建议复现:否
  • 一句话判断:看 pipeline 编排,别指望即插即用。
类型平衡:AI 工程/agent(#1 #2)、视觉/视频/motion(#3 #4 #5)、产品/应用层(#6)。

四、今日最值得我看的 3 个链接

  1. Pose-Aware Multi-Level Motion Parsing for AQA(2511.05611) — "动作分段 + 细粒度评分"正是攀岩逐 move 评估的方法对应,今天最该精读。arxiv.org/abs/2511.05611
  1. Climbing Technique Evaluation via Skeleton Video(PMC10574944) — 几乎是你 app 的学术原型,"骨架→错误检测→改进建议"可直接当 v1 蓝本。PMC10574944
  1. Can VLMs Judge Action Quality?(2604.08294) — 直接决定"VLM 直判 vs 姿态管线"的架构路线,省去反复试错。arxiv.org/pdf/2604.08294

五、今日行动清单

  1. 收藏但不必立刻看:拓扑感知 GCN(2511.01194)、awesome-ai-agents-2026、Hermes Agent 动态。
  1. 值得精读:2511.05611(AQA 分段+评分)、2604.08294(VLM 判动作)、Climbing Skeleton(PMC10574944)。
  1. 值得复现/试用:MediaPipe 出关键点 → mmaction2 跑骨架动作识别 → 用 DeepEval 给"建议生成"建最小 eval;如条件允许试 CIMI4D 攀岩数据集。
  1. 记到项目 roadmap:攀岩 app v1 = MediaPipe 出 2D/3D landmark → 动作单元切分(借 2511.05611 思路)→ 每段规则+小模型打分 → 一句改进建议;VLM 仅做解释层兜底;建私有 eval 当回归门禁。
  1. 面试可讲的 1~2 点:(a) "VLM 直判 vs 姿态管线+VLM 解释层"的架构取舍与理由;(b) 用私有 eval(DeepEval)把动作建议质量做成可重复回归测试的工程方法论。

六、今日信息质量说明

今日无确认的一手重磅模型发布:Gemini 3.5 Pro 截至 6/17 仍未 GA(较可信),MiniMax M3 跑分与部分 star 数据为二手(待验证)。真正高价值、低噪声的是视觉侧 AQA 一组论文(2511.05611 / 2604.08294 / 2511.01194)+ 攀岩专用数据集 CIMI4D + 骨架攀岩评估原型(PMC10574944),对你的攀岩动作分析 app 有直接迁移价值。建议今天把时间花在精读 AQA 方法 + 动手搭"分段打分"管线,而非追模型新闻。
GitHub star 数与部分仓库链接来自二手聚合源,正式引用前请以官方仓库为准。
AI 日报 | 2026-04-01AI 日报 | 2026-06-16
Loading...