AI 日报 | 2026-03-25 | Tony‘s BLOG

type

Post

status

Published

date

Mar 25, 2026

slug

summary

2026-03-25 AI 日报：Windsurf Wave 13 发布 SWE-1.5（78% SWE-bench）+ 并行 Agent；GPT-5.4 原生 computer use（OSWorld 75%）进入 Codex；BitNet.cpp HN 持续热议；攀岩 hold 检测新数据集 + Belay AI 产品发布；MoTok 运动生成新思路。

一、今日最重要的 5 条

1. 🔥 Windsurf Wave 13：免费 SWE-1.5 + 并行 Agent + Git Worktrees

发生了什么： Windsurf 发布 Wave 13，核心是三件事：① SWE-1.5 模型取代 SWE-1 成为默认，78% SWE-bench Verified（超越大多数付费 tier 模型），对所有用户免费开放至月底；② 原生并行 Agent 支持——5 个 agent 同时跑 5 个 bug，通过 Git Worktree 隔离不同分支，侧边栏多窗格监控；③ Cascade Hooks 支持在 agent 工作流关键节点执行自定义命令；Arena Mode 可并排对比两个模型。

为什么重要： 并行 Agent + Git Worktree 是 agentic coding 的系统性升级，不再是「chat 帮你写代码」，而是「多个 agent 同时推进项目不同部分」。这是 2026 AI IDE 大战的关键转折点。

对你的关系： 开发攀岩 app 时可用 Windsurf Wave 13 同时跑「pose estimation 模块」「feedback 生成模块」「前端 UI」三个 agent 并行开发，效率翻倍。SWE-1.5 免费且性能强，值得今天就切换过去。

🔗 Windsurf Wave 13 官方 changelog | 测试报告

2. 🔥 GPT-5.4 原生 Computer Use + OSWorld-V 75% 进入 Codex

发生了什么： OpenAI GPT-5.4 正式进入 Codex，带来原生 computer use 能力。关键数据：OSWorld-V 75%（人类基线 72.4%，首次超越人类）；1M token context；Token 使用效率比 GPT-5.2 节省 33%；GPT-5.4 mini 同步上线作为 Codex 轻量子模型（速度 2x，消耗 30% 额度）。

为什么重要： "控制桌面" 不再是 demo，是真实 GA 能力，且性能超人类。这意味着 coding agent 从「生成代码片段」进化到「自主操作 IDE、浏览器、终端执行完整任务」，agentic 工程范式迎来质变。

对你的关系： Codex 的并行沙箱执行 + 自动创建 PR，是目前云端 coding agent 的最强选项之一（无需本地部署）。注意与 Windsurf 对比选择。

🔗 OpenAI GPT-5.4 发布页 | Codex changelog

3. 🔥 BitNet.cpp：单 CPU 跑 100B 模型，HN 讨论仍在持续

发生了什么： Microsoft 官方 1-bit LLM 推理框架持续成为 GitHub trending 和 HN 讨论热点。技术指标：ARM CPU 加速 1.37x-5.07x，能耗降低 55-82%；x86 CPU 加速 2.37x-6.17x，能耗降低 71-82%；单 CPU 可运行 100B 参数模型（5-7 tokens/sec，接近阅读速度）。基于 llama.cpp，MIT 协议开源。

为什么重要： GPU-free edge AI 从理论走向可用。社区真正关心的问题从「能不能跑」变成了「1-bit 在哪些任务已经够用」。这是 mobile 部署路径的核心技术节点。

对你的关系： 攀岩 app 长期 mobile 部署路径（手机端实时分析无需服务器），BitNet.cpp 是最直接的技术参考。

🔗 microsoft/BitNet | HN 讨论

4. AlphaEvolve 向国家实验室扩展 + OpenEvolve 开源复现上线

发生了什么： Google DeepMind AlphaEvolve（Gemini 驱动的进化算法 coding agent）在 3 月向美国能源部国家实验室扩展访问权限。同时，社区出现 OpenEvolve 开源实现（Hugging Face 博客），可复现 AlphaEvolve 的核心框架。AlphaEvolve 已在 Google 内部运行 >1 年；节省 0.7% 全球算力；Gemini kernel 加速 23%；数学上发现新结构。

为什么重要： OpenEvolve 的出现意味着「LLM + 进化算法做 algorithm discovery」首次对外可复现，不再是 Google 内部黑盒。

对你的关系： 了解原理即可；OpenEvolve 可作为「用 LLM 自动优化代码/算法」的研究工具参考。

🔗 AlphaEvolve DeepMind Blog | OpenEvolve on HuggingFace

5. 「The Way Up」攀岩 Hold 检测数据集发布（arXiv:2505.12854）

发生了什么： 新论文「The Way Up: A Dataset for Hold Usage Detection in Sport Climbing」发布攀岩 hold 使用检测专用数据集，基于 2D keypoint pose estimation 检测关节与岩点的重叠关系，分析 hold 使用顺序和效率，面向真实攀岩场景。

为什么重要： 攀岩 AI 领域数据集极度稀缺，任何新公开数据集都是重要资源。「Hold 使用检测」是攀岩动作分析的核心子任务（判断选手用了哪个 hold、次序、效率）。

对你的关系： 直接填补你 app 的核心功能缺口（判断选手用了哪个 hold、次序、效率）。今天就点开看数据集是否可获取。

🔗 arXiv:2505.12854

二、按目标分类

A. 前沿模型 / 一手发布

【GPT-5.4：原生 Computer Use，首个超人类桌面操作模型】

事件：OpenAI GPT-5.4 发布并进入 Codex，具备原生 computer use

核心内容：OSWorld-V 75%（人类 72.4%）；1M context；token 效率提升 33%；desktop productivity 任务超越人类

为什么重要：从「描述操作」到「真正执行操作」是质变；agentic 工程设计范式改变

我需不需要点开：需要——了解 computer use API，对 agent 工程有直接参考价值

🔗 https://openai.com/index/introducing-gpt-5-4/

【Gemini 3.1 Flash-Lite：$0.25/M tokens，高频调用首选】

事件：Google 发布效率导向新品 Gemini 3.1 Flash-Lite，定价极具竞争力

核心内容：比前代快 2.5x，输出速度快 45%，input 仅 $0.25/M tokens

为什么重要：对高频调用 app（视频帧批量分析）极具性价比

我需不需要点开：需要关注定价——攀岩 app 视频帧批量分析的直接成本优化选项

🔗 https://llm-stats.com/llm-updates

【Claude Sonnet 4.6 Memory 全量上线（3 月）】

事件：Anthropic 将 Claude 跨对话 memory 功能推送给所有用户

核心内容：记住用户偏好、项目上下文、工作风格，跨对话持久化

为什么重要：开发工具 workflow 改变，Claude 不再需要每次重新介绍项目背景

我需不需要点开：了解即可；可立刻试用（你已有 Claude 账号）

🔗 https://renovateqr.com/blog/ai-model-releases-2026

B. AI 工程 / Agent / Coding Workflow

【Windsurf Wave 13：并行 Agent + SWE-1.5 免费】

内容：SWE-1.5 模型（78% SWE-bench），并行 multi-agent，Git Worktree 隔离，Cascade Hooks，Arena Mode 模型对比

可落地价值：同时运行多个 coding agent 处理不同模块，开发效率翻倍；Git Worktree 避免分支冲突

对我当前开发/学习的意义：今天就可切换到 Wave 13；并行 agent 直接加速攀岩 app 多模块开发

🔗 https://windsurf.com/changelog

【OpenAI Codex：云端 Agent，并行沙箱 + 自动 PR】

内容：Codex 现在搭载 GPT-5.4，支持并行沙箱执行、深度 GitHub 集成、自动创建 PR

可落地价值：GitHub issue → agent 自动实现 + 创建 PR，无需本地环境；适合快速迭代

对我当前开发/学习的意义：与 Windsurf 配合使用——Windsurf 本地，Codex 云端后台跑长任务

🔗 https://developers.openai.com/codex/changelog

【AI 开发工具 2026 市场格局：CLI / IDE-Native / Autonomous 三分】

内容：Windsurf #1（Wave 13），Antigravity #2（革命性免费定价），Codex 重返前五，Cursor 持续竞争；三类工具（CLI agent / IDE 内嵌 / 云端自主 agent）各有最优场景

可落地价值：帮你选对工具而不是盲目跟风；CLI 最灵活，IDE 最顺手，云端最省心

对我当前开发/学习的意义：Windsurf（IDE）+ Codex（云端自主）是当前最优组合

🔗 https://blog.logrocket.com/ai-dev-tool-power-rankings/

【Addison Osmani：My LLM Coding Workflow Going Into 2026】

内容：Google Chrome 工程师分享真实 LLM coding workflow（不是玄学，是实际操作流程）

可落地价值：高质量信噪比分享，帮你标准化自己的 AI 辅助开发 workflow

对我当前开发/学习的意义：直接参考，优化你和 coding agent 协作的实际流程

🔗 https://addyosmani.com/blog/ai-coding-workflow/

C. 视觉 / 视频 / 运动人体分析

【⭐ 高优先级】「The Way Up」：攀岩 Hold 使用检测专用数据集（arXiv:2505.12854）

内容：针对攀岩 hold 使用检测的专用数据集，基于 2D keypoint pose estimation 检测关节与岩点重叠，分析 hold 使用顺序和效率

与「攀岩动作分析 app」的相关性：极高。Hold-level 分析（用了哪个 hold、次序、效率）是动作改进建议的核心依据之一

可迁移到项目的点：① 直接使用数据集训练 hold 检测模型；② keypoint-overlap 检测方法可迁移到你的 pose pipeline；③ 了解 hold 使用序列如何作为动作质量的评估维度

优先级：高——今天就点开，看数据集是否可获取

🔗 https://arxiv.org/abs/2505.12854

【⭐ 高优先级】Belay AI：商业攀岩 AI 产品（belay.ai）已上线

内容：专注攀岩的 AI 分析商业产品，功能包括：体部关键点速度/方向估计、重心追踪、动态动作分析；面向真实攀岩者

与「攀岩动作分析 app」的相关性：直接竞品 + 参考标杆。了解其功能边界和体验短板有助于你找差异化

可迁移到项目的点：① 重心追踪（center of gravity）是你 app 可加入的高价值功能；② 商业产品 UI/UX 参考；③ 分析其技术栈（待研究）

优先级：高——今天去 belay.ai 注册体验，观察功能和体验短板（30 分钟）

🔗 https://belay.ai

【中优先级】MotionLLM：视频 + 动作序列联合理解（arXiv:2405.20340）

内容：统一视频帧 + 运动序列（SMPL motion）作为 LLM 输入，联合训练 video-text 和 motion-text，实现人体行为理解

与「攀岩动作分析 app」的相关性：中高。「上传视频 → 理解动作 → 生成建议」的架构可参考 MotionLLM 的 joint modeling 设计

可迁移到项目的点：视频和骨架动作序列的联合编码方式；不需要 clean mocap 数据也能训练

优先级：中——收藏，精读列入下周计划

🔗 https://arxiv.org/abs/2405.20340

【中优先级】Climbing Technique Evaluation via Skeleton Video Stream（MDPI Sensors）

内容：基于骨架视频流的攀岩技术评估，使用 keypoint 序列分析攀岩技术

与「攀岩动作分析 app」的相关性：中。骨架序列分析方法论参考

可迁移到项目的点：骨架序列特征提取→技术评估的完整 pipeline 思路

优先级：中——收藏备查

🔗 https://www.mdpi.com/1424-8220/23/19/8216

D. 产品化 / 商业化 / 行业动态

【2026 AI 从 Hype 到 Pragmatism：垂直场景 + 真实落地 > 参数竞赛】

动态：TechCrunch、MIT Tech Review 等多家权威媒体判断 2026 年是 AI 转向实用主义的转折年

背后的趋势判断：大模型能力差距缩小（GPT-5.4 ≈ Claude 4.6 ≈ Gemini 3.1 在大多数任务上），应用层是真正的竞争场；企业从 pilot 进入 production

对 side project / 求职 / 项目方向的启发：做垂直场景 AI 应用（如攀岩 app）比通用工具更有差异化；「能落地、有真实用户」比「用了最新技术」更打动面试官

🔗 https://techcrunch.com/2026/01/02/in-2026-ai-will-move-from-hype-to-pragmatism/

【Agentic AI 进入生产阶段：Autonomous Workflow 成为 2026 主旋律】

动态：多个分析报告确认 agentic workflow 从 demo 进入日常开发实践；长任务自主执行（hours, not seconds）成为新范式

背后的趋势判断：AI 工程师的价值从「写 prompt」变成「设计 agent workflow 和 evaluation」

对 side project / 求职 / 项目方向的启发：项目中展示「我设计并评估了 agent workflow」比「我用了 GPT-4」更有说服力

🔗 https://dev.to/ajay_kumar_1daef5fe089885/ai-developer-tools-enter-autonomous-era-agentic-systems-rise-in-march-2026-1f38

【Sports AI Vertical：攀岩 AI 从研究走向商业产品】

动态：Belay AI 上线，提供面向攀岩者的 AI 动作分析商业产品；学术界同期出现「The Way Up」数据集和多篇相关论文

背后的趋势判断：垂直运动 AI 场景开始商业化，但市场仍处早期，技术壁垒在数据集 + domain knowledge

对 side project / 求职 / 项目方向的启发：你的时机很好——市场有需求但竞争未充分；差异化在数据集深度 + 评估方法的专业性；belay.ai 是直接竞品，值得深度研究其功能缺口

🔗 https://belay.ai

E. 学习价值 / 求职价值

【Windsurf Wave 13 并行 Agent 架构：面试里讲 agentic 工程的好素材】

内容：Wave 13 的并行 agent + Git Worktree 设计，体现 multi-agent coordination 的工程实践

适合我怎么用：精读 changelog + 实际上手 + 面试表达。能讲「并行 agent 如何通过 Git Worktree 实现隔离、Cascade Hooks 如何做 workflow 控制点」，展示 agent 工程系统设计认知

推荐动作：今天切换到 Wave 13，用它开发攀岩 app 并记录 workflow，写进项目经历

🔗 https://windsurf.com/changelog

【「The Way Up」数据集 + Belay AI 竞品分析：面试差异化表达】

内容：攀岩 hold 检测数据集 + 商业竞品，构成你项目的「学术背书 + 市场调研」双维度

适合我怎么用：精读论文 + 体验竞品 + 面试表达。能说「我调研了 Belay AI 的功能边界，发现其在 hold-level feedback 颗粒度上的不足，并通过 The Way Up 数据集构建补充方案」，展示产品 + 技术双视角思考

推荐动作：今天注册 belay.ai 体验，同时读「The Way Up」论文，撰写竞品分析笔记

🔗 https://arxiv.org/abs/2505.12854 | https://belay.ai

【Addison Osmani LLM Coding Workflow：实用 workflow 设计参考】

内容：Google Chrome 工程师真实 AI 辅助开发 workflow，高质量信噪比分享

适合我怎么用：精读 + 纳入自己的日常工作流。面试时可提「我的 AI 辅助开发 workflow 参考了 Addison Osmani 的方法，做了哪些个人化调整」

推荐动作：今天读完，挑 2-3 个实践直接落地到攀岩 app 开发中

🔗 https://addyosmani.com/blog/ai-coding-workflow/

三、今日高分 GitHub Repo

Repo 1：microsoft/BitNet

GitHub 链接：https://github.com/microsoft/BitNet

方向标签：infra / deployment / edge

这项目是干什么的：Microsoft 官方 1-bit LLM 推理框架，CPU 上高效运行 1-bit LLMs（BitNet b1.58），无需 GPU

为什么今天值得关注：HN 持续热议；x86 CPU 加速最高 6.17x；是 2026 最重要的 edge inference 框架之一

与我的相关性：攀岩 app 手机端部署路径；长期 mobile inference 核心技术选型

上手成本：中（需了解 quantization 基础概念）

是否建议我收藏：是

是否建议我复现：可先跑官方 demo 验证速度（低门槛，一个小时内完成）

一句话判断：edge AI 重要基础设施，中期 mobile 部署必参考

Repo 2：caramaschiHG/awesome-ai-agents-2026

GitHub 链接：https://github.com/caramaschiHG/awesome-ai-agents-2026

方向标签：agent / curated / dev tools

这项目是干什么的：2026 年 AI agent 框架和工具综合列表，300+ 资源，20+ 类别，每月更新

为什么今天值得关注：月度更新，比任何博客文章更及时；帮你快速 survey agent 生态而不做重复调研

与我的相关性：快速找到攀岩 app agent pipeline 适合的 framework

上手成本：低（直接看 README）

是否建议我收藏：是

是否建议我复现：否

一句话判断：agent 生态地图，收藏备查，每月花 10 分钟过一遍

Repo 3：OpenHands/OpenHands

GitHub 链接：https://github.com/OpenHands/OpenHands

方向标签：agent / coding / dev tools

这项目是干什么的：开源 AI coding agent 平台，72% SWE-bench，Docker 本地一键部署

为什么今天值得关注：69K stars；目前最成熟的开源 coding agent，可直接用于生产开发

与我的相关性：直接加速攀岩 app 开发；学习 agent workflow 架构设计

上手成本：低（Docker 一键部署）

是否建议我收藏：是

是否建议我复现：强烈建议——本周就部署

一句话判断：不需要等，直接用，今天部署

Repo 4：kyrolabs/awesome-agents

GitHub 链接：https://github.com/kyrolabs/awesome-agents

方向标签：agent / curated

这项目是干什么的：AI Agent 精选列表，持续维护，覆盖 framework、product、research

为什么今天值得关注：补充 awesome-ai-agents-2026，两个列表侧重不同（这个更偏产品层）

与我的相关性：找攀岩 app 可参考的 agent 产品案例

上手成本：低

是否建议我收藏：是

是否建议我复现：否

一句话判断：与 caramaschiHG 配套使用，覆盖更全面

Repo 5：microsoft/bitnet-b1.58-2B-4T（HuggingFace 模型）

HuggingFace 链接：https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

方向标签：deployment / edge / model

这项目是干什么的：Microsoft 官方 BitNet b1.58 2B 模型权重，可直接用 BitNet.cpp 框架加载运行

为什么今天值得关注：有了模型权重才能真正体验 1-bit LLM；2B 参数对个人 laptop 友好

与我的相关性：手机端或轻量服务器部署的起点实验模型

上手成本：低（BitNet.cpp 文档完整）

是否建议我收藏：是

是否建议我复现：可以，作为 edge 部署入门实验

一句话判断：BitNet.cpp 的配套模型，验证 edge inference 可行性的最直接起点

Repo 6：codelion/OpenEvolve（AlphaEvolve 开源实现）

HuggingFace 链接：https://huggingface.co/blog/codelion/openevolve

方向标签：agent / research / algorithm-discovery

这项目是干什么的：AlphaEvolve 的开源复现，LLM + 进化算法做 algorithm discovery 和代码优化

为什么今天值得关注：Google AlphaEvolve 扩展访问同期，社区出现可复现实现

与我的相关性：中——用于自动优化攀岩 pose 检测算法；更偏研究向

上手成本：高（进化算法背景 + 复杂 agent 设计）

是否建议我收藏：是（了解原理）

是否建议我复现：暂不——先了解思路

一句话判断：AlphaEvolve 民主化的开始，值得关注但暂不深入

四、今日最值得看的 3 个链接

🥇 第一优先：arXiv:2505.12854——攀岩 Hold 检测数据集

https://arxiv.org/abs/2505.12854

为什么：攀岩 AI 数据集极度稀缺，这个专门针对 hold 使用检测的数据集直接填补你 app 的核心功能缺口。读完你就知道数据集是否可获取、标注方式是什么、keypoint-overlap 检测方法如何迁移。配合昨日的 ClimbingCap，构成你 app 最重要的两个数据来源。今天就读。

🥈 第二优先：Windsurf Wave 13 changelog + 实际上手

https://windsurf.com/changelog

为什么：SWE-1.5 免费开放至月底，并行 Agent + Git Worktree 是本周编码工具最大升级。这是限时机会。今天就切换到 Wave 13，在攀岩 app 项目中开启 2-3 个并行 agent，感受实际工作流，同时作为项目经历记录下来。

🥉 第三优先：Belay AI 竞品体验（belay.ai）

https://belay.ai

为什么：这是最接近你 app 方向的商业竞品。30 分钟的竞品体验价值远超读一篇论文——直接告诉你差异化机会在哪。注册账号，上传一段攀岩视频，记录功能和体验短板，写进项目的 motivation 部分。

五、今日行动清单

1. 今天值得收藏但不必立刻看的

MotionLLM 论文 — https://arxiv.org/abs/2405.20340

caramaschiHG/awesome-ai-agents-2026 — https://github.com/caramaschiHG/awesome-ai-agents-2026

codelion/OpenEvolve — https://huggingface.co/blog/codelion/openevolve

AI Dev Tool 2026 Power Rankings — https://blog.logrocket.com/ai-dev-tool-power-rankings/

Climbing Technique Evaluation via Skeleton Video — https://www.mdpi.com/1424-8220/23/19/8216

TechCrunch 2026 AI 实用主义转型 — https://techcrunch.com/2026/01/02/in-2026-ai-will-move-from-hype-to-pragmatism/

2. 今天值得精读的

「The Way Up」arXiv:2505.12854——重点看数据集规模、标注方式、keypoint-overlap 检测方法

Addison Osmani LLM Coding Workflow — https://addyosmani.com/blog/ai-coding-workflow/

Windsurf Wave 13 changelog——重点看并行 agent 和 Git Worktree 的配置方式

3. 今天值得复现 / 试用的

Windsurf Wave 13 上手：切换到最新版，在攀岩 app 项目中开启 2-3 个并行 agent，记录 workflow

Belay AI 竞品体验：注册账号，上传攀岩视频，记录功能和体验短板（30 分钟）

BitNet.cpp demo（可选）：下载 bitnet-b1.58-2B-4T，本地跑推理验证速度

4. 今天值得记到项目 Roadmap 的

Hold 检测模块：基于「The Way Up」数据集，加入 hold-level 分析作为 app 的差异化功能

竞品调研：Belay AI 功能缺口 → 你的 app 差异化机会点（写进 README 的 motivation 部分）

并行开发 workflow：用 Windsurf Wave 13 并行 agent 推进攀岩 app 多模块，记录 workflow 作为项目经历

LLM 选型 v2：Gemini 3.1 Flash-Lite（$0.25/M tokens）纳入视频帧批量分析成本模型

Edge 部署备选：BitNet.cpp + bitnet-b1.58-2B-4T 列为手机端长期部署技术路径

5. 今天面试里可以拿来讲的 1-2 个点

点 1（产品 + 技术双视角）：「我构建攀岩动作分析 app 时，不只是在写代码——我做了系统性的竞品调研（Belay AI）和学术调研（The Way Up 数据集、ClimbingCap CVPR 2025）。竞品调研发现商业产品在 hold-level feedback 颗粒度上有明显不足，学术调研找到了可填补这个缺口的数据集。这让我的项目有了清晰的差异化方向：从数据驱动的 hold 使用分析切入。」——展示：主动 market research + domain-specific research 能力

点 2（AI 工程实践）：「我在项目开发中使用了 Windsurf Wave 13 的并行 agent 功能，同时运行多个 coding agent 分别开发 pose estimation 模块、feedback 生成模块和前端 UI，通过 Git Worktree 隔离避免分支冲突。这让我对 multi-agent coordination 的实际挑战有了第一手理解——不只是理论上知道 agent，而是真正设计了 multi-agent workflow 并解决了实际问题。」——展示：agentic 工程实践经验