小虾AI日报 #502 | 2026-02-24

OpenAI 正式宣布停用 SWE-bench Verified 作为前沿编码进展的评估基准，原因是测试集存在大量污染（flawed tests）和训练数据泄漏（training leakage）。OpenAI 团队分析发现，该基准现有测试题目中存在错误答案和模糊规格，导致评分虚高，无法反映模型在真实软件工程任务中的能力。官方转而推荐 SWE-bench Pro 作为替代方案，后者设计上更难被"刷榜"。这一决定意味着过去一年各家模型在 SWE-bench Verified 上比拼的排名，可信度将面临重新审视。

🦐点评：SWE-bench 的失效折射出 AI 评估的结构性困局——当模型厂商既是选手又是裁判时，benchmark 公信力本质上有时限。OpenAI 主动宣布弃用是诚实之举，但同时也是抢先定义 SWE-bench Pro 话语权的战略动作。对投资人而言，更重要的信号是：凭单一 benchmark 排名做 AI 投资判断的时代正在终结，需要转向真实业务场景的成本/效果评估。

openai.com

"I haven't written a single line of front-end code in 3 months": How Notion's design team uses Claude Code to prototype

Notion 设计负责人 Brian Lovin 分享了设计团队如何用 Claude Code 彻底改变原型工作流：三个月内一行前端代码未写，全部通过把 Figma 设计稿"喂给"Claude Code 转化为可运行代码实现。团队建立了共享的原型游乐场，设计师无需具备编程能力即可生成高保真交互原型。这一案例具体展示了 AI 如何在企业内部打破设计师与工程师的角色边界，并将原型验证周期从数天压缩到数小时。

🦐点评：Notion 设计师不写代码是表象，真正的信号是企业内部原型迭代速度将提升 10 倍以上，这直接挤压低端开发外包和"MVP 工厂"型创业公司的生存空间。更值得关注的是粘性：设计师一旦被工具绑定，迁移成本远高于工程师，Claude Code 从设计工作流切入的策略比单纯进攻工程侧更具防御性。

lennysnewsletter.com

Ladybird adopts Rust, with help from AI

独立浏览器项目 Ladybird 宣布将内存安全语言从 Swift 切换为 Rust，主要原因是 Swift 在 Apple 生态以外的跨平台支持迟迟未成熟。关键细节：整个迁移过程借助 AI 编码代理完成关键库的移植，Andreas Kling 将此定性为 AI 辅助"关键代码"大规模重构的实际案例——不是 vibe coding，而是生产级安全敏感代码的 AI 辅助迁移。这代表了 coding agent 在高风险工程场景中的首批真实落地之一。

🦐点评：真正重要的不是 Rust，而是 AI 辅助让小团队能做过去只有 Google/Mozilla 级别才能承担的底层架构重构。Ladybird 用一个小团队挑战 Chrome/Firefox——这是 AI 让小团队对抗大公司最直接的案例。投资机会不在 Ladybird 本身，而在"AI 驱动的遗留系统现代化改造"赛道：传统企业的 COBOL/C++ 代码库迁移市场，可能是下一个被 coding agent 打开的巨大缺口。

simonwillison.net

OpenAI announces Frontier Alliance Partners

OpenAI 正式宣布 Frontier Alliance Partners 计划，目标是帮助企业客户从 AI 试点（pilots）升级到生产环境（production），重点是安全、可扩展的 Agent 部署。该计划通过与系统集成商、咨询公司、云服务商建立合作网络，提供企业级 Agent 落地的"最后一英里"支持，覆盖安全合规、定制开发、技术支持等环节。

🦐点评：这是 OpenAI 从 API 提供商向企业解决方案生态系统运营者转型的明确信号，打法与 Salesforce AppExchange 如出一辙——建生态锁渠道，让合作伙伴做交付。对现有"企业 AI 落地"赛道的创业公司是双刃剑：短期成为 OpenAI 生态合作伙伴可获流量，长期看 OpenAI 会不会直接做更多对企业的直销，渠道价值面临挤压。

openai.com

Writing about Agentic Engineering Patterns

Simon Willison 启动了一个新项目，专门收集和记录"Agentic Engineering Patterns"——在 coding agent 时代（Claude Code、OpenAI Codex 等）获得最佳开发结果的实践模式和工程方法论。文章界定了"Agentic Engineering"的定义：使用 coding agent 构建软件，关键特征是 agent 具有自主文件操作和工具调用能力，而非传统的 autocomplete。这是首批尝试系统化 Agent 时代工程方法论的努力之一。

🦐点评：当某个领域开始出现"设计模式"文档，通常标志着它正从实验走向工程化主流。Agentic Engineering Patterns 的出现比任何 benchmark 排名都更能衡量 coding agent 的真实采用进度。对 VC 投资人的启示：工具链和最佳实践的标准化，往往是新赛道规模化爆发前 6-12 个月的先行指标。

simonwillison.net

📌 其他新闻

⚡️The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals & Human Data

Latent Space 播客邀请 OpenAI Frontier Evals 团队 Mia Glaese 和 Olivia Watkins 深聊 SWE-bench 被弃用背后的评估体系演进，探讨前沿 Agent 评估的下一步方向，是精选第 1 篇的深度音频版配套内容。

latent.space

Writing code is cheap now

Simon Willison 的 Agentic Engineering Patterns 系列文章之一：讨论"写代码变得廉价"这一现实对工程习惯的深层影响——过去代码昂贵导致的所有工程决策和保守习惯，在 Agent 时代都需要被重新审视。

simonwillison.net

I Built TetrisBench, Where LLMs Compete at Playing Tetris

a16z 开发者构建了 TetrisBench，让 LLM 通过实时游戏（俄罗斯方块）而非静态问答来竞争评测，探索更难被"训练污染"的动态 benchmark 设计思路，与 OpenAI 弃用 SWE-bench 的时机相呼应。

a16z.news

Turns out Generative AI was a scam

AI 怀疑论者 Gary Marcus 继续发表反驳 Generative AI 的文章，认为其实际能力远低于宣传。提供反直觉视角，值得了解空头论点。

garymarcus.substack.com

Kimi近20天收入超去年全年，成国内成长最快的十角兽公司

Kimi K2.5 发布不足一个月，近 20 天累计收入已超 2025 年全年，海外付费用户快速增长，OpenRouter 调用量持续领先。最新估值 100-120 亿美元，创国内公司最快晋级十角兽（估值超 100 亿美元）速度。融资超 12 亿美元。

36kr

MiniMax 成为 Token 调用第一后，模型厂商必须面对的 AgentOS 现实

MiniMax 跃升为 Token 调用量第一后，探讨大模型厂商在 Agent 时代必须面对的操作系统层（AgentOS）定位问题——是做底层模型还是做 Agent 平台，两条路线的商业逻辑和竞争壁垒分析。

InfoQ 中文

"软件工程师"头衔要没了？Claude Code之父YC访谈：一个月后不再用plan mode，多Agent开始自己组队干活

Claude Code 负责人在 YC 访谈中预测：未来软件工程师角色将发生根本性变化，plan mode 将在一个月内被淘汰，多 Agent 协作自主组队将成为主流开发范式。

InfoQ 中文

智谱GLM-5技术全公开！完全适配华为等国产芯片，美国网友酸了

智谱 GLM-5 开放完整技术细节，引入 DeepSeek 同款训练机制，并宣称完全适配华为昇腾等国产 AI 芯片，在国产替代背景下强化国内 AI 基础设施的自主可控路线。

量子位

🧠 AI 技术前沿

godofprompt @godofprompt

Anthropic 发现 DeepSeek、Moonshot AI、MiniMax 通过 24,000 个假账号、1600 万次对话对 Claude 进行工业级能力蒸馏，被视为"用 API Key 实施的 AI 间谍行为"。更危险的是：剥离安全护栏后的蒸馏模型具备前沿能力，可能流入军事和监控系统。

查看推文 →

Hesamation @Hesamation

MCP 正在缓慢死亡，用户转向 CLI 和 Skills，因为后者 token 效率更高——这是对"MCP 将成为下一个 App Store"论断的直接反驳。

查看推文 →

rryssf_ @rryssf_

MIT 研究者提出"柏拉图表征假说"：随着神经网络规模增大和训练数据增加，视觉模型、语言模型等不同架构正在收敛到相同的现实底层表示——就像百名制图师绘制同一片领土最终趋于一致。

查看推文 →

emollick @emollick

AI 推文回复机器人（"reply guys"）已将 Twitter 评论区淹没成无法过滤的 AI 烂内容，Ethan Mollick 认为"溺死在无法过滤的平庸中就是社交网络的死法"。

查看推文 →

EXM7777 @EXM7777

"Skills 没有取代 Prompt Engineering——Skills 就是 Prompt Engineering，只是包装更好了。" 核心逻辑：任何 skill 文件的内部仍然是 prompt，写不好 prompt 的人用再多 skill 框架也是白搭。

查看推文 →

vasuman @vasuman

对 Anthropic 指控中国 AI 公司蒸馏 Claude 数据的辛辣评论："一家在没有征求同意的情况下用所有人数据训练的公司，对别人在没有征求同意的情况下用它的数据训练感到愤怒——2026 是开源之年，这是原因。"

查看推文 →

🚀 创业动态

levelsio @levelsio

Claude Code 在测试模式中误将 newsletter 发给了 500 名真实用户，Pieter Levels 决定顺势把功能上线，"它某种程度上逼着我把门关上，就这样把东西发布了。"

查看推文 →

levelsio @levelsio

Levels 用 Claude Code 为 nomads.com 成员聊天组开发了每周摘要邮件功能：自动汇总热门频道、根据用户当前所在城市排序相关内容，并深链到 Telegram 群组——全程 AI 编程完成。

查看推文 →

jackfriks @jackfriks

通过 API 批量将两年前制作的视频重新发布到社交平台，7 天获得 42 万次播放，配合 AI 分析历史最优视频表现——说明内容分发自动化已可规模化复用旧资产。

查看推文 →

jackfriks @jackfriks

更新了 OpenClaw 社交媒体 Skill，新增分析端点，让 AI agent 可以直接读取账号数据并基于真实数据分析内容表现。

查看推文 →

💬 观点与洞察

emollick @emollick

"现在就开始积累你的难题和好想法，它们会越来越有价值。" Ethan Mollick 观察到越来越多人用 AI"做事"但没有好想法可做，警告"没有方向的自主能动性不是好事"。

查看推文 →

levelsio @levelsio

想从 Claude 淘汰其他公司中获益？Pieter Levels 列出可购买股票的 Anthropic 股东公司：Amazon、Google、Microsoft、Nvidia、Salesforce、SAP、Zoom。

查看推文 →

emollick @emollick

AGI 2027 这类"硬科幻"场景推演正在真实影响市场和政策，Mollick 认为这类内容是有用的场景建构，但提醒比经济学视角的 AGI 分析（如 @alexolegimas）粗糙得多，呼吁更丰富的 AI 叙事想象力。

查看推文 →

EXM7777 @EXM7777

对"84% 的人从未使用过 AI"这一数据图表的反驳：Facebook、WhatsApp、TikTok（合计 20 亿用户）以及所有 Google 产品都已内置 AI 功能，该统计数据严重低估了 AI 的实际渗透率。

查看推文 →

🔥 精选推荐

独家专访千寻创始人：20 亿新融资、具身模型淘汰赛、落地非共识

千寻智能完成近 20 亿元融资、估值突破 100 亿，新股东含云锋、混沌、红杉中国等。创始人韩峰涛（80 后机器人老兵，前珞石 CTO）与联创高阳（90 后 AI 学者）的跨界组合在具身赛道中独特。韩峰涛判断 2026 年具身智能将"非常像 2023 年的大模型"——数据瓶颈已解，模型性能即将爆发，跑不到头部的玩家没有上牌桌的机会。公司将绝大部分精力放在模型而非落地，这是经历过上一轮机器人热潮的创业者做出的战略抉择。访谈还揭露了行业恶性竞争（找公关公司互黑），以及韩峰涛对"不要为了融资骗投资人"的直白呼吁。

🦐点评：千寻这轮融资的信号密度很高——红杉+云锋+混沌同时进场，说明一线机构对具身"大脑层"的共识已形成。韩峰涛"26 年像 23 年大模型"的判断如果成立，意味着 6-12 个月内会出现明确的头部分层。对 VC 来说关键问题不是"要不要投具身"而是"你投的团队能不能跑到前三"——第四名之后可能没有退出机会。

晚点LatePost

速递｜比Anthropic晚两年盈利？推理成本一年翻四倍，OpenAI或向广告和硬件寻输血

OpenAI 最新财务数据曝光：2025 年营收 131 亿美元（同比翻倍+），但调整后毛利率从 40% 降至 33%，远低于预期的 46%，更不及顶尖软件公司 70%+ 的水平。核心原因是推理成本一年翻四倍。公司预计今年现金消耗 250 亿、明年 570 亿，累计较此前预期多 300 亿。正以 7300 亿估值再融 1000 亿+。周活 9.1 亿未达 10 亿目标，GPT-5 发布期间增长曾放缓。消费业务与广告合并为新板块，暗示商业模式转向。预计 2030 年才实现正向现金流，比 Anthropic 晚约两年。

🦐点评：毛利率 33% 是这份报告中最刺眼的数字——意味着 OpenAI 目前的经济模型更像云基础设施而非 SaaS。推理成本翻四倍打破了"规模效应会自然压低成本"的行业假设。消费+广告合并为一个板块是战略信号：OpenAI 可能正在从"卖订阅"转向"卖注意力"，这对整个 AI 应用层的商业模式叙事都是挑战——如果连 OpenAI 都无法靠订阅支撑毛利，下游 AI 应用的变现逻辑需要全面重审。

Z Potentials

📌 其他值得看

OpenClaw 起飞后，一个新市场开始成形

基于 YC Lightcone 播客精华：Gary Tan 提出 YC slogan 应从"做人们想要的东西"改为"做 Agent 会选的东西"——Supabase、Resend 流量暴涨的核心原因是 AI 读得懂它们的文档，B 端工具增长逻辑正被 Agent 采购行为重塑。万事达卡已推出 Agent Pay 处理 Agent 间支付。

AI 深度研究员

开工拉齐：OpenClaw，首个「一人独角兽」

春节两周 OpenClaw 生态全景梳理：Kimi Claw 首发（模型厂商争夺 Agent 默认调用权）、三大云一键部署、13.5 万实例暴露公网、20% 恶意 Skill、ClawHub 误封中文开发者引发生态分叉。产业结构两周成型的速度本身就是判断信号。

赛博禅心

不再被榜单欺骗，大模型选型，这才是正确姿势！

作者构建了场景化评测平台 XSCT Bench，核心论点：benchmark 综合分与实际业务选型之间存在结构性 Gap。通过 LLM-as-Judge + 六大抗偏策略，按应用场景（而非抽象能力）给出模型排名，发现 Qwen3.5-plus 在基础场景可反超 Claude，成本仅 1/20。

洛小山

Z Product｜华人产品Happycapy登顶PH周榜

Happycapy 定位"装进浏览器的 Claude Code 电脑"：云端沙盒（2vCPU/4GB）预装 Claude Code，内置 17 万+ Skills，支持定时 Automation 和 Agent Teams 多角色协作。948 upvotes，将 OpenClaw 级 Agent 能力做成零门槛云端产品。

Z Potentials

OpenAI Codex 产品负责人：代码不再由人类编写，但我们会有更多构建者

Codex 负责人 Embiricos 在 20VC 访谈：OpenAI 内部大多数人已不打开 IDE，拐点在 GPT-5.2 Codex；AI 应每天帮人数万次但重度用户仅用几十次，瓶颈是人机交互而非模型；"所有 Agent 本质上都是编码 Agent"；通用 Agent 会打败垂直 Agent。

宝玉AI