🔥 精选推荐

OpenAI 正式宣布停用 SWE-bench Verified 作为前沿编码进展的评估基准,原因是测试集存在大量污染(flawed tests)和训练数据泄漏(training leakage)。OpenAI 团队分析发现,该基准现有测试题目中存在错误答案和模糊规格,导致评分虚高,无法反映模型在真实软件工程任务中的能力。官方转而推荐 SWE-bench Pro 作为替代方案,后者设计上更难被"刷榜"。这一决定意味着过去一年各家模型在 SWE-bench Verified 上比拼的排名,可信度将面临重新审视。
🦐点评:SWE-bench 的失效折射出 AI 评估的结构性困局——当模型厂商既是选手又是裁判时,benchmark 公信力本质上有时限。OpenAI 主动宣布弃用是诚实之举,但同时也是抢先定义 SWE-bench Pro 话语权的战略动作。对投资人而言,更重要的信号是:凭单一 benchmark 排名做 AI 投资判断的时代正在终结,需要转向真实业务场景的成本/效果评估。
openai.com
Notion 设计负责人 Brian Lovin 分享了设计团队如何用 Claude Code 彻底改变原型工作流:三个月内一行前端代码未写,全部通过把 Figma 设计稿"喂给"Claude Code 转化为可运行代码实现。团队建立了共享的原型游乐场,设计师无需具备编程能力即可生成高保真交互原型。这一案例具体展示了 AI 如何在企业内部打破设计师与工程师的角色边界,并将原型验证周期从数天压缩到数小时。
🦐点评:Notion 设计师不写代码是表象,真正的信号是企业内部原型迭代速度将提升 10 倍以上,这直接挤压低端开发外包和"MVP 工厂"型创业公司的生存空间。更值得关注的是粘性:设计师一旦被工具绑定,迁移成本远高于工程师,Claude Code 从设计工作流切入的策略比单纯进攻工程侧更具防御性。
lennysnewsletter.com
独立浏览器项目 Ladybird 宣布将内存安全语言从 Swift 切换为 Rust,主要原因是 Swift 在 Apple 生态以外的跨平台支持迟迟未成熟。关键细节:整个迁移过程借助 AI 编码代理完成关键库的移植,Andreas Kling 将此定性为 AI 辅助"关键代码"大规模重构的实际案例——不是 vibe coding,而是生产级安全敏感代码的 AI 辅助迁移。这代表了 coding agent 在高风险工程场景中的首批真实落地之一。
🦐点评:真正重要的不是 Rust,而是 AI 辅助让小团队能做过去只有 Google/Mozilla 级别才能承担的底层架构重构。Ladybird 用一个小团队挑战 Chrome/Firefox——这是 AI 让小团队对抗大公司最直接的案例。投资机会不在 Ladybird 本身,而在"AI 驱动的遗留系统现代化改造"赛道:传统企业的 COBOL/C++ 代码库迁移市场,可能是下一个被 coding agent 打开的巨大缺口。
simonwillison.net
OpenAI 正式宣布 Frontier Alliance Partners 计划,目标是帮助企业客户从 AI 试点(pilots)升级到生产环境(production),重点是安全、可扩展的 Agent 部署。该计划通过与系统集成商、咨询公司、云服务商建立合作网络,提供企业级 Agent 落地的"最后一英里"支持,覆盖安全合规、定制开发、技术支持等环节。
🦐点评:这是 OpenAI 从 API 提供商向企业解决方案生态系统运营者转型的明确信号,打法与 Salesforce AppExchange 如出一辙——建生态锁渠道,让合作伙伴做交付。对现有"企业 AI 落地"赛道的创业公司是双刃剑:短期成为 OpenAI 生态合作伙伴可获流量,长期看 OpenAI 会不会直接做更多对企业的直销,渠道价值面临挤压。
openai.com
Simon Willison 启动了一个新项目,专门收集和记录"Agentic Engineering Patterns"——在 coding agent 时代(Claude Code、OpenAI Codex 等)获得最佳开发结果的实践模式和工程方法论。文章界定了"Agentic Engineering"的定义:使用 coding agent 构建软件,关键特征是 agent 具有自主文件操作和工具调用能力,而非传统的 autocomplete。这是首批尝试系统化 Agent 时代工程方法论的努力之一。
🦐点评:当某个领域开始出现"设计模式"文档,通常标志着它正从实验走向工程化主流。Agentic Engineering Patterns 的出现比任何 benchmark 排名都更能衡量 coding agent 的真实采用进度。对 VC 投资人的启示:工具链和最佳实践的标准化,往往是新赛道规模化爆发前 6-12 个月的先行指标。
simonwillison.net

📌 其他新闻

Latent Space 播客邀请 OpenAI Frontier Evals 团队 Mia Glaese 和 Olivia Watkins 深聊 SWE-bench 被弃用背后的评估体系演进,探讨前沿 Agent 评估的下一步方向,是精选第 1 篇的深度音频版配套内容。
latent.space
Simon Willison 的 Agentic Engineering Patterns 系列文章之一:讨论"写代码变得廉价"这一现实对工程习惯的深层影响——过去代码昂贵导致的所有工程决策和保守习惯,在 Agent 时代都需要被重新审视。
simonwillison.net
a16z 开发者构建了 TetrisBench,让 LLM 通过实时游戏(俄罗斯方块)而非静态问答来竞争评测,探索更难被"训练污染"的动态 benchmark 设计思路,与 OpenAI 弃用 SWE-bench 的时机相呼应。
a16z.news
AI 怀疑论者 Gary Marcus 继续发表反驳 Generative AI 的文章,认为其实际能力远低于宣传。提供反直觉视角,值得了解空头论点。
garymarcus.substack.com
Kimi K2.5 发布不足一个月,近 20 天累计收入已超 2025 年全年,海外付费用户快速增长,OpenRouter 调用量持续领先。最新估值 100-120 亿美元,创国内公司最快晋级十角兽(估值超 100 亿美元)速度。融资超 12 亿美元。
36kr
MiniMax 跃升为 Token 调用量第一后,探讨大模型厂商在 Agent 时代必须面对的操作系统层(AgentOS)定位问题——是做底层模型还是做 Agent 平台,两条路线的商业逻辑和竞争壁垒分析。
InfoQ 中文
Claude Code 负责人在 YC 访谈中预测:未来软件工程师角色将发生根本性变化,plan mode 将在一个月内被淘汰,多 Agent 协作自主组队将成为主流开发范式。
InfoQ 中文
智谱 GLM-5 开放完整技术细节,引入 DeepSeek 同款训练机制,并宣称完全适配华为昇腾等国产 AI 芯片,在国产替代背景下强化国内 AI 基础设施的自主可控路线。
量子位

🧠 AI 技术前沿

godofprompt @godofprompt
Anthropic 发现 DeepSeek、Moonshot AI、MiniMax 通过 24,000 个假账号、1600 万次对话对 Claude 进行工业级能力蒸馏,被视为"用 API Key 实施的 AI 间谍行为"。更危险的是:剥离安全护栏后的蒸馏模型具备前沿能力,可能流入军事和监控系统。
查看推文 →
Hesamation @Hesamation
MCP 正在缓慢死亡,用户转向 CLI 和 Skills,因为后者 token 效率更高——这是对"MCP 将成为下一个 App Store"论断的直接反驳。
查看推文 →
rryssf_ @rryssf_
MIT 研究者提出"柏拉图表征假说":随着神经网络规模增大和训练数据增加,视觉模型、语言模型等不同架构正在收敛到相同的现实底层表示——就像百名制图师绘制同一片领土最终趋于一致。
查看推文 →
emollick @emollick
AI 推文回复机器人("reply guys")已将 Twitter 评论区淹没成无法过滤的 AI 烂内容,Ethan Mollick 认为"溺死在无法过滤的平庸中就是社交网络的死法"。
查看推文 →
EXM7777 @EXM7777
"Skills 没有取代 Prompt Engineering——Skills 就是 Prompt Engineering,只是包装更好了。" 核心逻辑:任何 skill 文件的内部仍然是 prompt,写不好 prompt 的人用再多 skill 框架也是白搭。
查看推文 →
vasuman @vasuman
对 Anthropic 指控中国 AI 公司蒸馏 Claude 数据的辛辣评论:"一家在没有征求同意的情况下用所有人数据训练的公司,对别人在没有征求同意的情况下用它的数据训练感到愤怒——2026 是开源之年,这是原因。"
查看推文 →

🚀 创业动态

levelsio @levelsio
Claude Code 在测试模式中误将 newsletter 发给了 500 名真实用户,Pieter Levels 决定顺势把功能上线,"它某种程度上逼着我把门关上,就这样把东西发布了。"
查看推文 →
levelsio @levelsio
Levels 用 Claude Code 为 nomads.com 成员聊天组开发了每周摘要邮件功能:自动汇总热门频道、根据用户当前所在城市排序相关内容,并深链到 Telegram 群组——全程 AI 编程完成。
查看推文 →
jackfriks @jackfriks
通过 API 批量将两年前制作的视频重新发布到社交平台,7 天获得 42 万次播放,配合 AI 分析历史最优视频表现——说明内容分发自动化已可规模化复用旧资产。
查看推文 →
jackfriks @jackfriks
更新了 OpenClaw 社交媒体 Skill,新增分析端点,让 AI agent 可以直接读取账号数据并基于真实数据分析内容表现。
查看推文 →

💬 观点与洞察

emollick @emollick
"现在就开始积累你的难题和好想法,它们会越来越有价值。" Ethan Mollick 观察到越来越多人用 AI"做事"但没有好想法可做,警告"没有方向的自主能动性不是好事"。
查看推文 →
levelsio @levelsio
想从 Claude 淘汰其他公司中获益?Pieter Levels 列出可购买股票的 Anthropic 股东公司:Amazon、Google、Microsoft、Nvidia、Salesforce、SAP、Zoom。
查看推文 →
emollick @emollick
AGI 2027 这类"硬科幻"场景推演正在真实影响市场和政策,Mollick 认为这类内容是有用的场景建构,但提醒比经济学视角的 AGI 分析(如 @alexolegimas)粗糙得多,呼吁更丰富的 AI 叙事想象力。
查看推文 →
EXM7777 @EXM7777
对"84% 的人从未使用过 AI"这一数据图表的反驳:Facebook、WhatsApp、TikTok(合计 20 亿用户)以及所有 Google 产品都已内置 AI 功能,该统计数据严重低估了 AI 的实际渗透率。
查看推文 →

🔥 精选推荐

千寻智能完成近 20 亿元融资、估值突破 100 亿,新股东含云锋、混沌、红杉中国等。创始人韩峰涛(80 后机器人老兵,前珞石 CTO)与联创高阳(90 后 AI 学者)的跨界组合在具身赛道中独特。韩峰涛判断 2026 年具身智能将"非常像 2023 年的大模型"——数据瓶颈已解,模型性能即将爆发,跑不到头部的玩家没有上牌桌的机会。公司将绝大部分精力放在模型而非落地,这是经历过上一轮机器人热潮的创业者做出的战略抉择。访谈还揭露了行业恶性竞争(找公关公司互黑),以及韩峰涛对"不要为了融资骗投资人"的直白呼吁。
🦐点评:千寻这轮融资的信号密度很高——红杉+云锋+混沌同时进场,说明一线机构对具身"大脑层"的共识已形成。韩峰涛"26 年像 23 年大模型"的判断如果成立,意味着 6-12 个月内会出现明确的头部分层。对 VC 来说关键问题不是"要不要投具身"而是"你投的团队能不能跑到前三"——第四名之后可能没有退出机会。
晚点LatePost
OpenAI 最新财务数据曝光:2025 年营收 131 亿美元(同比翻倍+),但调整后毛利率从 40% 降至 33%,远低于预期的 46%,更不及顶尖软件公司 70%+ 的水平。核心原因是推理成本一年翻四倍。公司预计今年现金消耗 250 亿、明年 570 亿,累计较此前预期多 300 亿。正以 7300 亿估值再融 1000 亿+。周活 9.1 亿未达 10 亿目标,GPT-5 发布期间增长曾放缓。消费业务与广告合并为新板块,暗示商业模式转向。预计 2030 年才实现正向现金流,比 Anthropic 晚约两年。
🦐点评:毛利率 33% 是这份报告中最刺眼的数字——意味着 OpenAI 目前的经济模型更像云基础设施而非 SaaS。推理成本翻四倍打破了"规模效应会自然压低成本"的行业假设。消费+广告合并为一个板块是战略信号:OpenAI 可能正在从"卖订阅"转向"卖注意力",这对整个 AI 应用层的商业模式叙事都是挑战——如果连 OpenAI 都无法靠订阅支撑毛利,下游 AI 应用的变现逻辑需要全面重审。
Z Potentials

📌 其他值得看

基于 YC Lightcone 播客精华:Gary Tan 提出 YC slogan 应从"做人们想要的东西"改为"做 Agent 会选的东西"——Supabase、Resend 流量暴涨的核心原因是 AI 读得懂它们的文档,B 端工具增长逻辑正被 Agent 采购行为重塑。万事达卡已推出 Agent Pay 处理 Agent 间支付。
AI 深度研究员
春节两周 OpenClaw 生态全景梳理:Kimi Claw 首发(模型厂商争夺 Agent 默认调用权)、三大云一键部署、13.5 万实例暴露公网、20% 恶意 Skill、ClawHub 误封中文开发者引发生态分叉。产业结构两周成型的速度本身就是判断信号。
赛博禅心
作者构建了场景化评测平台 XSCT Bench,核心论点:benchmark 综合分与实际业务选型之间存在结构性 Gap。通过 LLM-as-Judge + 六大抗偏策略,按应用场景(而非抽象能力)给出模型排名,发现 Qwen3.5-plus 在基础场景可反超 Claude,成本仅 1/20。
洛小山
Happycapy 定位"装进浏览器的 Claude Code 电脑":云端沙盒(2vCPU/4GB)预装 Claude Code,内置 17 万+ Skills,支持定时 Automation 和 Agent Teams 多角色协作。948 upvotes,将 OpenClaw 级 Agent 能力做成零门槛云端产品。
Z Potentials
Codex 负责人 Embiricos 在 20VC 访谈:OpenAI 内部大多数人已不打开 IDE,拐点在 GPT-5.2 Codex;AI 应每天帮人数万次但重度用户仅用几十次,瓶颈是人机交互而非模型;"所有 Agent 本质上都是编码 Agent";通用 Agent 会打败垂直 Agent。
宝玉AI