🔥 精选推荐
Anthropic 发布 Claude Fable 5,这是 Mythos 级模型面向大众的安全版本,几乎所有主流 benchmark 上都以明显优势刷新 SOTA,定价为每百万 token 输入 $10 / 输出 $50(仅为 GPT-5.5 Pro 的一半左右)。Nathan Lambert 指出,Fable 5 的真正争议在于安全策略的不对称性:对网络安全、生物等高风险请求自动降级到 Opus 4.8,同时暗中限制模型在前沿 LLM 开发方面的能力——Anthropic 明确表示担忧"加速其他 AI 开发者构建强大系统"。超过 95% 的用户会话不触发降级,但被触发时用户体验差异显著。
🦐点评:Anthropic 在 Fable 5 上做了一个前所未有的实验——用安全分类器动态选择性地阉割自家最强模型的特定能力。这本质上是在说"我们的模型太强了,不能让所有人都用全力版"。这种做法如果成为行业惯例,意味着 AI 能力的分发将从"谁付得起钱"变成"谁被允许用"——对依赖开源追赶的创业公司来说,护城河突然变深了一个数量级。
Ben Thompson 分析 WWDC 2026 的核心叙事:Apple 在 AI 技术上仍然落后最前沿,但这在消费市场可能并不重要。Siri AI 基于定制版 Gemini 衍生模型,通过 Vision LLM 读取屏幕信息,绕开了此前要求每个 app 单独适配的失败路径。Apple 开放 Core AI 库让开发者在 Apple 芯片上运行自己的模型。Thompson 的核心论点是:消费者不需要 SOTA AI,他们需要的是在自己设备上"足够好"的 AI——而 iPhone 独占的个人数据访问权正是这个差异化的来源。
🦐点评:Thompson 这篇文章的深层信号是——AI 竞赛正在分裂成两条赛道:面向开发者/企业的"最强模型"赛道,和面向消费者的"最懂你的模型"赛道。Apple 选择后者,用 Gemini 的模型 + 自己的芯片 + 用户数据这个三角来构建壁垒。对 VC 来说,这意味着投资 AI 应用要问清楚一个问题:你的产品在 Siri AI 能调用 App Intents 的世界里还有独立存在的价值吗?
Cognition(Devin 开发商)发布 FrontierCode 编程评测基准,核心创新是把评估标准从"能不能通过测试"提升到"代码能不能被合并"。150 个任务来自 36 个主流开源仓库,20+ 位维护者参与,每个任务投入 40+ 小时。评测覆盖六个维度:行为正确性、回归安全、机械整洁、测试质量、设计质量、人类可读性。三层难度中最难的 Diamond 层(50 题),目前最好的模型得分仍然很低。Claude Opus 4.8 和 GPT-5.5 并列领先。
🦐点评:FrontierCode 瞄准的是 SWE-bench 没解决的核心问题——模型写的代码"能跑"但没人敢 merge。METR 此前发现"很多通过 SWE-bench 的 PR 实际上不会被合并到 main",这直接挑战了整个 coding agent 赛道用 SWE-bench 分数做融资叙事的基础。如果 FrontierCode 成为新标准,Cursor/Devin/Codex 们需要重新证明自己——而 Cognition 作为出题方,天然拥有 benchmark 适配优势,这个裁判下场踢球的结构值得警惕。
Cohere 发布 North Mini Code,30B 参数 MoE 架构、仅 3B 活跃参数的开源编程模型(Apache 2.0),在 Artificial Analysis 的 Coding Index 上得分 33.4,超越了 Qwen3.5(35B-A3B)、Gemma 4(26B-A4B)、Devstral Small 2(24B Dense),甚至超越 120B 级别的 Nemotron 3 Super 和 Mistral Small 4。训练采用两阶段 SFT + 异步 RL(CISPO 目标函数),在 SWE-Bench Verified 上达 pass@1 约 47%+,同时支持多种 agent harness(SWE-Agent、mini-SWE-Agent、OpenCode)。
🦐点评:3B 活跃参数做到 120B 模型的编程水平——这个效率比对开源生态意义重大。Cohere 一直在企业市场苦苦寻找差异化,North Mini Code 的定位是"可以本地部署的 coding agent 大脑",直接瞄准那些因合规或成本无法用 Claude/GPT API 的企业客户。多 harness 兼容的设计思路也暗示 Cohere 押注的不是自己做 IDE 插件,而是成为各种 coding agent 框架的底层模型供应商。
a16z 与 AI 原生 ERP 公司 Rillet 合作,对 56 家客户的账务数据做了深度分析。核心发现:在使用现代 ERP 的公司中,99.86% 的记账分录已实现自动化,月末关账不再是突击战。87% 的公司月末需要人工处理的条目不到 1%。传统 ERP(如 NetSuite、Dynamics)采用批处理模式,而 Rillet 从零构建了交易到达即处理、持续关账的架构——这在技术上直到 AI 出现才真正可行。B2B 公司的月末工作量是 B2C 的 4 倍以上。
🦐点评:这篇文章的真正信号是——AI 正在让"持续关账"从会计理想变成工程现实,而这会重新定义 CFO 的工作方式和 ERP 市场的竞争格局。NetSuite(Oracle)和 Dynamics(Microsoft)的架构决定了它们很难原生支持持续关账,必须做大量改造。Rillet 的数据虽然有选择偏差(都是愿意用新工具的早期采纳者),但 99.86% 自动化率这个数字足以让传统 ERP 厂商感到恐慌。
📌 其他新闻
Claude Code 更新至 v2.1.170,正式接入 Claude Fable 5(Mythos 级模型)。同时修复了 VS Code 集成终端启动的 session 不保存 transcript 的问题。131k star。
Lenny Newsletter 的 Claire Vo 实测 Fable 5:能力跳跃明显,可以处理 15 页设计文档并连续工作 9+ 小时。但网络安全和生物分类器误报率较高,实际使用体验受限于安全过滤的过度触发。
一个 coding agent 通过读取 HuggingFace Spaces 的 agents.md 接口,串联 Ideogram4 图像生成和 TripoSplat 3D 重建两个 Space,自动完成了从 prompt 到 3D 高斯 splat 展示网站的全流程。展示了"积木经济"在多媒体 AI 中的雏形。
OpenAI 案例:Nextdoor 工程团队使用 Codex + GPT-5.5 调查难以复现的 bug、跨平台开发,将工程师从执行层面解放到产品层面。
Notion 使用 Codex 实现"一次性完成 spec"、为 Web 端构建 AI 语音输入功能,小团队的工程产出被显著放大。
🧠 AI 技术前沿
Karpathy 评价 Claude Fable 5:这是一次"大版本号级别"的能力跃升,与去年 11 月 Claude 4.5 发布时的质变感相当。在长时间、高难度问题解决上表现尤其突出,可以给模型比以往更有野心的任务。
查看推文 →
Claude Fable 5 已在 Cursor 中可用,在 CursorBench 上达到 72.9%,比此前最佳模型高出 8 个百分点,创下新纪录。
查看推文 →
Cognition 推出 FrontierCode 编程评测基准,把标准从"代码能用"提升到"代码能合并"。150 个任务来自 36 个开源仓库,评估维度包括行为正确性、回归安全、测试质量、设计质量等六项。Top2 模型:Claude Opus 4.8 和 GPT-5.5。
查看推文 →
Claude Code 上线一周年复盘:Boris Cherny 总结两条核心方法论——"错误即资产"(每次犯错写入 CLAUDE.md 而非口头纠正)和"验证不等于单元测试"(agent 要能自己跑起来验证结果)。
查看推文 →
Claude Fable 5 发布——好可能是好一些,但价格贵是真的贵,再搭配 Loop 使用,token 成本会急剧上升。
查看推文 →
用 Step 3.7 Flash 实测 Coding Agent 任务:从 Agent Memory 运行痕迹生成本地 Memory Inspector HTML 页面,能展示 memory events、structured facts、场景测试和敏感信息过滤。模型自动参考了 Letta、LangSmith、Mem0 等工具的展示方式。
查看推文 →
Fable 5 实际上不能用于网络安全任务——这正是它被广告宣传最多的领域。高风险领域的请求会被自动降级到 Opus 4.8 处理。
查看推文 →
Wix VP 推出的免费课程「Zero to Claude Code」已支持简体中文,作者专门用中文发布公告并感谢中文 AI 社区。
查看推文 →
🚀 创业动态
Ethan Mollick 提前拿到 Fable 5 测试权限:能力确实是一次真正的跃升,可以输入 15 页设计文档后连续工作 9 小时以上并交付出色结果。但使用体验"很怪",而且"更怪的还在后面"。
查看推文 →
TrustMRR 平台完成第 99 笔 startup 收购交易。卖家 @luchocruz_dev 在 13 天内售出其 GEO SaaS 产品——这是他今年的第三笔收购交易,而他只有 16 岁。
查看推文 →
Marc Lou 与 Escrow.com 合作改进 TrustMRR 的收购流程,通过新 API 自动上传收购协议(APA),解决了此前 30% 交易因 KYC/银行对账/法律文件审核不通过导致的阻塞问题。
查看推文 →
首次 Fable 5(Mythos)测试:上传一份麦肯锡报告,让它生成同等质量的文档。暗示结果令人印象深刻。
查看推文 →
VC 支持的 AI 公司公开虚报 ARR 的数量"令人不安"。
查看推文 →
BestBlogs 开源 RSS 订阅源后遭遇高频轮询,Nginx 纯反向代理 + 无压缩导致服务卡顿。通过增加 proxy_cache(5-10 分钟缓存)、cache_lock 防击穿、Gzip 压缩后,响应时间从数百毫秒降至 20ms 以内。
查看推文 →
💬 观点与洞察
Anthropic 可能在两周后取消 Fable 5 的订阅访问权限,这很奇怪。订阅使用是探索模型能力的最佳方式,只保留付费 API 访问会严重限制用户对模型的理解和投入意愿。
查看推文 →
2000+ 数学家签署 Leiden Declaration,Terence Tao 和 Peter Scholze 背书。核心观点不是"AI 被高估了",而是"人类判断力才是核心技能,不是 prompt"。AI 能产出看起来正确但实际错误的论证,验证责任必须留在人类手中。
查看推文 →
提醒:大众版 Fable 5 不是传闻中"满血"的 Mythos——发布前经过了大量 nerfing 和 guardrails 处理。
查看推文 →
OpenAI / Anthropic / SpaceX 一旦启动超级 IPO,市场上其他股票都将沦为提款机。
查看推文 →
Liquid Glass 在 WWDC 2026 的改进版本观感大幅提升:macOS Finder 更熟悉、侧边栏更干净、玻璃效果细节更锐利。Dynamic Island 到 Liquid Glass 的黑色渐变过渡是个巧妙的设计妥协。
查看推文 →
Pieter Levels 的打印机复古项目新进展:安装了 1994 年的 Print Shop Deluxe 2.0,用它生成巨幅横幅并通过网页版点阵打印机打印。
查看推文 →
企业花了十年收集数据却不知怎么用,现在用 AI 处理这些数据后比我们自己更了解自己——2.75 亿人的详细画像即将被激活。
查看推文 →
🔥 精选推荐
据 The Information 报道,Google 向英特尔下达超过 300 万颗 TPU 的代工订单,计划 2028 年交付。这是英特尔晶圆代工业务的标志性胜利——此前市场对其代工能力持怀疑态度。核心驱动力是台积电产能持续供不应求,迫使 Google 寻找替代方案。消息公布后英特尔盘前股价飙升 14%,报 113.20 美元,创历史新高。
🦐点评:300 万颗 TPU 的订单量级远超市场预期——这不是"试水",而是 Google 在用真金白银验证英特尔 18A 制程的量产能力。如果交付顺利,英特尔代工业务的叙事将从"烧钱自救"变成"第二增长极"。更深层的信号是:台积电的产能瓶颈已经严重到让 Google 这种体量的客户不得不分散风险。这对整个 AI 芯片供应链的竞争格局都是一次重大重塑。
英伟达与 SK 海力士签署多年度芯片设计与制造协议,为 Vera Rubin 加速器供应 HBM4 存储芯片,合作范围扩展至基础设施和物理 AI 领域。黄仁勋此前已确认批准三星、SK 海力士和美光三家供应 HBM4。SK 海力士在 HBM 市场本就领先三星,这次深度绑定 Nvidia 进一步巩固其地位。
🦐点评:Nvidia 和 SK 海力士的深度绑定意味着 HBM 供应链正在从"标准品采购"演变为"联合设计"模式——这对三星的追赶压力巨大。"物理 AI"被写入合作框架说明 Nvidia 已经把机器人和自动驾驶的算力需求纳入下一代芯片的设计约束,这是 Nvidia 从数据中心向物理世界扩张的又一个明确信号。
📌 其他值得看
"码上飞"以 AI 自动生成业务系统(宠物寄养平台、家政接单等)切入中小商户市场,已获盛景、奇绩创坛、复星、华为哈勃等近亿元投资。定位类似"义乌小店"版的 AI 应用开发。
MiMo V2.5 Pro UltraSpeed 号称全球首个达到 1000 Token/s 输出速度的万亿参数模型。实测完成复杂 3D 小游戏代码生成,速度体验显著优于同级模型。
分析微信"让 AI 调度小程序"的策略为何可能失败:未来用户的 Agent 将在系统层面接管手机能力,微信只是被调用的 app 之一。小程序的封闭生态反而成为 Agent 互操作的障碍。
反思 AI 创业圈的"低龄化炒作"现象:13 岁做出 100 个产品、初二学生获 20 万奖金的叙事背后,真正被杀死的是深耕技术的"神人"文化。年龄成了比能力更好的融资故事。
WWDC 2026 观后评价:新 Siri 本质上仍是"接了很多 API 的豆包",Apple 自己的 Agent 能力预计要到明年才能成熟。