🔥 精选推荐
Anthropic 发布 Claude Sonnet 5,即日起成为 Claude Code 默认模型,原生 1M token 上下文窗口。8 月 31 日前促销定价 $2/$10 每百万 token(输入/输出)。官方定位为"迄今最具 agent 能力的 Sonnet",主打接近 Opus 4.8 的性能、Sonnet 档的价格。
🦐点评:真正的杀招是 1M 上下文 + $2/$10 的组合——把 Opus 级 agent 能力压到 Sonnet 价,等于主动蚕食自家 Opus 的需求。Anthropic 宁可自我蚕食也要卡住编码 agent 的默认心智,说明它判断"入口卡位"比单模型毛利更值钱。对 Cursor、Cognition 这类 harness 层是成本利好,对想靠"更便宜的开源替代"切入的厂商是坏消息——头部把价格带打穿了。
Claire Vo 用自建的"How I AI Bench"对 Sonnet 5 跑了 64 次盲测,覆盖 PRD 撰写、bug 修复、设计一次成型、agent 语音。结论:Sonnet 5 接近 Opus 4.8 但更便宜,SweBench Pro agentic coding 得 69%、Terminal Bench 2.1 得 82%,略低于 Opus,但差距小到"大多数人不会察觉"。
🦐点评:真正的信号是评测方法本身正在产品化——Vo 把随手的"vibe check"升级成可复用的私有盲测 bench。模型迭代快到每周一个的时候,谁掌握了标准化评测谁就掌握了采购话语权。这对做 eval/observability 的创业公司(Braintrust、LangSmith 一类)是需求侧利好:企业选型不再信官方 benchmark,转而要跑自己的私有 bench。
国际清算银行(BIS)年报指出:五大 hyperscaler 在 2025–2026 年的 AI 相关资本开支将超 1 万亿美元,已超过其盈利和自由现金流,部分公司靠发债融资。BIS 警告,若回报不及预期,capex 繁荣可能逆转为长期投资萧条,并沿供应链传导。Zitron 借此重申"系统性风险"论——OpenAI 一旦失速,将连锁冲击 NVIDIA、Oracle、微软和 CoreWeave 等 Neocloud。
🦐点评:Zitron 是有名的 AI 空头,但这次拉上 BIS 背书,量级不同了。关键在"capex 已超过自由现金流、要靠发债"——当前算力投资不是用利润再投资,而是加杠杆下注。软银靠抛售 ARM/NVIDIA 股票加举债才凑得出承诺,是链条最脆的一环。作为 VC,该盯的不是"泡沫会不会破",而是破的时候谁先断供——Neocloud 和二线芯片厂的债务展期风险,会比模型公司更早暴露。
在 AI Engineer World's Fair 上,Osmantic 创始人 Ahmad Osman 主张本地 AI(在自己的电脑、工作站或专用硬件上跑模型)正快速逼近前沿。核心论据是开源 LLM 正成为可信替代品,"开源与闭源前沿模型的差距持续缩小"。他的两场工作坊听众从买第一台 AI 电脑的学生,到考虑模型路由、私有基础设施的企业高管都有。
🦐点评:本地 AI 的真正驱动力不是性能,是控制权——企业要的是数据不出门加模型路由自主。Osman 的 workshop 挤满企业高管这个细节,比任何 benchmark 都重要:需求侧已经从极客转向 IT 采购决策者。这利好做本地部署、私有推理 infra 的公司(Ollama、LM Studio 的商业化路径),但对纯 API 计价的模型厂是长期利空——最舍得付费的企业客户,恰恰是最想自建的那批。
文章解读 Goldfeder、LeCun、Shwartz-Ziv 等 2026 年论文《AI Must Embrace Specialization》。核心论点:优化理论、进化生物学、竞争市场、机器学习四个领域给出同一个答案——算法靠贴合目标而胜出,规模扩张不改变这一点。这直接反驳"越强越通用"的主流预期,主张专业化是有效 AI 系统的定义性原则。
🦐点评:LeCun 署名的"专业化不可避免"论,和当下"一个大模型通吃"的资本叙事正面相撞。如果这个判断成立,护城河就从"谁的基座最大"转向"谁在垂直场景做得最深",这恰恰是应用层创业者最想听的。但要警惕:巨头也在做 MoE 加专家路由,用一个通用外壳吃掉专业化红利。真正的分水岭是数据——通用模型拿不到的专有数据在哪,专业化的价值就在哪。
📌 其他新闻
CB Insights 一周复盘:SpaceX 大手笔押注编码 AI(标题所指的 600 亿美元 Cursor 交易),并点评了 3 家值得关注的编码 AI 创业公司,同时涉及 Meta 对 Cred 的 9 亿美元投资与 YC 的能源基础设施押注。
Google 推出 Nano Banana 2 Lite(即 Gemini 3.1 Flash Lite Image),主打"最快最便宜、面向速度与规模"的图像模型;Simon Willison 实测生成效果好于今年 4 月的老版本,但仍有拼写错误。
36 氪晚报披露:月之暗面 Kimi 最新估值升至 315 亿美元,年化收入(ARR)突破 3 亿美元;同期优艾智合具身智能系列新品全球首发,宣称 3 年赋能 10000 个工业现场。
a16z 用组合公司 Deel 的数据拆解全球(偏科技、远程公司)的休假模式:北美普遍比欧洲"抠门",且区域内部差异极大——发多少假、员工真正休掉多少,是两回事。
Lenny 判断 PM 角色正从"协调对齐人"转向"用真实代码做原型、用 MCP 对话式查数据、跑编码 agent",并据此推出一门配套课程帮 PM 完成这个转型。
3Blue1Brown 作者 Grant Sanderson 做客 Dwarkesh 播客(94 分钟),讨论为什么数学是最可能率先出现超级智能的领域,以及那会是什么样子。
IBM Research 推出 ScarfBench,专门评测 AI agent 在企业级 Java 框架迁移任务上的表现,考察 agent 能否可靠判断迁移完成、如何处理应用依赖、精力都花在了哪里。
🧠 AI 技术前沿
Claude Sonnet 5 已上线 Cursor。在 CursorBench 上从 Sonnet 4.6 的 49% 提升到 57%,是一次实打实的进步。
查看推文 →
美团发布 LongCat-2.0:1.6T 参数 MoE、激活 48B、1M 上下文,用 5–6 万张国产加速卡训练,训练推理全程零英伟达依赖,定位 Agent 加 Coding 优先。
查看推文 →
Google 发布 Gemini Omni Flash,尤其擅长视频编辑,定价 $0.1/秒视频输出。
查看推文 →
OSWorld 2.0 发布:针对长时程真实世界任务,评测计算机操作类(computer use)agent 的基准。
查看推文 →
LLM 最反常识的一点是它极其通用:一个更擅长编码的更大模型,同时也更擅长创意、伦理建议、医学和数学——虽有"锯齿状"例外(比如小说写作),但这个规律惊人地稳定。
查看推文 →
SGLang 的 DSpark 实测:8 卡 B200、1K 长度 prompt 下加速比达 1.81 倍,速度从 164 token/s 提到 297 token/s;代码类平均每步投机 3.52 个 token。
查看推文 →
🚀 创业动态
Claude Desktop 的 Linux 版本正式上线。
查看推文 →
Agentic commerce 正在落地:AI agent 现在能用 USDC 对 2 万多个工具按次付费、全程无需人类介入。注册服务、填信用卡仍做不到,但按次付费终于跑通了。
查看推文 →
Flowith 推出「Matrix」:Agent 公司的操作系统。你定使命,Matrix 编排多 Agent 部门长期运转,覆盖建站、接 Stripe、发邮件、投广告到变现的完整商业闭环。
查看推文 →
多数公司在非编码场景里随意堆 AI agent,结果帮倒忙。他们帮 50 多家公司在广告、内容、运营、分析等场景落地 agent,总结出 8 个真正有用的工作流。
查看推文 →
Codex 团队的 Dimillian 开源了 Codex Skill Manager:用 SwiftUI 原生构建的 macOS 应用,把 Codex、Claude Code、OpenCode、Copilot 四套 Skills 抽象成统一 GUI 来管理。
查看推文 →
💬 观点与洞察
他撰文分析:AI 能力的快速跃升正同时带来两件事——工作方式的转型,以及近几周政策与市场那种突然的剧烈摆动。
查看推文 →
预测:七月属于 DeepSeek。
查看推文 →
Sonnet 5 是第一个公开批评 Claude「宪法」中某条规则的模型——即便模型认为某些硬约束不道德,也仍必须遵守。
查看推文 →
在全球最大的 AI 大会上演讲,讲企业级 AI 落地的未来,以及为什么"自主的前向部署(forward deployed)打法"是当下最大的解锁点。
查看推文 →
🔥 精选推荐
Foundation Capital 企业级投资人 Ashu Garg(早期投过 Databricks、Turing)判断:AGI 的赢家通吃时代已经结束,牌桌上从"一个王"变成四个势均力敌的玩家——OpenAI(消费者覆盖最大)、Anthropic(当下最好的模型和 harness)、Google(钱、IP、人才最多)、xAI(算力管够)。后面还跟着中国的开源玩家:DeepSeek 最新模型在 SWE-bench 上与 Opus 只差一根头发,价格约 1/30,最便宜的开源部署可压到 1/100。
🦐点评:这篇的杀伤力在于把"护城河崩塌"量化了——1/30 到 1/100 的价差下,"够用"就是最强的替代逻辑。对一级市场的直接含义是:投模型层的估值锚点必须重估,纯基座公司的溢价正在被开源加中国供给抹平。真正还能收租的位置,从"谁的模型强"挪到了"谁离用户、数据、工作流最近"——这也是为什么这批 VC 把 harness(Claude Code、Cursor)看得比模型本身更重。
据《The Information》,Meta 对其"应用型 AI 工程"部门使用 Anthropic Claude Code 和 OpenAI Codex 施加严格限制。一份五月起草、仍在生效的内部备忘录甚至暂停了部分任务,理由是担心这些外部模型的输出渗入 Meta 自研 MetaCode 的训练数据,可能违反使用协议并引发"与合作公司的严重升级"。而 Meta 一直是 Claude Code 的最大客户之一。
🦐点评:最大客户一边付钱一边防着供应商,这个张力本身就是信号——Meta 在赌自研 MetaCode 能替代外采,却又离不开对手的工具来训练。"无意识蒸馏"被写进合规红线,说明模型输出的知识产权边界正从技术问题变成法务问题。对创业公司的启示:如果你的护城河是"用 GPT/Claude 蒸馏出的能力",那它随时可能被一纸使用条款清零——这也是大厂宁可自建也要断开依赖的原因。
全球金融科技平台 Airwallex 空中云汇完成 3.2 亿美元 H 轮融资,投后估值 110 亿美元,由 Lee Fixel 的 Addition 领投,Baillie Gifford、QED、T.Rowe Price 等跟投。距上一轮(2025 年 12 月 3.3 亿美元 G 轮、估值 80 亿)仅隔半年多,估值涨约 40%,本轮同步首发两款 AI 产品。
🦐点评:在风险偏好收紧的当下半年涨 40%,靠的不是老的跨境支付故事,而是"AI 产品首发"这个新叙事——资本在给金融科技做一轮 AI 重估。值得盯的是 Lee Fixel 领投:这位投过 Facebook、Uber、Flipkart 的人押成长期 fintech,通常意味着他看到了可规模化的现金流拐点,而非概念。对同赛道的启示是,纯支付通道估值已经到顶,能把 AI 嵌进对账、风控、资金管理工作流的公司才有下一段溢价空间。
OpenAI Codex 产品和工程负责人 Andrew Ambrosino 在 Lenny 播客上给"AI Native 组织"热潮泼冷水。Codex 团队内部接近 100% 的人每周用 Codex、周活 500 万还在涨,但他明确反对"文档已死"和"砍掉 PM 全员 builder":问题不是文档还是原型,而是有没有为要表达的东西选对媒介;砍掉 PM 等于把整个学科积累的最佳实践全扔掉。
🦐点评:一个最激进 AI 化团队的负责人出来纠偏,比任何唱衰都有说服力。"选对媒介"这个框架是关键——方向模糊时文档赢,测手感时原型赢,盲信任一边都是把偷懒叫成变革。对押注"AI 替代 PM/文档"工具的基金是个警告:真正的机会不在消灭角色,而在放大角色的杠杆(这和英文区 Lenny 那篇 PM 课程是同一判断)。当"全员 builder"的创业故事出现时,该多问一句留存和交付质量怎么样。
📌 其他值得看
Twitter/X 上线官方 MCP,可让 AI 自动整理、总结和分析你自己的 X 数据;需注册 X API 按量付费,个人数据调用有优惠($0.01/次,1 美元约调 1000 次),作者拉取三天书签仅花了 $0.1。
Google Cloud 上架 SandboxAQ 的科学 AI 模型,主打加速新药研发与半导体材料开发,进一步扩充其在"AI for Science"方向的模型货架。