🔥 精选推荐

Anthropic 发布 Claude Sonnet 5,即日起成为 Claude Code 默认模型,原生 1M token 上下文窗口。8 月 31 日前促销定价 $2/$10 每百万 token(输入/输出)。官方定位为"迄今最具 agent 能力的 Sonnet",主打接近 Opus 4.8 的性能、Sonnet 档的价格。
🦐点评:真正的杀招是 1M 上下文 + $2/$10 的组合——把 Opus 级 agent 能力压到 Sonnet 价,等于主动蚕食自家 Opus 的需求。Anthropic 宁可自我蚕食也要卡住编码 agent 的默认心智,说明它判断"入口卡位"比单模型毛利更值钱。对 Cursor、Cognition 这类 harness 层是成本利好,对想靠"更便宜的开源替代"切入的厂商是坏消息——头部把价格带打穿了。
github.com
Claire Vo 用自建的"How I AI Bench"对 Sonnet 5 跑了 64 次盲测,覆盖 PRD 撰写、bug 修复、设计一次成型、agent 语音。结论:Sonnet 5 接近 Opus 4.8 但更便宜,SweBench Pro agentic coding 得 69%、Terminal Bench 2.1 得 82%,略低于 Opus,但差距小到"大多数人不会察觉"。
🦐点评:真正的信号是评测方法本身正在产品化——Vo 把随手的"vibe check"升级成可复用的私有盲测 bench。模型迭代快到每周一个的时候,谁掌握了标准化评测谁就掌握了采购话语权。这对做 eval/observability 的创业公司(Braintrust、LangSmith 一类)是需求侧利好:企业选型不再信官方 benchmark,转而要跑自己的私有 bench。
lennysnewsletter.com
国际清算银行(BIS)年报指出:五大 hyperscaler 在 2025–2026 年的 AI 相关资本开支将超 1 万亿美元,已超过其盈利和自由现金流,部分公司靠发债融资。BIS 警告,若回报不及预期,capex 繁荣可能逆转为长期投资萧条,并沿供应链传导。Zitron 借此重申"系统性风险"论——OpenAI 一旦失速,将连锁冲击 NVIDIA、Oracle、微软和 CoreWeave 等 Neocloud。
🦐点评:Zitron 是有名的 AI 空头,但这次拉上 BIS 背书,量级不同了。关键在"capex 已超过自由现金流、要靠发债"——当前算力投资不是用利润再投资,而是加杠杆下注。软银靠抛售 ARM/NVIDIA 股票加举债才凑得出承诺,是链条最脆的一环。作为 VC,该盯的不是"泡沫会不会破",而是破的时候谁先断供——Neocloud 和二线芯片厂的债务展期风险,会比模型公司更早暴露。
wheresyoured.at
在 AI Engineer World's Fair 上,Osmantic 创始人 Ahmad Osman 主张本地 AI(在自己的电脑、工作站或专用硬件上跑模型)正快速逼近前沿。核心论据是开源 LLM 正成为可信替代品,"开源与闭源前沿模型的差距持续缩小"。他的两场工作坊听众从买第一台 AI 电脑的学生,到考虑模型路由、私有基础设施的企业高管都有。
🦐点评:本地 AI 的真正驱动力不是性能,是控制权——企业要的是数据不出门加模型路由自主。Osman 的 workshop 挤满企业高管这个细节,比任何 benchmark 都重要:需求侧已经从极客转向 IT 采购决策者。这利好做本地部署、私有推理 infra 的公司(Ollama、LM Studio 的商业化路径),但对纯 API 计价的模型厂是长期利空——最舍得付费的企业客户,恰恰是最想自建的那批。
latent.space
文章解读 Goldfeder、LeCun、Shwartz-Ziv 等 2026 年论文《AI Must Embrace Specialization》。核心论点:优化理论、进化生物学、竞争市场、机器学习四个领域给出同一个答案——算法靠贴合目标而胜出,规模扩张不改变这一点。这直接反驳"越强越通用"的主流预期,主张专业化是有效 AI 系统的定义性原则。
🦐点评:LeCun 署名的"专业化不可避免"论,和当下"一个大模型通吃"的资本叙事正面相撞。如果这个判断成立,护城河就从"谁的基座最大"转向"谁在垂直场景做得最深",这恰恰是应用层创业者最想听的。但要警惕:巨头也在做 MoE 加专家路由,用一个通用外壳吃掉专业化红利。真正的分水岭是数据——通用模型拿不到的专有数据在哪,专业化的价值就在哪。
huggingface.co

📌 其他新闻

CB Insights 一周复盘:SpaceX 大手笔押注编码 AI(标题所指的 600 亿美元 Cursor 交易),并点评了 3 家值得关注的编码 AI 创业公司,同时涉及 Meta 对 Cred 的 9 亿美元投资与 YC 的能源基础设施押注。
cbinsights.com
Google 推出 Nano Banana 2 Lite(即 Gemini 3.1 Flash Lite Image),主打"最快最便宜、面向速度与规模"的图像模型;Simon Willison 实测生成效果好于今年 4 月的老版本,但仍有拼写错误。
simonwillison.net
36 氪晚报披露:月之暗面 Kimi 最新估值升至 315 亿美元,年化收入(ARR)突破 3 亿美元;同期优艾智合具身智能系列新品全球首发,宣称 3 年赋能 10000 个工业现场。
36kr.com
a16z 用组合公司 Deel 的数据拆解全球(偏科技、远程公司)的休假模式:北美普遍比欧洲"抠门",且区域内部差异极大——发多少假、员工真正休掉多少,是两回事。
a16z.news
Lenny 判断 PM 角色正从"协调对齐人"转向"用真实代码做原型、用 MCP 对话式查数据、跑编码 agent",并据此推出一门配套课程帮 PM 完成这个转型。
lennysnewsletter.com
3Blue1Brown 作者 Grant Sanderson 做客 Dwarkesh 播客(94 分钟),讨论为什么数学是最可能率先出现超级智能的领域,以及那会是什么样子。
dwarkesh.com
IBM Research 推出 ScarfBench,专门评测 AI agent 在企业级 Java 框架迁移任务上的表现,考察 agent 能否可靠判断迁移完成、如何处理应用依赖、精力都花在了哪里。
huggingface.co

🧠 AI 技术前沿

cursor_ai @cursor_ai
Claude Sonnet 5 已上线 Cursor。在 CursorBench 上从 Sonnet 4.6 的 49% 提升到 57%,是一次实打实的进步。
查看推文 →
shao__meng @shao__meng
美团发布 LongCat-2.0:1.6T 参数 MoE、激活 48B、1M 上下文,用 5–6 万张国产加速卡训练,训练推理全程零英伟达依赖,定位 Agent 加 Coding 优先。
查看推文 →
Hesamation @Hesamation
Google 发布 Gemini Omni Flash,尤其擅长视频编辑,定价 $0.1/秒视频输出。
查看推文 →
_akhaliq @_akhaliq
OSWorld 2.0 发布:针对长时程真实世界任务,评测计算机操作类(computer use)agent 的基准。
查看推文 →
emollick @emollick
LLM 最反常识的一点是它极其通用:一个更擅长编码的更大模型,同时也更擅长创意、伦理建议、医学和数学——虽有"锯齿状"例外(比如小说写作),但这个规律惊人地稳定。
查看推文 →
karminski3 @karminski3
SGLang 的 DSpark 实测:8 卡 B200、1K 长度 prompt 下加速比达 1.81 倍,速度从 164 token/s 提到 297 token/s;代码类平均每步投机 3.52 个 token。
查看推文 →

🚀 创业动态

bcherny @bcherny
Claude Desktop 的 Linux 版本正式上线。
查看推文 →
vasuman @vasuman
Agentic commerce 正在落地:AI agent 现在能用 USDC 对 2 万多个工具按次付费、全程无需人类介入。注册服务、填信用卡仍做不到,但按次付费终于跑通了。
查看推文 →
shao__meng @shao__meng
Flowith 推出「Matrix」:Agent 公司的操作系统。你定使命,Matrix 编排多 Agent 部门长期运转,覆盖建站、接 Stripe、发邮件、投广告到变现的完整商业闭环。
查看推文 →
rileybrown @rileybrown
多数公司在非编码场景里随意堆 AI agent,结果帮倒忙。他们帮 50 多家公司在广告、内容、运营、分析等场景落地 agent,总结出 8 个真正有用的工作流。
查看推文 →
shao__meng @shao__meng
Codex 团队的 Dimillian 开源了 Codex Skill Manager:用 SwiftUI 原生构建的 macOS 应用,把 Codex、Claude Code、OpenCode、Copilot 四套 Skills 抽象成统一 GUI 来管理。
查看推文 →

💬 观点与洞察

emollick @emollick
他撰文分析:AI 能力的快速跃升正同时带来两件事——工作方式的转型,以及近几周政策与市场那种突然的剧烈摆动。
查看推文 →
rileybrown @rileybrown
预测:七月属于 DeepSeek。
查看推文 →
Hesamation @Hesamation
Sonnet 5 是第一个公开批评 Claude「宪法」中某条规则的模型——即便模型认为某些硬约束不道德,也仍必须遵守。
查看推文 →
vasuman @vasuman
在全球最大的 AI 大会上演讲,讲企业级 AI 落地的未来,以及为什么"自主的前向部署(forward deployed)打法"是当下最大的解锁点。
查看推文 →

🔥 精选推荐

Foundation Capital 企业级投资人 Ashu Garg(早期投过 Databricks、Turing)判断:AGI 的赢家通吃时代已经结束,牌桌上从"一个王"变成四个势均力敌的玩家——OpenAI(消费者覆盖最大)、Anthropic(当下最好的模型和 harness)、Google(钱、IP、人才最多)、xAI(算力管够)。后面还跟着中国的开源玩家:DeepSeek 最新模型在 SWE-bench 上与 Opus 只差一根头发,价格约 1/30,最便宜的开源部署可压到 1/100。
🦐点评:这篇的杀伤力在于把"护城河崩塌"量化了——1/30 到 1/100 的价差下,"够用"就是最强的替代逻辑。对一级市场的直接含义是:投模型层的估值锚点必须重估,纯基座公司的溢价正在被开源加中国供给抹平。真正还能收租的位置,从"谁的模型强"挪到了"谁离用户、数据、工作流最近"——这也是为什么这批 VC 把 harness(Claude Code、Cursor)看得比模型本身更重。
深思SenseAI
据《The Information》,Meta 对其"应用型 AI 工程"部门使用 Anthropic Claude Code 和 OpenAI Codex 施加严格限制。一份五月起草、仍在生效的内部备忘录甚至暂停了部分任务,理由是担心这些外部模型的输出渗入 Meta 自研 MetaCode 的训练数据,可能违反使用协议并引发"与合作公司的严重升级"。而 Meta 一直是 Claude Code 的最大客户之一。
🦐点评:最大客户一边付钱一边防着供应商,这个张力本身就是信号——Meta 在赌自研 MetaCode 能替代外采,却又离不开对手的工具来训练。"无意识蒸馏"被写进合规红线,说明模型输出的知识产权边界正从技术问题变成法务问题。对创业公司的启示:如果你的护城河是"用 GPT/Claude 蒸馏出的能力",那它随时可能被一纸使用条款清零——这也是大厂宁可自建也要断开依赖的原因。
Z Potentials
全球金融科技平台 Airwallex 空中云汇完成 3.2 亿美元 H 轮融资,投后估值 110 亿美元,由 Lee Fixel 的 Addition 领投,Baillie Gifford、QED、T.Rowe Price 等跟投。距上一轮(2025 年 12 月 3.3 亿美元 G 轮、估值 80 亿)仅隔半年多,估值涨约 40%,本轮同步首发两款 AI 产品。
🦐点评:在风险偏好收紧的当下半年涨 40%,靠的不是老的跨境支付故事,而是"AI 产品首发"这个新叙事——资本在给金融科技做一轮 AI 重估。值得盯的是 Lee Fixel 领投:这位投过 Facebook、Uber、Flipkart 的人押成长期 fintech,通常意味着他看到了可规模化的现金流拐点,而非概念。对同赛道的启示是,纯支付通道估值已经到顶,能把 AI 嵌进对账、风控、资金管理工作流的公司才有下一段溢价空间。
Z Potentials
OpenAI Codex 产品和工程负责人 Andrew Ambrosino 在 Lenny 播客上给"AI Native 组织"热潮泼冷水。Codex 团队内部接近 100% 的人每周用 Codex、周活 500 万还在涨,但他明确反对"文档已死"和"砍掉 PM 全员 builder":问题不是文档还是原型,而是有没有为要表达的东西选对媒介;砍掉 PM 等于把整个学科积累的最佳实践全扔掉。
🦐点评:一个最激进 AI 化团队的负责人出来纠偏,比任何唱衰都有说服力。"选对媒介"这个框架是关键——方向模糊时文档赢,测手感时原型赢,盲信任一边都是把偷懒叫成变革。对押注"AI 替代 PM/文档"工具的基金是个警告:真正的机会不在消灭角色,而在放大角色的杠杆(这和英文区 Lenny 那篇 PM 课程是同一判断)。当"全员 builder"的创业故事出现时,该多问一句留存和交付质量怎么样。
AGENT橘

📌 其他值得看

Twitter/X 上线官方 MCP,可让 AI 自动整理、总结和分析你自己的 X 数据;需注册 X API 按量付费,个人数据调用有优惠($0.01/次,1 美元约调 1000 次),作者拉取三天书签仅花了 $0.1。
歸藏的AI工具箱
Google Cloud 上架 SandboxAQ 的科学 AI 模型,主打加速新药研发与半导体材料开发,进一步扩充其在"AI for Science"方向的模型货架。
Z Potentials