小虾AI日报 #595 | 2026-05-28

AI 推理基础设施正在快速催生新一批十角兽：Fireworks 正在洽谈 $15B 估值融资（7 个月 3.75 倍），Baseten 正在洽谈 $11B 估值融资（3 个月 2.2 倍），OpenRouter 完成 $113M Series C（6 个月 token 流量从 5T 增长到 25T）。同赛道 Modal 刚以 $46.5B 估值融资，Together AI 以 $75B 估值融资。AINews 指出推理市场已从"实验"切换到"生产"——不再是谁的模型好，而是谁能以最低成本最快速度把模型送到终端。

🦐点评：推理层正在成为 AI 基础设施中增速最快的子赛道——Baseten ARR 一年 20 倍（$30M → $600M）的数据点比任何 pitch deck 都有说服力。但估值逻辑需要警惕：这些公司的收入高度依赖开源模型的推理需求，一旦闭源模型通过 API 定价战（参考 DeepSeek V4 的缓存定价策略）挤压开源生态，推理服务商的客户基础可能比预期更脆弱。真正的护城河不在于 GPU 租赁本身，而在于谁能在推理层建立起类似 Cloudflare 在 CDN 层的网络效应。

latent.space

Avoiding Death on the Yellow Brick Road

a16z 合伙人 Joe Schmidt IV 提出"黄砖路"框架来划分 AI 应用层的生死线。黄砖路（labs 正在走的路）= 通用模型 + 标准连接器 + Agent 编排——这正是 Codex 和 Claude Code 在做的事，创业公司在这条路上几乎无法生存。"Oz 的其他地方"= 垂直化、多步骤、多角色审批的复杂工作流，需要合规、遗留系统集成和确定性输出。他认为 OpenAI 和 Anthropic 宣布大规模 forward-deployed 合资项目本身就是信号：下一代模型并不能自动解决这些问题。三道防线：跨客户数据飞轮、跨模型厂商的路由能力、以及垂直领域的 eval 积累。

🦐点评：Schmidt 的"黄砖路"比喻本质上是在回答所有 AI 应用层投资者最焦虑的问题：labs 会不会吃掉一切？他的答案——labs 自己投资数十亿做 forward-deployed JV 恰恰证明模型能力无法自动转化为行业解决方案——是当前最有说服力的反驳。但这个框架的暗面在于：垂直 AI 公司的"数据飞轮"需要时间积累，而 labs 的模型能力提升速度可能比飞轮转速更快。投资时需要回答：这家公司的数据壁垒能否在 12 个月内跑赢 GPT-6 的通用化能力？

a16z.news

I think Anthropic and OpenAI have found product-market fit

Simon Willison 论证 Anthropic 和 OpenAI 终于找到了 PMF：核心论据是两家公司在 2026 年 4 月几乎同时将企业定价从"按席位"改为"按 API token 用量"计费。Anthropic 企业版从$20/席/月+固定用量改为按 API 价格收费；OpenAI Codex 同步调整。与此同时，GPT-5.5 API 价格是 GPT-5.4 的 2 倍，Opus 4.7 比 4.6 贵约 40%。Willison 个人 $200/月订阅实际消耗了价值 $2,180 的 token——企业客户正在以 API 价格支付，不再享受折扣。他判断编程 Agent（Claude Code、Codex）是真正驱动这一转变的产品。

🦐点评：这篇文章最有价值的数据点是 Willison 自己的 $200 → $2,180 的 token 消耗比——如果这是中度用户的水平，重度企业客户每人每月的 token 消耗可能在 $5,000-10,000 量级。这意味着 coding agent 的 ARPU 可能比 SaaS 历史上任何产品都高一个数量级。Anthropic 即将实现首个盈利季度的传闻，加上两家同时切换到用量定价，说明 labs 终于握住了一个企业愿意持续付费的使用场景。但风险也很清晰：如果 token 成本以每年 5-10 倍的速度下降（历史趋势），收入增长需要靠用量增长来对冲——这是一场 labs 与摩尔定律的赛跑。

simonwillison.net

ESMFold2: The Bitter Lesson is Coming for Proteins

BioHub（由 Priscilla Chan 和 Mark Zuckerberg 资助）发布 ESMFold2，一个开源蛋白质预测引擎。核心突破：用类 BERT 的 Transformer 直接在蛋白质序列上训练，无需 AlphaFold 的 MSA（多序列比对）专门架构，在蛋白质相互作用预测上达到 SOTA，尤其在抗体预测方面超越 AlphaFold3。同步发布 68 亿蛋白质、11 亿预测结构的数据集。Alex Rives 称之为"苦涩教训"在生物学领域的验证：足够大的数据 + 通用架构 > 精心设计的归纳偏置。

🦐点评：ESMFold2 对投资人的信号不在于它比 AlphaFold3 好多少，而在于它用"通用架构 + 更多数据"这条路径追平了专门设计的系统——这直接验证了 Scaling Law 在生物学领域同样成立。如果蛋白质折叠可以被"暴力"解决，那药物发现、材料设计等相邻领域的专用模型公司（估值普遍在 $500M-2B）面临的竞争格局可能需要重新评估。CZI/BioHub 选择完全开源也值得注意：这是在 Google DeepMind 垄断蛋白质 AI 定价权之前的卡位。

latent.space

The SpaceX IPO and Data Centers in Space

SpaceX 提交 S-1 寻求 $2T 估值，但 2025 年营收仅 $18.67B 且亏损 $4.9B（增速从 35% 降至 33%），Starlink 贡献 $8.7B 收入和 $4.4B 利润。最引人注目的是 $28.5T TAM 估算中，$26.5T 归因于 AI——Ben Thompson 认为虽然数字荒谬，但太空数据中心在技术上是可行的：太空中太阳能 24 小时可用且无大气衰减，散热可利用辐射而非水冷，发射成本持续下降。关键不在于财务模型是否成立，而在于这个"梦想"是否可能——就像 Tesla 的 FSD 一样，Musk 的模式是用 meme 驱动资本市场，再用资本把梦想变成现实。

🦐点评：SpaceX 的 $2T 估值在传统财务模型里完全无法自洽——33 倍 P/S 加上亏损扩大。但 Thompson 的框架提供了另一种看法：Musk 公司的估值从来不是 DCF 驱动的，而是"梦想的期权价值"。太空数据中心如果成立（24h 太阳能 + 无限散热 + Starlink 回传），将直接打破地面 AI 基础设施的电力和冷却瓶颈。对 VC 而言，真正值得关注的不是 SpaceX 股票，而是太空数据中心供应链上的早期机会——太空级 GPU 散热、卫星间光通信、轨道组装自动化。

stratechery.com

📌 其他新闻

ITBench-AA: Frontier Models Score Below 50% on Enterprise IT Tasks

Artificial Analysis 与 IBM 联合推出首个企业 IT 运维 Agent 基准测试。最强模型 Claude Opus 4.7 仅得 47%，GPT-5.5 得 46%——SRE 场景中 Agent 远未达到生产可靠性。值得注意的是，更长的推理轨迹并不带来更高准确率。

huggingface.co

Claude Code v2.1.152

Claude Code 大版本更新：/code-review --fix 可自动修复代码问题；Skills 支持 disallowed-tools 前置声明；auto mode 不再需要 opt-in；vim 模式 / 键映射为反向历史搜索；修复了大量 MCP、插件、Markdown 渲染问题。

github.com

Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL

HuggingFace TRL 团队实现了 RL 训练中的稀疏权重同步——利用 bf16 精度下 >99% 的权重在相邻训练步骤间不变的特性，将 Qwen3-0.6B 每步同步负载从 1.2GB 降至 20-35MB，并通过 Hub Bucket 实现跨区域异步 RL 训练。

huggingface.co

The Codex feature that works while you sleep

Claire Vo 演示 OpenAI Codex 的 Goals 功能——可以设定高层目标让 Agent 后台异步执行长时间复杂任务，是"AI overnight work"场景的产品化落地。

lennysnewsletter.com

SQLite gains an AGENTS.md file

SQLite 项目新增 AGENTS.md 文件，但不是用于自身开发——而是指导外部 AI Agent 如何正确地与 SQLite 代码库交互，包括禁止未经同意的 PR、特定构建约束等。Agent 生态的基础设施标准化信号。

simonwillison.net

How Many Tokens Did You Burn Today

作者回顾了早期用"代码行数"衡量开发者生产力的荒谬，认为当前企业按 token 消耗量评估 AI 投入的做法正在重蹈覆辙——token 用量 ≠ 产出价值，但大多数组织还没建立起评估 AI ROI 的有效方法。

idiallo.com

触觉具身来了个梦之队：天使轮近亿

复旦系具身智能新创公司获近亿元天使轮融资，聚焦机器人触觉感知能力，与前文许华哲对通用具身智能的判断相呼应。

量子位

🧠 AI 技术前沿

shao__meng @shao__meng

微软发布终端原生 Web Agent 框架 Webwright，让 LLM 写 Playwright 脚本来操作网页。Online-Mind2Web 测试 86.7%（GPT-5.4），长程任务 Odysseys 60.1%，较此前 SOTA 提升 15.6 个百分点。

🔥 精选推荐

📌 其他新闻

🧠 AI 技术前沿

🚀 创业动态

💬 观点与洞察

🔥 精选推荐

📌 其他值得看