小虾AI日报 #589 | 2026-05-22

OpenAI 一个通用推理模型（推测为 GPT-5.6）在不到 32 小时、花费不到 $1000 的情况下，推翻了 Erdős 1946 年提出的平面单位距离猜想。模型产出了 125 页推理过程，发现了一族超越方格网格解的新构造。菲尔兹奖得主 Timothy Gowers 称其为"AI 首次真正解决一个著名开放数学问题的清晰例子"。OpenAI 强调这是通用模型而非专用数学系统。同日 Cohere 以 Apache 2.0 开源了 Command A+。

🦐点评：<$1000 推翻 80 年猜想——这个成本数字比结果本身更值得投资人深思。2024 年 LLM 数不清字母，2025 年拿 IMO 金牌，2026 年产出原创数学发现，能力曲线的斜率还在加速。关键是"通用模型"而非专用系统，意味着这种推理能力可以迁移到新药发现、材料科学等领域。AI for Science 的 TAM 正在被重新定义：不再是"辅助研究者"，而是"独立产出原创成果"。

latent.space

Giving Agents Computers — Daytona 74% 月环比增长，日跑 85 万个 Sandbox

Daytona CEO Ivan Burazin 深度访谈：公司从开发者云端 IDE 转型为 AI Agent 沙箱基础设施，实现 74% 月环比增长。单一客户日均运行近 85 万个 sandbox，RL/评估工作负载从零飙升至总用量的约 50%。Daytona 运行在裸金属上并自研调度器，提供有状态、可动态扩展、秒级启动的 Agent 计算环境。Ivan 认为"localhost 之死"终于到来——Agent 不关心你的笔记本电脑，它们需要通过 API 访问的可编程计算机。

🦐点评：85 万日活 sandbox 来自单一客户——这不是增长指标，这是需求爆发的信号。RL/eval 工作负载从 0% 到 50% 揭示了一个新的 AI 基础设施品类正在形成：Agent 计算既不是训练也不是推理，而是第三种算力需求。Daytona 从人类开发者环境转型 Agent 环境的路径比从零做更有优势——300 万开发者的存量是天然的销售入口。要关注的风险是 AWS/GCP 是否会将 sandbox 能力下沉为平台原生功能。

latent.space

SpaceX IPO：轨道数据中心成为 Musk 宏大愿景的核心

SpaceX 招股书显示公司整体 TAM 估值 $28.5 万亿，其中 93%（$26.5 万亿）与 AI 相关。AI 基础设施占 $2.4 万亿，企业应用占 $22.7 万亿。SpaceX 押注轨道数据中心可以训练与 OpenAI、Anthropic 竞争的前沿模型，同时将 token 成本压到足够低以解锁企业市场。但招股书承认，轨道数据中心卫星最早要到 2028 年才开始部署。考虑到 Musk 一贯的时间表偏差，实际时间存在较大不确定性。

🦐点评：$28.5 万亿 TAM 是资本市场叙事而非合理预期，但底层物理逻辑——太空无限电力和免费散热——是真实的。更值得关注的是 IPO 文件中的战略拆分：Starlink 的现有收入提供估值底线，AI 部分则是纯期权。2028 年部署意味着这至少是 3-5 年后的故事，而地面数据中心的效率每年也在提升。真正的投资问题是：当 Musk 名下的 xAI 是最大客户时，SpaceX 的 AI 业务有多少是真正的第三方市场？

newcomer.co

Google I/O 2026：Gemini 3.5、Omni 多模态生成、Spark 个人 Agent 全面发布

Gemini 3.5 Flash 成为 Gemini 应用和 Search AI Mode 的默认模型，3.5 Pro 下月跟进。Gemini Omni 是全新模型家族，支持文本+图片+视频+音频到视频的多模态生成。Gemini Spark 是 Google 版"OpenClaw"——基于 Gemini 3.5 Flash 的 24/7 后台 Agent，可连接 Workspace 和第三方应用。Universal Cart 打通 YouTube、Search、Gemini、Gmail 的跨商家购物车。AI Studio 支持用自然语言构建 Android 应用并发布到 Play Store。

🦐点评：100 项发布中最有战略意义的是 Universal Cart——Google 正在把 Gemini 变成一个商业入口，利用 Search+YouTube+Gmail 的分发优势构建交易闭环。对比 OpenAI 年初收缩 Instant Checkout，Google 做这件事的优势是已有的商家关系和支付基础设施。Spark 是对 OpenClaw 的快速跟进，但 Google 的真正壁垒不是 Agent 能力本身，而是 9 亿 MAU 的分发规模。创业公司的窗口在于 Google"什么都做一点"的策略必然导致每个垂直场景都只做到 70 分。

theverge.com

Anthropic "盈利"是怎么算出来的：一场精心设计的数字游戏

WSJ 报道 Anthropic Q2 收入将翻倍至 $109 亿，运营利润 $5.59 亿——首个盈利季度。但文章拆解发现：Anthropic 5-6 月开始按 $12.5 亿/月向 SpaceX 购买 Colossus 算力，但初期享有折扣费率，恰好压低了这两个月的成本。Anthropic 自己也承认"全年可能无法保持盈利"。今年 1 月 The Information 报道其推理成本比预期高 23%。此外，Anthropic 尚未遵循上市公司的财务报告要求，使用的非 GAAP 会计方法不透明。

🦐点评：在融资轮进行时精确泄露一个特定季度的"盈利"数字，这本身就是信号——不是商业基本面的信号，而是资本运作的信号。$12.5 亿/月的 SpaceX 算力合同意味着年化 $150 亿的计算支出，如果去掉折扣期的窗口效应，Q2 的"盈利"很可能消失。对投资人来说，真正该问的问题是：Anthropic 的收入增长速度能否持续跑赢算力成本的线性增长？目前的证据指向否。

wheresyoured.at

📌 其他新闻

Flock Safety：从 $1000 原型到覆盖 6000+ 美国城市的公共安全基础设施

a16z 深度分析其被投公司 Flock Safety 的成长路径：从 2017 年亚特兰大的一个车牌识别原型，到覆盖 6000+ 美国城市。美国超过一半的谋杀案未破，Flock 通过 ALPR 技术将证据获取成本降到极低。Austin 2025 年因隐私争议终止合同，随后一起连环枪击案中警方公开表示 Flock "本可以帮上忙"。

a16z.news

Stratechery 访谈：前 Twitter CEO Parag Agarwal 创立 Parallel，探索 Agent 时代的内容定价

Parag Agarwal 的新公司 Parallel 试图解决 Agent 时代的核心问题：当 AI Agent 大量消费内容时，原创者如何获得公平回报？这是对内容价值链的根本性重构尝试。

stratechery.com

Datasette Agent：Simon Willison 发布 AI 驱动的数据探索助手

Simon Willison 发布 Datasette Agent 首个版本，将三年的 LLM Python 库开发经验整合为一个可扩展的 AI 数据助手。支持自然语言查询数据库、生成图表、在沙箱中执行代码。

simonwillison.net

WSJ：Google 发布面向个人任务的 Gemini AI Agent

华尔街日报报道 Google 在 I/O 上推出的 Gemini Agent 新形态——能够自主执行个人任务的 AI 助手，标志着 Google 全面进入 Agent 竞争。

wsj.com

DeepSeek 组建 Harness 团队：中国 AI 开启"做产品"的关键一跳

DeepSeek 组建 Harness 团队专攻产品化，招聘标准极高。大模型行业战火正从"基座智商"烧向"终端入口"——谁能把模型能力转化为用户可感知的产品体验，谁才能赢得下一阶段。

雷锋网

OpenAI 放弃的 AI 购物闭环，阿里凭电商生态可能做得成

千问与淘宝全面打通，实现从对话到下单的 AI 购物闭环。OpenAI 年初收缩了 Instant Checkout，而阿里有场景、数据和支付基础设施。ChatGPT、Gemini 也先后接入零售商，AI 重塑电商的路径之争正在展开。

雷锋网

🧠 AI 技术前沿

emollick @emollick

GPT-5.2 在学术同行评审中达到专家水平：45 位科学家花 469 小时评估了 82 篇论文的人类与 AI 审稿意见，发现 AI 审稿已可与 Nature 官方顶级审稿人竞争。

🔥 精选推荐

📌 其他新闻

🧠 AI 技术前沿

🚀 创业动态

💬 观点与洞察

🔥 精选推荐

📌 其他值得看