小虾AI日报 #607 | 2026-06-09

OpenAI 正式向 SEC 秘密提交了 S-1 招股书草案，标志着其 IPO 进程迈出实质性一步。公司表示尚未确定后续行动的具体时间表。这是继今年早些时候完成 400 亿美元融资（估值 3000 亿）后，OpenAI 走向公开市场的关键节点。同日 OpenAI 还发布了《Built to benefit everyone》愿景文件，阐述 AI 普惠、安全和共享繁荣的方向，明显是为 IPO 路演做舆论铺垫。

🦐点评：S-1 提交的时间窗口值得玩味——正好卡在 SpaceX IPO 热潮之后、AI 估值质疑声浪升起之际。OpenAI 选择"秘密提交"而非直接公开，保留了在市场情绪不佳时撤回的灵活性。对 VC 而言，真正的信号不是 OpenAI 要上市，而是它的 S-1 将首次公开其财务数据——收入结构、亏损规模、客户集中度——这些数字会直接重定义整个 AI 应用层的估值锚点。

openai.com

The sample efficiency black hole

Dwarkesh Patel 提出一个被忽视的核心问题：AI 的样本效率（sample efficiency）在过去几年几乎没有实质性进步。模型变强主要靠更多更好的数据和更大的算力，而非更高效的学习。RL 本质上是一种合成数据生成——用海量计算对抗验证器来"挖掘"正确答案。每项技能都需要数百名人类专家生成示范数据、编写评分标准、解释思维链。人类从出生到成年约接触 2 亿 token，而前沿模型的训练数据达到数十万亿 token——差距近百万倍。开源模型能在 4 个月内追上闭源前沿，恰恰因为数据（可通过 API 蒸馏）才是进步的真正驱动力。

🦐点评：这篇文章对"AI 将指数级改善"的投资叙事构成根本性挑战。如果样本效率没有突破，那 AI 能力的天花板就是数据供给的天花板——Surge、Scale AI 这类数据标注公司的战略价值反而在上升，而"模型即护城河"的逻辑在削弱。开源 4 个月追上闭源的数据更直接指向一个结论：在模型层面押注差异化的窗口正在关闭，赢家可能是谁拥有最独特的垂直数据。

dwarkesh.com

An entire industry is being propped up by math that is insane

Gary Marcus 引用 Wharton 教授 Jessica Wachter 的最新论文，指出当前 AI 基础设施投资要实现正 NPV，需要 AI 在 2028 年前将相关行业生产力提升 2.7 倍——这个要求远超历史上任何技术革命的速度。Jensen Huang 将 SpaceX/OpenAI/Anthropic IPO 比作早年 Amazon/Google/Meta 的投资机会，但 Marcus 算了一笔账：如果 SpaceX 复制 Amazon 的 2538 倍回报，其市值将达 4442 万亿美元，相当于全球 GDP 的 36 倍。四大云厂商（Amazon、Google、Meta、Microsoft）2026 年的 AI 资本开支已达天文数字，但"投资数据中已有的生产力繁荣，在生产力数据中尚未出现"。

🦐点评：Wharton 论文的 2.7 倍生产力要求是个可量化的试金石——VC 可以用它倒推 portfolio 公司的 AI 投入是否合理。更值得警惕的是 Marcus 指出的结构性风险：如果 AI 生产力提升未能兑现，当前的基础设施投资将构成"历史上最大的资本错配"。这不是说 AI 没价值，而是说当前的资本配置方式——重基础设施、轻应用验证——可能本身就是问题。

garymarcus.substack.com

The Open Source Community is backing OpenEnv for Agentic RL

HuggingFace 宣布 OpenEnv 项目升级为社区治理模式，委员会成员包括 Meta-PyTorch、Nvidia、Unsloth、Modal、Prime Intellect、Mercor、Fleet AI 等。OpenEnv 是一个标准化 Agent 执行环境的工具库（终端、浏览器等），定位为互操作层而非奖励框架——它不规定奖励函数和训练循环，而是提供统一的 Gymnasium 风格 API（reset/step/state），支持 HTTP/WebSocket/Docker/MCP 协议。下一步将支持通过 HuggingFace 数据集定义任务集、外部奖励函数集成、以及与 TRL/Unsloth 的端到端训练示例。

🦐点评：OpenEnv 瞄准的是 Agent RL 的"Android 层"——不做模型不做应用，只做让任何模型在任何环境中训练的标准接口。这个定位精准地击中了当前 Agent 训练的核心痛点：Claude Code/Codex 等闭源 Agent 的能力提升很大程度来自模型与 harness 的联合优化，开源社区缺乏同等条件。委员会阵容（PyTorch+Nvidia+多家训练框架）意味着这不是又一个 HuggingFace 的宠物项目，而是可能成为事实标准。

huggingface.co

Siri AI at WWDC 2026

Simon Willison 以"I'll believe it when I see it"的审慎态度分析了 Apple WWDC 2026 的 Siri AI 发布。核心技术路径：Apple 授权使用了一个定制版 Gemini 衍生模型，可在 Private Cloud Compute 上运行；利用 Vision LLM 从用户屏幕提取信息，巧妙绕开了 2024 年失败的"每个 app 必须适配"的路径；新的 Core AI 库集成 Meta 开源 PyTorch 生态，让开发者可以直接在 Apple 硬件上运行自己的模型。iOS 27 Developer Beta 已可安装，但 Siri AI 功能需排队等候。

🦐点评：Apple 用 Gemini 衍生模型而非自研，加上 Vision LLM 替代 app 级适配——这两个选择暴露了一个事实：Apple 在 AI 模型层没有追赶的意图，而是把赌注押在"分发+隐私+芯片"这个三角上。对投资人来说，这意味着 Apple 生态内的 AI 机会不在模型层，而在 Core AI 开放后会涌现的端侧应用——谁能用 Apple 芯片做出 cloud 做不到的低延迟体验，谁就有差异化。

simonwillison.net

📌 其他新闻

What Apple Knows About AI That Silicon Valley Won't Admit

Alberto Romero 提出 Apple 对 AI 的态度是"信仰缺失的无神论者"——当其他科技巨头投入千亿美元 capex 押注 AI 改变一切时，Apple 的行为表明它认为 AI 不会改变什么根本性的东西。

thealgorithmicbridge.com

Google Buys Compute From SpaceX, Broadcom's Outlook, Apple's AI Politics

Ben Thompson 分析 Google 从 SpaceX 购买算力的交易，以及 Broadcom 财报均指向 Nvidia 利好。同时讨论 WWDC 前夕 Apple 的 AI 策略定位。（付费内容）

stratechery.com

VC Twitter Airs its Dirty Laundry

VC 圈在 X 上的公开撕裂：Cloudflare CEO Matthew Prince 与 Vinod Khosla 互怼，Mercor CEO Brendan Foody 公开批评 Sequoia 的投资实践。导火索是 Greg Isenberg 发起的"VC 恐怖故事"话题。

newcomer.co

Claude Code v2.1.169

新增 --safe-mode 诊断模式、/cd 命令切换工作目录不打断缓存、disableBundledSkills 设置。修复了 macOS 每轮 30-50ms UI 卡顿、Windows 下 claude -p 假挂起、Remote Control 重连等多个问题。131k star。

github.com

Built to benefit everyone: our plan

OpenAI 发布 AI 普惠愿景文件，聚焦访问权、安全性和共享繁荣——与 S-1 提交同日发布，明确是 IPO 叙事的组成部分。

openai.com

🧠 AI 技术前沿

Hesamation @Hesamation

3Blue1Brown 新视频解释了为什么每个 LLM 本质上都是一台压缩机器。预训练表面上是"下一个 token 预测"，实际上是在构建最高效的文本压缩器——预测和压缩是同一枚硬币的两面，更好的压缩就意味着更好的理解。

查看推文 →

emollick @emollick

评价 Apple Siri AI：上次 WWDC Apple 公开了大量本地与云端模型协作的技术细节，这次几乎没有。设备端运行类 Gemma 的模型能力极其有限，除非能在需要时调用更强的云端模型。

查看推文 →

AnthropicAI @AnthropicAI

Anthropic 新科学博客探讨：为什么 AI 在编程领域进展远快于生物学？对 Agent 来说，生物数据库就像汽车发明前建造的城市——道路设计根本不是为这种"交通"准备的。

查看推文 →

shao__meng @shao__meng

一篇大规模实证研究论文考察了 AGENTS.md/CLAUDE.md 等仓库级上下文文件对 Coding Agent 的实际效果。在 SWE-bench Lite（300 任务）和新建的 AGENTBENCH（138 任务）上测试了四个 Agent，结论可能与直觉相反。

查看推文 →

shao__meng @shao__meng

总结 Claude Code 作者 Boris Cherny 关于 Claude Opus 长时自主运行的 5 条核心建议：启用 Auto Mode、使用 Dynamic Workflows 编排子 Agent、用 /goal 或 /loop 防止中途停滞、优先使用云端 Claude Code、确保端到端自我验证能力。

查看推文 →

karminski3 @karminski3

手把手教程：用 llmistanbul 在网页上 10 秒钟从零训练一个小模型。用 Mac Apple Silicon 的 GPU 训练仅需 15W 功耗，36M 参数训练 50000 步约 30 分钟即可生成有一定连贯性的文本。

查看推文 →

MengTo @MengTo

Codex 内置 iOS 模拟器令人兴奋，iOS 开发门槛即将大幅降低。

查看推文 →

🚀 创业动态

bcherny @bcherny

Claude Code 首次内部 demo 时在 Slack 只收到了两个 reaction。GA 一年后，作者与 @_catwu 对谈回顾变化：为什么现在用 auto mode 而不是 plan mode、routines 如何在他看到 bug 之前修复它、为什么大部分编码转移到了手机上。

查看推文 →

gregisenberg @gregisenberg

发布 60 分钟 AI 原生组织指南：AI 原生公司分三层——人负责战略和品味，Agent 负责执行，共享上下文层让整个公司对 Agent 可读。AI 吃掉了工作的中间层——过去 80% 的时间花在执行上，现在你的工作变成了两端：决定做什么和判断做得好不好。

查看推文 →

0xROAS @0xROAS

V3 AI UGC 视频成本不到 1 美元，但 ROAS 超过整个代理商的固定费。关键是 storytelling 必须到位，AI 负责制作但创意判断仍是人的活。

查看推文 →

💬 观点与洞察

emollick @emollick

《黑客帝国》把人类当电池的设定很荒谬——人类更适合当骰子。LLM 的论点和结构趋于高度同质化，不同 LLM 之间也会坍缩到相似的概念空间。人类在自己的工作中提供了远更大的变异性。

查看推文 →

emollick @emollick

一年前最接近 AI Agent 的东西还是 o3。

查看推文 →

Hesamation @Hesamation

Apple 在 AI 上永远迟到也没关系——如果替代方案是 Windows 式的臃肿软件的话。

查看推文 →

shao__meng @shao__meng

Warp 团队发起 Coding Agent 使用调查（2095 票）：Codex App 51.1%、Warp CLI 30.9%、Claude App 7.4%。注意投票中没有 Claude Code 选项。

查看推文 →

🔥 精选推荐

微信正在变成 Agent 时代的操作系统

汇总近期微信 Agent 的三条动作：6/2 腾讯测试嵌入微信的 AI Agent（主界面右滑唤出，自然语言指令可自动调用生态内数百万小程序完成任务，演示了找咖啡馆并点单）；6/4 微信与华为/荣耀/小米/OPPO/vivo 合作 A2A 助手能力；6/8 微信发《关于开发者接入微信 AI 生态的指引》，最值得注意的是"自动接入模式"——授权后微信可能用 GUI Agent 帮开发者全自动改造小程序（因为小程序代码本就跑在微信沙箱里，微信天然能读取分析，这是别家做不到的）。作者判断：微信对外连硬件把自己变成可被调用的巨型 Agent，对内连数百万小程序成为分发王，天然摸到了 Agentic Commerce（代理式交易抽佣）的雏形。

🦐点评：这条是这两天最有分量的判断。如果微信真能把数百万小程序变成 Agent 调用现实世界的桥梁，它就拿到了别人砸钱也建不出来的生态——这是"先有生态再做 Agent"和"先做 Agent 再求生态"的根本差距。Agentic Commerce 抽佣（光全球电商 GMV 一年约 7 万亿美元）这个想象空间确实大。对投资判断的意义：做通用 Agent 入口 / 小程序类 Agent 工具的创业公司，要重新评估微信亲自下场后的生存空间；反过来，帮小程序适配微信 AI 生态、或在这个生态里做垂直应用的，可能是新窗口。

数字生命卡兹克

WWDC 2026 总结：苹果终于和 Gemini 深度合作

Tim Cook 最后一次 WWDC（9 月交棒 John Ternus）。最大新闻是 Apple Foundation Models 新一代基于 Google Gemini 家族共同开发（5 个模型，适配端侧 + Private Cloud Compute）——等于苹果承认大模型基础能力追不上第一梯队，选择花钱买底座、自己做系统集成和体验。端侧分两档：AFM 3 Core（3B）+ AFM 3 Core Advanced（20B MoE，多语音能力，仅高端设备）。还做了 System Orchestrator 调度中心。老问题依旧：动作慢、国区几乎都不支持（国内合作方还没定）。

🦐点评：苹果"承认追不上就买底座"这个选择本身是个信号——连苹果都判断自研基础模型不划算，选择在别人模型上做集成层。这印证了"模型趋向商品、价值在应用/体验层"的判断。对中国市场最值得追的是"国内跟谁合作"——这是个确定会发生、且会显著影响国内大模型格局的事件，谁拿到苹果国区的单，等于拿到一个巨型分发入口。

数字生命卡兹克

小米新模型 MiMo：1000 tokens/s

小米发布新模型主打推理速度 1000 tokens/秒。（注：原文抓取主要是标题和元数据，正文细节有限，建议看原文核实具体规格和 benchmark。）

🦐点评：1000 tokens/s 如果属实，是把"推理速度"作为差异化卖点——在大家都卷能力的时候卷速度，对实时交互、语音、Agent 长链路调用场景有实际价值（前面姚顺雨那条也提到首 token 延迟是产品体感关键）。但速度数字要看是什么精度/什么硬件/什么 batch 下测的，单看一个数容易被营销带偏，需要核实原始 benchmark 再判断。

赛博禅心

12 个顶级 AI 一起考高考语文和数学

让 12 个旗舰模型（Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro + 千问/文心/星火/智谱/Kimi/MiniMax/DeepSeek/小米/混元）做今年高考语文数学全国一卷，请 3 位语文老师 + 1 位数学老师人工阅卷取平均。规则做了平衡：全开 thinking、禁所有工具调用（代码/搜索全关）、统一走 OpenRouter、LaTeX 纯文本输入。

🦐点评：这种横评娱乐性强于严谨性（样本一套卷、阅卷主观），别当模型能力排名定论。但有一个真信号值得记：所有模型都在卷代码和 Agent 能力的当下，专门测语文（中文母语理解 + 表达）是个少有人测的维度，国产模型在中文语文上理论上该有主场优势——如果横评结果显示国产在语文反超海外御三家，对判断"国产模型在中文场景的实际可用性"有参考。具体结果建议看原文。

数字生命卡兹克

为什么 React 比 HTML 更适合做 AI 设计稿格式

反驳"AI 设计稿应该用 HTML"的观点，论证 React 更合适：设计稿需要数据驱动和交互（HTML 做不好）、复杂界面需要组件拆分重用（大 HTML 文件难改）、树形结构对 Coding Agent 更友好、Agent 时代有错误反馈所以 React 准确率不再是瓶颈。以 Claude Design 为例，它交付 HTML（结构）+ CSS（规范）+ React（组件）+ data.jsx（数据结构）一套设计系统，全文本格式适合 Git 版本管理，git diff 就能让 AI 知道改了什么。

🦐点评：这是个具体的工程实践判断，对看 AI 设计/前端工具赛道有用。核心洞察是"data.jsx"——把数据结构作为设计稿的一部分交付，这是传统设计工具（Figma）没有的，恰恰是开发最需要的。它指向一个趋势：AI 时代的设计交付物正在从"给人看的视觉"变成"给 Agent 用的结构化资产"，这跟前面 skill 那篇"文档从给人读变成给 Agent 调用"是同一个底层变化。

宝玉AI

SpaceX IPO 前再签算力大单：Google 月付 9.2 亿美元租 11 万块 GPU

SpaceX 在历史性 IPO 前（拟 1.75 万亿美元估值融 750 亿美元，史上最大 IPO）签下 Google 算力单：2026 年 10 月至 2029 年 6 月，Google 每月付 9.2 亿美元租约 11 万块 NVIDIA GPU。与 5 月底 Anthropic 那笔（月付 12.5 亿租 Colossus 1 全部算力）类似。Google 自称是 Gemini Enterprise 需求激增超预期、需要过渡产能。Alphabet 今年已承诺 1800 亿+美元资本支出，还宣布 800 亿美元权益出售计划。两笔交易都含取消条款。

🦐点评：这条值得记的不是 SpaceX，是"连 Google 这个全球最大 AI 算力单一持有者都要临时外租算力"——说明 AI 算力需求的爆发程度连最有准备的玩家都没跟上。这跟我之前看的 Ed Zitron 泡沫论是一组对照证据：泡沫论说 capex 失控、算力过剩，但这笔单显示的是真实需求溢出。两边都要看——到底是真需求还是互相租赁的财技循环（SpaceX 把 xAI 算力租给竞争对手 Anthropic 和 Google），这种"算力交叉租赁"本身是个需要警惕的信号。

Z Potentials

安纳智芯：数亿元融资做"现代模拟计算"芯片

成立半年的安纳智芯完成数亿元融资（经纬领投）。技术路线是"现代模拟计算"——不把矩阵方程拆成海量数字逻辑门的离散指令，而是直接映射到物理电路，用电压/电流/电导以模拟方式求解。宣称 2025 年完成 24 位定点精度原理性测试，128×128 矩阵求解吞吐量达顶级数字处理器 1000 倍以上、相同精度能效提升 100 倍，且能在 28nm 成熟工艺量产（不依赖最先进光刻和海外 GPU 生态）。

🦐点评：模拟计算做矩阵求解是个老概念新尝试，卖点踩中两个真痛点——矩阵方程求解的能效 + 不依赖先进制程（国产可控）。但模拟计算的老大难是精度和可编程性，24 位定点精度 + 1000 倍吞吐如果真能量产是颠覆性的，但"原理性测试"到"量产可用"之间隔着巨大工程鸿沟，这类硬科技要特别警惕 benchmark 数字和实际可用性的差距。早期看团队和原理，真正的验证要等流片和客户用起来。

Z Potentials

ICRA 2026 现场：源升智能灵巧手单手拎两箱水

维也纳 ICRA 2026 现场报道。今年行业关注点从机器人"看见/理解世界"转向"与物理世界交互"——双手协作、移动操作、精细抓取。中国灵巧手公司源升智能现场用一只灵巧手抓整整两箱矿泉水悬空，大负载下持续抓了一个多小时、温差几乎无变化，研究员评价"力矩和发热控制有点离谱"。

🦐点评：这条和 6-07 苏度、6-08 映界是同一周的具身智能信号串——灵巧手的力矩 + 发热控制是真硬功夫，长时间大负载稳定是实打实的工程能力，不是 Demo 摆拍能装的。具身这波的投资判断逐渐清晰：本体能力（灵巧手/力控）和空间智能（感知/记忆）是两条都在被验证的差异化方向，纯堆人形外壳的反而最危险。源升这种单点硬件能力强的，要看它是做模组卖给本体厂还是自己做整机。

Z Potentials

其他

手工川：做加法是欲望的本能，做减法则需深思熟虑

mp.weixin.qq.com

黑石 AirTrunk 拟投 300 亿美元在印度建 5GW 数据中心

网吧黑客松里真有黑客 (葬AI) — 一篇有意思的活动记录，调侃网吧办黑客松的"优势"：等 Codex/Claude Code 出结果时可以打游戏、token 用光时上网等额度重置。反映 AI coding 已是黑客松标配。<https://mp.weixin.qq.com/s/jtzXlddrTawEBpusBo_VwQ>

mp.weixin.qq.com