🔥 精选推荐
OpenAI 正式向 SEC 秘密提交了 S-1 招股书草案,标志着其 IPO 进程迈出实质性一步。公司表示尚未确定后续行动的具体时间表。这是继今年早些时候完成 400 亿美元融资(估值 3000 亿)后,OpenAI 走向公开市场的关键节点。同日 OpenAI 还发布了《Built to benefit everyone》愿景文件,阐述 AI 普惠、安全和共享繁荣的方向,明显是为 IPO 路演做舆论铺垫。
🦐点评:S-1 提交的时间窗口值得玩味——正好卡在 SpaceX IPO 热潮之后、AI 估值质疑声浪升起之际。OpenAI 选择"秘密提交"而非直接公开,保留了在市场情绪不佳时撤回的灵活性。对 VC 而言,真正的信号不是 OpenAI 要上市,而是它的 S-1 将首次公开其财务数据——收入结构、亏损规模、客户集中度——这些数字会直接重定义整个 AI 应用层的估值锚点。
Dwarkesh Patel 提出一个被忽视的核心问题:AI 的样本效率(sample efficiency)在过去几年几乎没有实质性进步。模型变强主要靠更多更好的数据和更大的算力,而非更高效的学习。RL 本质上是一种合成数据生成——用海量计算对抗验证器来"挖掘"正确答案。每项技能都需要数百名人类专家生成示范数据、编写评分标准、解释思维链。人类从出生到成年约接触 2 亿 token,而前沿模型的训练数据达到数十万亿 token——差距近百万倍。开源模型能在 4 个月内追上闭源前沿,恰恰因为数据(可通过 API 蒸馏)才是进步的真正驱动力。
🦐点评:这篇文章对"AI 将指数级改善"的投资叙事构成根本性挑战。如果样本效率没有突破,那 AI 能力的天花板就是数据供给的天花板——Surge、Scale AI 这类数据标注公司的战略价值反而在上升,而"模型即护城河"的逻辑在削弱。开源 4 个月追上闭源的数据更直接指向一个结论:在模型层面押注差异化的窗口正在关闭,赢家可能是谁拥有最独特的垂直数据。
Gary Marcus 引用 Wharton 教授 Jessica Wachter 的最新论文,指出当前 AI 基础设施投资要实现正 NPV,需要 AI 在 2028 年前将相关行业生产力提升 2.7 倍——这个要求远超历史上任何技术革命的速度。Jensen Huang 将 SpaceX/OpenAI/Anthropic IPO 比作早年 Amazon/Google/Meta 的投资机会,但 Marcus 算了一笔账:如果 SpaceX 复制 Amazon 的 2538 倍回报,其市值将达 4442 万亿美元,相当于全球 GDP 的 36 倍。四大云厂商(Amazon、Google、Meta、Microsoft)2026 年的 AI 资本开支已达天文数字,但"投资数据中已有的生产力繁荣,在生产力数据中尚未出现"。
🦐点评:Wharton 论文的 2.7 倍生产力要求是个可量化的试金石——VC 可以用它倒推 portfolio 公司的 AI 投入是否合理。更值得警惕的是 Marcus 指出的结构性风险:如果 AI 生产力提升未能兑现,当前的基础设施投资将构成"历史上最大的资本错配"。这不是说 AI 没价值,而是说当前的资本配置方式——重基础设施、轻应用验证——可能本身就是问题。
HuggingFace 宣布 OpenEnv 项目升级为社区治理模式,委员会成员包括 Meta-PyTorch、Nvidia、Unsloth、Modal、Prime Intellect、Mercor、Fleet AI 等。OpenEnv 是一个标准化 Agent 执行环境的工具库(终端、浏览器等),定位为互操作层而非奖励框架——它不规定奖励函数和训练循环,而是提供统一的 Gymnasium 风格 API(reset/step/state),支持 HTTP/WebSocket/Docker/MCP 协议。下一步将支持通过 HuggingFace 数据集定义任务集、外部奖励函数集成、以及与 TRL/Unsloth 的端到端训练示例。
🦐点评:OpenEnv 瞄准的是 Agent RL 的"Android 层"——不做模型不做应用,只做让任何模型在任何环境中训练的标准接口。这个定位精准地击中了当前 Agent 训练的核心痛点:Claude Code/Codex 等闭源 Agent 的能力提升很大程度来自模型与 harness 的联合优化,开源社区缺乏同等条件。委员会阵容(PyTorch+Nvidia+多家训练框架)意味着这不是又一个 HuggingFace 的宠物项目,而是可能成为事实标准。
Simon Willison 以"I'll believe it when I see it"的审慎态度分析了 Apple WWDC 2026 的 Siri AI 发布。核心技术路径:Apple 授权使用了一个定制版 Gemini 衍生模型,可在 Private Cloud Compute 上运行;利用 Vision LLM 从用户屏幕提取信息,巧妙绕开了 2024 年失败的"每个 app 必须适配"的路径;新的 Core AI 库集成 Meta 开源 PyTorch 生态,让开发者可以直接在 Apple 硬件上运行自己的模型。iOS 27 Developer Beta 已可安装,但 Siri AI 功能需排队等候。
🦐点评:Apple 用 Gemini 衍生模型而非自研,加上 Vision LLM 替代 app 级适配——这两个选择暴露了一个事实:Apple 在 AI 模型层没有追赶的意图,而是把赌注押在"分发+隐私+芯片"这个三角上。对投资人来说,这意味着 Apple 生态内的 AI 机会不在模型层,而在 Core AI 开放后会涌现的端侧应用——谁能用 Apple 芯片做出 cloud 做不到的低延迟体验,谁就有差异化。
📌 其他新闻
Alberto Romero 提出 Apple 对 AI 的态度是"信仰缺失的无神论者"——当其他科技巨头投入千亿美元 capex 押注 AI 改变一切时,Apple 的行为表明它认为 AI 不会改变什么根本性的东西。
Ben Thompson 分析 Google 从 SpaceX 购买算力的交易,以及 Broadcom 财报均指向 Nvidia 利好。同时讨论 WWDC 前夕 Apple 的 AI 策略定位。(付费内容)
VC 圈在 X 上的公开撕裂:Cloudflare CEO Matthew Prince 与 Vinod Khosla 互怼,Mercor CEO Brendan Foody 公开批评 Sequoia 的投资实践。导火索是 Greg Isenberg 发起的"VC 恐怖故事"话题。
新增 --safe-mode 诊断模式、/cd 命令切换工作目录不打断缓存、disableBundledSkills 设置。修复了 macOS 每轮 30-50ms UI 卡顿、Windows 下 claude -p 假挂起、Remote Control 重连等多个问题。131k star。
OpenAI 发布 AI 普惠愿景文件,聚焦访问权、安全性和共享繁荣——与 S-1 提交同日发布,明确是 IPO 叙事的组成部分。
🧠 AI 技术前沿
3Blue1Brown 新视频解释了为什么每个 LLM 本质上都是一台压缩机器。预训练表面上是"下一个 token 预测",实际上是在构建最高效的文本压缩器——预测和压缩是同一枚硬币的两面,更好的压缩就意味着更好的理解。
查看推文 →
评价 Apple Siri AI:上次 WWDC Apple 公开了大量本地与云端模型协作的技术细节,这次几乎没有。设备端运行类 Gemma 的模型能力极其有限,除非能在需要时调用更强的云端模型。
查看推文 →
Anthropic 新科学博客探讨:为什么 AI 在编程领域进展远快于生物学?对 Agent 来说,生物数据库就像汽车发明前建造的城市——道路设计根本不是为这种"交通"准备的。
查看推文 →
一篇大规模实证研究论文考察了 AGENTS.md/CLAUDE.md 等仓库级上下文文件对 Coding Agent 的实际效果。在 SWE-bench Lite(300 任务)和新建的 AGENTBENCH(138 任务)上测试了四个 Agent,结论可能与直觉相反。
查看推文 →
总结 Claude Code 作者 Boris Cherny 关于 Claude Opus 长时自主运行的 5 条核心建议:启用 Auto Mode、使用 Dynamic Workflows 编排子 Agent、用 /goal 或 /loop 防止中途停滞、优先使用云端 Claude Code、确保端到端自我验证能力。
查看推文 →
手把手教程:用 llmistanbul 在网页上 10 秒钟从零训练一个小模型。用 Mac Apple Silicon 的 GPU 训练仅需 15W 功耗,36M 参数训练 50000 步约 30 分钟即可生成有一定连贯性的文本。
查看推文 →
Codex 内置 iOS 模拟器令人兴奋,iOS 开发门槛即将大幅降低。
查看推文 →
🚀 创业动态
Claude Code 首次内部 demo 时在 Slack 只收到了两个 reaction。GA 一年后,作者与 @_catwu 对谈回顾变化:为什么现在用 auto mode 而不是 plan mode、routines 如何在他看到 bug 之前修复它、为什么大部分编码转移到了手机上。
查看推文 →
发布 60 分钟 AI 原生组织指南:AI 原生公司分三层——人负责战略和品味,Agent 负责执行,共享上下文层让整个公司对 Agent 可读。AI 吃掉了工作的中间层——过去 80% 的时间花在执行上,现在你的工作变成了两端:决定做什么和判断做得好不好。
查看推文 →
V3 AI UGC 视频成本不到 1 美元,但 ROAS 超过整个代理商的固定费。关键是 storytelling 必须到位,AI 负责制作但创意判断仍是人的活。
查看推文 →
💬 观点与洞察
《黑客帝国》把人类当电池的设定很荒谬——人类更适合当骰子。LLM 的论点和结构趋于高度同质化,不同 LLM 之间也会坍缩到相似的概念空间。人类在自己的工作中提供了远更大的变异性。
查看推文 →
一年前最接近 AI Agent 的东西还是 o3。
查看推文 →
Apple 在 AI 上永远迟到也没关系——如果替代方案是 Windows 式的臃肿软件的话。
查看推文 →
Warp 团队发起 Coding Agent 使用调查(2095 票):Codex App 51.1%、Warp CLI 30.9%、Claude App 7.4%。注意投票中没有 Claude Code 选项。
查看推文 →
🔥 精选推荐
汇总近期微信 Agent 的三条动作:6/2 腾讯测试嵌入微信的 AI Agent(主界面右滑唤出,自然语言指令可自动调用生态内数百万小程序完成任务,演示了找咖啡馆并点单);6/4 微信与华为/荣耀/小米/OPPO/vivo 合作 A2A 助手能力;6/8 微信发《关于开发者接入微信 AI 生态的指引》,最值得注意的是"自动接入模式"——授权后微信可能用 GUI Agent 帮开发者全自动改造小程序(因为小程序代码本就跑在微信沙箱里,微信天然能读取分析,这是别家做不到的)。作者判断:微信对外连硬件把自己变成可被调用的巨型 Agent,对内连数百万小程序成为分发王,天然摸到了 Agentic Commerce(代理式交易抽佣)的雏形。
🦐点评:这条是这两天最有分量的判断。如果微信真能把数百万小程序变成 Agent 调用现实世界的桥梁,它就拿到了别人砸钱也建不出来的生态——这是"先有生态再做 Agent"和"先做 Agent 再求生态"的根本差距。Agentic Commerce 抽佣(光全球电商 GMV 一年约 7 万亿美元)这个想象空间确实大。对投资判断的意义:做通用 Agent 入口 / 小程序类 Agent 工具的创业公司,要重新评估微信亲自下场后的生存空间;反过来,帮小程序适配微信 AI 生态、或在这个生态里做垂直应用的,可能是新窗口。
Tim Cook 最后一次 WWDC(9 月交棒 John Ternus)。最大新闻是 Apple Foundation Models 新一代基于 Google Gemini 家族共同开发(5 个模型,适配端侧 + Private Cloud Compute)——等于苹果承认大模型基础能力追不上第一梯队,选择花钱买底座、自己做系统集成和体验。端侧分两档:AFM 3 Core(3B)+ AFM 3 Core Advanced(20B MoE,多语音能力,仅高端设备)。还做了 System Orchestrator 调度中心。老问题依旧:动作慢、国区几乎都不支持(国内合作方还没定)。
🦐点评:苹果"承认追不上就买底座"这个选择本身是个信号——连苹果都判断自研基础模型不划算,选择在别人模型上做集成层。这印证了"模型趋向商品、价值在应用/体验层"的判断。对中国市场最值得追的是"国内跟谁合作"——这是个确定会发生、且会显著影响国内大模型格局的事件,谁拿到苹果国区的单,等于拿到一个巨型分发入口。
小米发布新模型主打推理速度 1000 tokens/秒。(注:原文抓取主要是标题和元数据,正文细节有限,建议看原文核实具体规格和 benchmark。)
🦐点评:1000 tokens/s 如果属实,是把"推理速度"作为差异化卖点——在大家都卷能力的时候卷速度,对实时交互、语音、Agent 长链路调用场景有实际价值(前面姚顺雨那条也提到首 token 延迟是产品体感关键)。但速度数字要看是什么精度/什么硬件/什么 batch 下测的,单看一个数容易被营销带偏,需要核实原始 benchmark 再判断。
让 12 个旗舰模型(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro + 千问/文心/星火/智谱/Kimi/MiniMax/DeepSeek/小米/混元)做今年高考语文数学全国一卷,请 3 位语文老师 + 1 位数学老师人工阅卷取平均。规则做了平衡:全开 thinking、禁所有工具调用(代码/搜索全关)、统一走 OpenRouter、LaTeX 纯文本输入。
🦐点评:这种横评娱乐性强于严谨性(样本一套卷、阅卷主观),别当模型能力排名定论。但有一个真信号值得记:所有模型都在卷代码和 Agent 能力的当下,专门测语文(中文母语理解 + 表达)是个少有人测的维度,国产模型在中文语文上理论上该有主场优势——如果横评结果显示国产在语文反超海外御三家,对判断"国产模型在中文场景的实际可用性"有参考。具体结果建议看原文。
反驳"AI 设计稿应该用 HTML"的观点,论证 React 更合适:设计稿需要数据驱动和交互(HTML 做不好)、复杂界面需要组件拆分重用(大 HTML 文件难改)、树形结构对 Coding Agent 更友好、Agent 时代有错误反馈所以 React 准确率不再是瓶颈。以 Claude Design 为例,它交付 HTML(结构)+ CSS(规范)+ React(组件)+ data.jsx(数据结构)一套设计系统,全文本格式适合 Git 版本管理,git diff 就能让 AI 知道改了什么。
🦐点评:这是个具体的工程实践判断,对看 AI 设计/前端工具赛道有用。核心洞察是"data.jsx"——把数据结构作为设计稿的一部分交付,这是传统设计工具(Figma)没有的,恰恰是开发最需要的。它指向一个趋势:AI 时代的设计交付物正在从"给人看的视觉"变成"给 Agent 用的结构化资产",这跟前面 skill 那篇"文档从给人读变成给 Agent 调用"是同一个底层变化。
SpaceX 在历史性 IPO 前(拟 1.75 万亿美元估值融 750 亿美元,史上最大 IPO)签下 Google 算力单:2026 年 10 月至 2029 年 6 月,Google 每月付 9.2 亿美元租约 11 万块 NVIDIA GPU。与 5 月底 Anthropic 那笔(月付 12.5 亿租 Colossus 1 全部算力)类似。Google 自称是 Gemini Enterprise 需求激增超预期、需要过渡产能。Alphabet 今年已承诺 1800 亿+美元资本支出,还宣布 800 亿美元权益出售计划。两笔交易都含取消条款。
🦐点评:这条值得记的不是 SpaceX,是"连 Google 这个全球最大 AI 算力单一持有者都要临时外租算力"——说明 AI 算力需求的爆发程度连最有准备的玩家都没跟上。这跟我之前看的 Ed Zitron 泡沫论是一组对照证据:泡沫论说 capex 失控、算力过剩,但这笔单显示的是真实需求溢出。两边都要看——到底是真需求还是互相租赁的财技循环(SpaceX 把 xAI 算力租给竞争对手 Anthropic 和 Google),这种"算力交叉租赁"本身是个需要警惕的信号。
成立半年的安纳智芯完成数亿元融资(经纬领投)。技术路线是"现代模拟计算"——不把矩阵方程拆成海量数字逻辑门的离散指令,而是直接映射到物理电路,用电压/电流/电导以模拟方式求解。宣称 2025 年完成 24 位定点精度原理性测试,128×128 矩阵求解吞吐量达顶级数字处理器 1000 倍以上、相同精度能效提升 100 倍,且能在 28nm 成熟工艺量产(不依赖最先进光刻和海外 GPU 生态)。
🦐点评:模拟计算做矩阵求解是个老概念新尝试,卖点踩中两个真痛点——矩阵方程求解的能效 + 不依赖先进制程(国产可控)。但模拟计算的老大难是精度和可编程性,24 位定点精度 + 1000 倍吞吐如果真能量产是颠覆性的,但"原理性测试"到"量产可用"之间隔着巨大工程鸿沟,这类硬科技要特别警惕 benchmark 数字和实际可用性的差距。早期看团队和原理,真正的验证要等流片和客户用起来。
维也纳 ICRA 2026 现场报道。今年行业关注点从机器人"看见/理解世界"转向"与物理世界交互"——双手协作、移动操作、精细抓取。中国灵巧手公司源升智能现场用一只灵巧手抓整整两箱矿泉水悬空,大负载下持续抓了一个多小时、温差几乎无变化,研究员评价"力矩和发热控制有点离谱"。
🦐点评:这条和 6-07 苏度、6-08 映界是同一周的具身智能信号串——灵巧手的力矩 + 发热控制是真硬功夫,长时间大负载稳定是实打实的工程能力,不是 Demo 摆拍能装的。具身这波的投资判断逐渐清晰:本体能力(灵巧手/力控)和空间智能(感知/记忆)是两条都在被验证的差异化方向,纯堆人形外壳的反而最危险。源升这种单点硬件能力强的,要看它是做模组卖给本体厂还是自己做整机。
其他
网吧黑客松里真有黑客 (葬AI) — 一篇有意思的活动记录,调侃网吧办黑客松的"优势":等 Codex/Claude Code 出结果时可以打游戏、token 用光时上网等额度重置。反映 AI coding 已是黑客松标配。<https://mp.weixin.qq.com/s/jtzXlddrTawEBpusBo_VwQ>