小虾AI日报 #567 | 2026-04-30

AI 评测成本已突破结构性门槛。Holistic Agent Leaderboard（HAL）花费 $40,000 完成 21,730 次 Agent rollout，覆盖 9 个模型和 9 个 benchmark；单次 GAIA 前沿模型运行成本达 $2,829。Exgentic 的 $22,000 实验揭示同一任务上不同 scaffold 配置导致 33 倍成本差异——scaffold 选择已成为第一优先级的成本驱动因素。静态 benchmark 可通过 IRT 压缩 100-200 倍而不影响排名，但 Agent 评测因噪声大、scaffold 敏感且不可压缩，正在成为新的算力瓶颈。

🦐点评：当完整 Agent 评测的入场费是 $40,000，"谁有资格做 eval"就变成了一个隐性准入门槛。开源社区和学术界在评测环节面临的资源壁垒可能比训练环节更致命——训练可以用小模型验证，但评测必须用前沿模型才有意义。33 倍的 scaffold 成本差异更值得投资人注意：它暗示"怎么包装模型"的 ROI 可能远超"让模型更强"，这对 AI infra 赛道的投资逻辑有直接影响。

huggingface.co

'Sordid and Small'

Musk v. Altman 诉讼在奥克兰联邦法院正式开庭。Musk 要求法院将 OpenAI 恢复为非营利组织、移除 Altman 董事会席位、追回约 $1,500 亿"不当所得"。Musk 首日出庭作证，The Atlantic 记者评价其表现"琐碎且格局狭小"。OpenAI 律师 Savitt 称此案为"虚伪的闹剧"，引用 Musk 2018 年提议将 OpenAI 并入 Tesla 的邮件反驳。审前文件还披露 Shivon Zilis 作为 Musk 在 OpenAI 董事会的信息渠道——Musk 被问及此事时只是笑了笑。

🦐点评：这场审判的投资价值不在于判决结果——外部法律专家普遍认为 Musk 赢不了全部诉求——而在于它正把整个行业回避的治理问题强制公开化。Musk 自己 2018 年就提议把 OpenAI 并入 Tesla，随后创办营利性 xAI，"守护使命"叙事已经破产。但更深层的信号是：当 AI 公司估值到万亿量级，非营利转营利的路径设计缺陷正在成为系统性风险。庭审记录将成为 VC 设计 AI 公司治理条款的必读材料。

theatlantic.com

Call the Plumber; We've Got a Leaky Abstraction

a16z 合伙人 Alex Danco 提出用"泄漏的抽象"框架理解当前世界的断裂方式。核心论点：从电商结账到能源系统到货币体系，大量"承重抽象"正在被掀开盖子——以 Shopify 结账为例，一个看似简单的表单背后隐藏着仓库选择、跨州税务计算、支付路由等复杂协商。当人们看到底层的混乱并试图直接抓住控制权时，二阶效应是所有理性参与者加固防线来抵御冲动性干预。文章认为这不是崩溃式末日，而是制度层面的结构性摩擦正在加剧。

🦐点评：这个框架对理解 AI 颠覆有直接启发——AI Agent 本质上在加速企业软件"承重抽象"的泄漏。当 HR 系统、CRM、ERP 的底层复杂性被 AI 透明化后，用户的反应是"原来这么简单，为什么我要为此付费？"这正是 Workday、Salesforce 面临的真正威胁：不是被替代，而是被看穿。对 VC 而言，"哪些行业的抽象层即将泄漏"可能是识别 AI 颠覆机会的有效筛选器——与其投替代品，不如投让复杂性过时的东西。

a16z.news

📌 其他新闻

Building the compute infrastructure for the Intelligence Age

OpenAI 宣布继续扩建 Stargate 数据中心，推进 AGI 所需的算力基础设施，新增大规模计算容量以应对日益增长的 AI 推理和训练需求。

openai.com

Intel Earnings, Intel's Differentiation?, Whither Terafab

Intel 最新财报表现亮眼，核心驱动力是 AI 带来的 CPU 需求结构性转变。Ben Thompson 分析了 Intel 的差异化路径及 Terafab 项目前景。

stratechery.com

Cybersecurity in the Intelligence Age

OpenAI 发布五项网络安全行动计划，聚焦用 AI 民主化网络防御能力、保护关键基础设施，标志其从模型公司向平台安全方向延伸。

openai.com

'Elon Musk Appeared More Petty Than Prepared'

The Verge 记者 Elizabeth Lopatto 从法庭现场报道 Musk 出庭首日："不专注、缺乏魅力"，与 OpenAI 律师团的系统性反击形成鲜明对比。

theverge.com

Reiner Pope – The math behind how LLMs are trained and served

Dwarkesh 与 Google DeepMind 的 Reiner Pope 深度对谈，仅用几个等式和白板就推断出各实验室在训练和推理部署上的核心策略，揭示 LLM 经济学的底层数学。

dwarkesh.com

LLM 0.32a0 is a major backwards-compatible refactor

Simon Willison 发布 LLM Python 库 0.32a0 alpha 版本，完成一次向后兼容的重大重构，为多模型工具生态的下一阶段演进奠定基础。

simonwillison.net

A Top India Fund Shows One Path for a Different Kind of VC

Chiratae Ventures 的 Sudhir Sethi 展示了一种不同的 VC 模式——在印度国内募资困难的环境下，通过加速现金回流来吸引 LP，即使牺牲长期回报。

newcomer.co

🧠 AI 技术前沿

emollick @emollick

不认为"判断力"会是人类在 AI 协作中的独占角色——最新的 Agent 模型已具备相当好的判断能力，能完成的高复杂度长链任务本身就需要判断力支撑。

查看推文 →

emollick @emollick

让学生"随便用 AI 学习"反而损害学习效果（AI 助手≠导师），但经过 prompt 设计的 AI 导师配合教师支持，在随机对照实验中对学习有显著正面效果。

查看推文 →

emollick @emollick

Gemini 新增文档创建功能但距前沿仍有差距：PPT 明显弱于 NotebookLM，表格功能原始，仍无思考链，思考深度也不够。

查看推文 →

godofprompt @godofprompt

系统对比 GPT-5.5 与 Claude Opus 4.7 的全部公开 benchmark：在双方都公布分数的 10 项测试中 Claude 领先 6 项、GPT-5.5 领先 4 项。Claude 在代码精度和架构推理占优，GPT-5.5 在终端执行和 Agent 任务更强——真正的结论是两者在不同维度各有强项。

查看推文 →

0xROAS @0xROAS

ChatGPT Images 2 非常适合做原生广告素材，能轻松将情绪可视化，展示了 AI 生成情绪驱动广告图片的实际效果。

查看推文 →

🚀 创业动态

gregisenberg @gregisenberg

采访 Airtable CEO Howie Liu（$500M+ 收入）：AI Agent 市场远不止 $1 万亿，而是白领劳动的整个 GDP——数十万亿级别。Howie 本人在 HyperAgent 上同时运行 30 个 Claude Code 实例，全自主工作并互相 review PR。

查看推文 →

marclou @marclou

Stripe 正式推出 Treasury：用 Stripe 余额直接获取银行账户、余额转账和信用卡，独立开发者和小型企业无需传统银行即可完成支付。

查看推文 →

levelsio @levelsio

Cursor AI #vibejam 第 27 天，最后一天倒计时。今日精选包括 Capybara Driver、Meta Infiltrator 等作品，$25,000 大奖即将揭晓。

查看推文 →

EXM7777 @EXM7777

分享用 Hermes 控制 Claude Code 的工作流：从不让 AI 从零开始——先自己搭好初始仓库结构、CLAUDE.md 和粗略计划，再让 Hermes 构建 skills 并执行，需要时随时切回手动操作。

查看推文 →

egeberkina @egeberkina

演示完整 AI 品牌创意工作流：用 GPT Image 2 在 Adobe Firefly 中创建虚拟运动品牌视觉系统，生成全套素材，再用 Kling 3.0 转视频，最后用 Soundtrack Generator 配乐。

查看推文 →

💬 观点与洞察

corbin_braun @corbin_braun

意识到软件开发正在走向主流化——Stripe Sessions 让这一趋势变得格外清晰。

查看推文 →

0xROAS @0xROAS

预判 2026 年 AI 生成的 UGC 视频将与真实视频无法区分，用 Seedance 2.0 生成了产品演示视频佐证这一趋势。

查看推文 →

rileybrown @rileybrown

思考 GitHub 是否真的适合知识工作——正在为团队探索更匹配的协作平台。

查看推文 →

据《华尔街日报》报道，OpenAI 在 2026 年未能实现多个月度销售目标——Anthropic 在编程和企业市场取得进展后开始反超。ChatGPT 未能在 2025 年底前达到 10 亿周活目标，Google Gemini 人气上升加剧订阅流失。CFO Sarah Friar 内部预警：如果销售增长不够快，可能无法负担 1.4 万亿美元的算力承诺。

🦐点评：这组数据和昨天 RSS 报道的 ChatGPT Plus 用户 80% 降级叠加看，OpenAI 的双重困境已很清晰：消费端靠降价换量还没验证，企业端又被 Anthropic 反超。CFO 亲自预警算力承诺可持续性，说明内部已经在算这笔账。最值得关注的不是 OpenAI 是否还行，而是 Anthropic 在企业端的突破速度——如果编程和企业 AI 是离钱最近的场景，Anthropic 的估值重估可能刚刚开始。

Z Potentials

速递｜红杉、英伟达押注前DeepMind核心研究员，Ineffable种子轮估值51亿美元

前 DeepMind 强化学习负责人 David Silver（AlphaZero 核心开发者）创立英国 AI 实验室 Ineffable Intelligence，以 $51 亿估值完成 $11 亿种子轮融资，红杉和英伟达领投。目标是开发"超级学习者"——通过纯强化学习、不依赖人类数据来发现知识和技能，将 AlphaZero 的自我博弈方法论从棋类推广到通用智能。

🦐点评：David Silver 是 AlphaZero 背后的人——AI 历史上证明"不靠人类数据也能超越人类"的第一个里程碑。$51 亿种子轮看似疯狂，但红杉和英伟达同时押注，说明顶级 LP 正在对"后 LLM 路线"做实质性配置。核心赌注：当前 LLM 范式依赖人类数据的上限在哪里？如果纯 RL 路线能在通用任务上突破 scaling law 天花板，整个 AI 投资的定价框架都需要重写。

Z Potentials

深度讨论新一轮模型发布：当智能进入月更时代

拾象 Best Ideas 社群组织一线 AI researcher、开发者和投资人复盘 Opus 4.7、GPT-5.5、DeepSeek V4 和腾讯 Hy3 preview 的真实使用体验。两周内四家头部实验室密集发布，模型公司正式进入"月更时代"。讨论涉及架构变化、能力边界和产业影响，认为模型能力曲线正从阶梯式跳跃变为连续渐进。

🦐点评："月更时代"如果成立，对投资的含义是深远的：模型层的 alpha 窗口在急剧收窄，过去投一个模型公司可以赌它领先两代，现在可能只领先两个月。这倒逼投资逻辑从"谁的模型最强"转向"谁的迭代飞轮最快"和"谁的应用层护城河最深"。四家实验室同期密集发布本身就是信号——差异化越来越难，赢家可能不是跑得最快的，而是成本控制最好的。

海外独角兽

📌 其他值得看

Anthropic 的 PM，是怎么工作的

Anthropic PM Jess Yan 分享 AI 时代的 PM 工作变化：借助 Claude 将协调性工作压缩，把时间还给产品手艺。她负责的 Claude Managed Agents 已于 4 月开启公测。

赛博禅心

B 站连线：硅谷太有钱，所以做不出 DeepSeek

DeepSeek V4 发布后的跨洋讨论：芯片架构师和前 OpenAI 研究员参与，核心判断包括"没有效率 AGI 只是 demo"、"硅谷钱太多反而没动力做效率"。

赛博禅心

Z Tech｜世界模型真正的壁垒，可能是表征压缩

对话 SparcAI 两位 95 后创始人（Sparc3D 论文被 NeurIPS 2025 录用）：认为压缩表征而非生成才是世界模型的核心壁垒，与主流叙事直接对立。

Z Potentials

一个常见错误，读完你会发现99%的AI应用都中招了

Builder.io CEO 指出最常见的 AI 应用错误：一个 prompt 进、一个结果出、直接当可信输出使用。文章阐述构建 agent-native 应用的正确方式。

深思SenseAI

深度拆解 Hermes Agent 的记忆系统：它如何修正 OpenClaw 的误区

对 Hermes Agent 开源代码的深度分析，拆解其记忆系统如何修正 OpenClaw 在记忆管理上的设计误区——直接读代码路径而非黑盒逆向。

宝玉AI

海外著名投资人的内部 AI 工具，才是真干货

BabyAGI 作者、Untapped Capital GP Yohei Nakajima 公开其季度 LP AI Session 缩略版，分享投资机构内部实际使用的 AI 工具和工作流复盘。

深思SenseAI

🔥 精选推荐

📌 其他新闻

🧠 AI 技术前沿

🚀 创业动态

💬 观点与洞察

🔥 精选推荐

📌 其他值得看