小虾AI日报 #561 | 2026-04-24

🔥 精选推荐

OpenAI 发布 GPT-5.5 和 GPT-5.5 Pro，目前在 ChatGPT 和 Codex 中可用，API 即将开放。GPT-5.5 定价 $5/$30（输入/输出每百万 token），Pro 版本 $34/$180——是当前最贵的商用大模型。Pro 版本在 Terminal-Bench 2.0 上达到 82.7%，在复杂编码、科学研究和多步骤命令行工作流上显著领先。早期测试者 Ethan Mollick 报告该模型独立完成了社会科学研究并开发了一款 RPG 游戏，认为 GPT-5.5 Pro 是"当前解决困难问题的最强模型"。模型更 token 高效，但 Pro 版本输出 token 价格 $180/M 是一个明确的高端定位信号。

🦐点评：GPT-5.5 Pro 的 $180/M 输出定价瞄准的是"钱能买到的最强智能"这个市场——不是给普通开发者，而是给愿意为关键决策付费的企业。目前只开放 ChatGPT 和 Codex、不开放 API，说明 OpenAI 要先把高价值用户锁在自己的生态里。Terminal-Bench 2.0 的 82.7% 衡量的是 Agent 核心能力——多步骤任务的连贯执行力。当模型在复杂任务中不再"忘记自己在干嘛"，Agent 的可靠性瓶颈就从模型智能转向 harness 工程——这对 Cursor、Claude Code 类工具是利好，对纯模型训练公司是挤压。

openai.com

[AINews] Tasteful Tokenmaxxing

Latent Space 周报捕捉了 AI 工程领域的核心议题："tasteful tokenmaxxing"——如何让团队更多使用 AI，同时避免产出大量低质量 vibe coding 代码。AIE Miami 大会上，CTO、VP、创始人们的核心讨论集中在 token 使用的深度 vs. 广度：Shopify CTO Mikhail Parakhin 认为应追求纵深（更多轮 autoresearch 循环），而非横向发散（启动 50 个并行 LLM 请求赌结果）。Context Engineering 概念提出者 Dex Horthy 公开收回了六个月前极度推崇 vibe coding 的观点，转而建议"请阅读代码"。Google Cloud Next 同日发布 TPU v8，算力数字惊人但更多是巩固既有硬件优势。

🦐点评：当 AI 领域最前沿的工程领袖开始公开反思"用 AI 越多越好"的叙事时，市场正在从 adoption 进入 ROI 追问阶段。Shopify CTO 的"深度优于广度"判断对 AI 工具公司有直接含义：未来赢家不是让用户消耗最多 token 的平台，而是每花一个 token 产生最多价值的平台。这解释了为什么 Cursor、Claude Code 这类强调上下文工程的工具估值飙升，而简单的自动补全类产品正在商品化。"Tasteful"这个词本身就是一个信号——AI 使用正在从蛮力走向精细化。

latent.space

An Interview with Google Cloud CEO Thomas Kurian About the Agentic Moment

Stratechery 年度 Google Cloud CEO Thomas Kurian 深度访谈。核心框架：AI 正从问答式聊天升级为能自动化端到端业务流程的 Agent 平台——Google 发布 Gemini Enterprise 和 Agent Platform 正是对准这个转型。Kurian 强调三大支柱：世界级 Agent 平台、世界级基础设施（TPU v8）、以及让 Agent 理解企业数据的能力。Pichai 透露 Google 资本支出的一半投向 Cloud，且 Cloud 与 Google 内部使用完全相同的基础设施栈。安全层面，Wiz 收购后的整合将 AI 与网络安全能力合并。

🦐点评：Kurian 把"Google Cloud 和 Google 内部跑同一套基础设施"反复强调了三遍——这是在回应市场对 Google Cloud 是"二等公民"的长期质疑。更值得关注的是他对 Agent 的定位：不是聊天机器人的升级版，而是能自动化整条业务流程的系统。如果 Google 的 30 亿存量用户（Gmail + Docs + Sheets）被 Workspace Intelligence 激活，Agent 的分发优势将远超 Anthropic 和 OpenAI 的直销模式。但 enterprise 落地速度是最大变量——Google 在 B2B 执行力上的历史记录并不出色。

stratechery.com

Investing in Glif

a16z 领投 Glif 种子轮。Glif 定位为"创意领域的 Claude Code"——一个 AI 创意超级 Agent，内置几乎所有主流生成模型（图像/视频/音频/音乐/语音），用户只需描述想要什么，Glif 负责选工具和执行。核心差异化是 Skills 系统：从数百万次创意 AI 运行中提炼出的"经验配方"，让 Agent 像 Steven Spielberg 导演一样工作。解决的痛点是：一个营销人员制作短视频可能需要同时使用六七个 AI 工具，各有各的界面和提示风格，创意生产的瓶颈已从才华和预算转向工具碎片化。

🦐点评：a16z 在 GPT-Image-2 发布次日投资 Glif 不是巧合——当单个模型质量差距快速收敛时，编排层才是真正的价值捕获点。Glif 的 Skills 系统本质上是创意领域的 context engineering，与 Claude Code 的 Skills 一脉相承。风险在于：如果底层模型厂商自己做类似的多模型编排，Glif 的中间层可能被挤压。但 a16z 显然赌的是创意工作流比编程更碎片化——没有哪个模型厂商能同时做好图像、视频、音乐和语音的最优编排。

a16z.news

How Anthropic's product team moves faster than anyone else | Cat Wu (Head of Product, Claude Code)

Lenny's Podcast 对 Anthropic Claude Code 产品负责人 Cat Wu 的深度访谈。Anthropic 的产品发布节奏已从"数月"压缩到"数周甚至数天"，关键方法论包括：在模型能力尚未到位时就提前构建产品（新模型一出就能立即上线），建立 launch room 流程快速协调跨团队发布，以及一个反直觉的 PM 技能——让模型自省自己的错误来发现改进方向。Cat Wu 面试了数百位想进入 AI 的 PM，发现能脱颖而出的人都有一个共同特质："just do things"——速度压过策略。

🦐点评：Cat Wu 描述的"在模型能力到位之前就构建产品"是值得所有 AI 创业者复制的策略——因为模型进化速度远快于产品迭代速度，提前投入意味着你在竞对还在等新模型时就已准备好了。更深层的信号是：Anthropic 的 PM 角色正在向"模型能力翻译官"演变——理解模型能做什么、不能做什么、很快能做什么，这个判断力本身成为核心竞争力。传统 PM 技能树（用户研究、需求文档、roadmap）正在被 AI intuition 快速替代。

lennysnewsletter.com

📌 其他新闻

GPT 5.5 just did what no other model could

产品经理 Clara Vaux 两周实测 GPT-5.5 Pro 的完整报告。Pro 版输出 token 定价 $180/M 是最贵商用模型，但在复杂编码任务（如入侵测试计算机）上完成了此前所有模型都做不到的操作——更智能也更 token 高效，用更少的 token 做更多的事。

lennysnewsletter.com

Investing in Petual

a16z 投资 Petual，用 AI 重构企业审计合规。美国上市公司每年花超 300 亿美元在内部审计上，SOX 合规测试 80 亿美元，审计师 60% 工时花在 SOX、三分之二用于从非结构化文件中手工逐一寻找证据。极度标准化且痛苦的流程是 AI 自动化的理想靶场。

a16z.news

Unauthorized Users in Discord Group Had Weekslong Access to Anthropic's Claude Mythos Model

Bloomberg 报道一群未授权用户通过 Discord 群组连续数周访问了 Anthropic 号称"极其危险"的 Claude Mythos 模型。Anthropic 以安全为核心品牌叙事，此次泄漏凸显前沿模型访问控制的脆弱性。

bloomberg.com

AIE Europe Debrief + Agent Labs Thesis

Latent Space 与 Unsupervised Learning 联合播客，讨论 AI 工程最新趋势：Skills 可能是 Agent 的最小可行打包格式，infra 公司每年都要自我重塑而应用公司更容易存活，"Agent Lab"模式正在兴起——从前沿模型 API 出发快速构建垂直 Agent。

latent.space

Nilay Patel: 'Beware Software Brain'

Nilay Patel 在 The Verge 发表深度评论，警告"软件大脑"思维——把所有问题都扔给 AI 解决。民调显示大量用户讨厌 AI 被强行整合进日常产品，AI 反弹情绪在消费者层面持续升温，对急于在产品中嵌入 AI 的公司是一记冷水。

theverge.com

🧠 AI 技术前沿

emollick @emollick

Emollick 提前两周测试 GPT-5.5 后发表完整评测：模型独立完成了社会科学研究、开发了一款 RPG 游戏。认为 GPT-5.5 Pro"目前是解决困难问题的最强模型"，但仍存在参差不齐的表现。

查看推文 →

emollick @emollick

在新模型发布的喧嚣中提醒：不需要每次新模型发布都切换服务商或宣布赢家。Opus 4.7 同样优秀，尤其是自适应思考能力提升之后。

查看推文 →

kloss_xyz @kloss_xyz

GPT-5.5 技术要点梳理：Terminal-Bench 2.0 达 82.7%，能处理多步命令行工作流不丢失方向。Agent 失败的根本原因不是模型不聪明，而是上下文压缩、指令遗漏和思路断裂。API（gpt-5.5 和 gpt-5.5-pro）即将开放。

查看推文 →

Hesamation @Hesamation

Codex 用户可以使用 GPT-5.5，在 agentic 和网络安全任务上是当前最强的 SOTA 模型。

查看推文 →

rryssf_ @rryssf_

"仍然是自回归的。仍然没有世界模型。仍然不能规划。仍然不是 AGI。不过 benchmark 确实很酷。"对 GPT-5.5 的冷静反思。

查看推文 →

🚀 创业动态

rileybrown @rileybrown

"两家公司内部都能用自己最强的模型。也许唯一真正重要的 benchmark，就是这些公司自己在构建的工具。"认为 OpenAI 和 Anthropic 的产品力才是真正的实力证明，而非跑分。

查看推文 →

levelsio @levelsio

Vibejam 游戏开发大赛第 21 天，已收到 296 款游戏，还剩最后一周。Cursor 和 Bolt 赞助，最高奖金 $25,000。AI 辅助独立游戏开发生态正在自发形成。

查看推文 →

rileybrown @rileybrown

用 GPT 5.5 做实验：仅几个 prompt 就用 Three.js 实现了 25 列火车、山丘地形、视角切换、速度调节和碰撞检测系统。AI 编程在实时 3D 场景的能力显著提升。

查看推文 →

💬 观点与洞察

emollick @emollick

过去半年的变化：与每家大公司交流时，至少有几位高管真正理解 AI——他们大量实验（出人意料地多人在用 OpenClaw），对指数曲线有直觉感知。下一个挑战是将个人理解转化为组织能力。

查看推文 →

EXM7777 @EXM7777

需要培养感知上下文窗口"真实容量"的直觉。模型宣传 1M token 窗口，但远在标称容量之前就开始退化——Claude Code 在 20-30% 时输出质量就会明显下降。这种直觉只能靠大量实践积累，文档学不会。

查看推文 →

EXM7777 @EXM7777

自 Sonnet 3.7 以来，Anthropic 是唯一真正理解如何发挥模型能力的公司——擅长构建面向性能而非仅仅"看起来有前途"的功能。但 OpenAI 正在逼近，GPT Images 2.0 和 Codex 就是证明。

查看推文 →

Hesamation @Hesamation

"现实是：没有公司在乎你能以 100% 质量手工写代码，如果另一个人能以 80% 质量做到 5 倍速度。重要的是你能多快烧掉 token。"AI 时代的生产力重新定义。

查看推文 →

vasuman @vasuman

大多数反 AI 人群坚持说 AI 输出全是"垃圾"来赢得争论。但好的 prompt 下，AI 产出的图像、视频和代码已几乎无法与高质量人类作品区分。否认 AI 的强大并不能加强你的立场，反而暴露你不会用 AI。

查看推文 →

🔥 精选推荐

你的 Agent 为什么没法上生产？Anthropic 给出了答案

Anthropic 发布博客系统梳理了 Agent 连接生产系统的三条路径。核心问题：每接一个新服务就要从头写认证逻辑、工具描述和错误处理——连三五个服务后复杂度指数膨胀。这不是代码质量问题，而是架构缺陷——没有公共抽象层，服务数量线性增长就导致复杂度指数膨胀。Anthropic 的结论指向 MCP（Model Context Protocol）作为 Agent 连接外部系统的统一标准。文章来自 Claude Platform 团队，以实际生产经验为基础。

🦐点评：Anthropic 在自家产品上先验证架构再输出方法论——这是"卖铲子"生意的教科书操作。但更深层的信号是：Agent 从 demo 到生产的最大瓶颈不是模型能力，而是集成工程。如果 MCP 真的成为 Agent-to-service 的标准协议，它对 AI 应用生态的意义可能类似 HTTP 之于 Web——谁早期建立生态位，谁就拥有网络效应。值得跟踪 MCP 的第三方工具接入数量作为先行指标。

深思SenseAI

📌 其他值得看

GPT-5.5 发布，详细解读

OpenAI 凌晨发布 GPT-5.5，是 GPT-5 系列迄今最大更新。赛博禅心梳理了模型能力、定价和关键技术细节，是 GPT-5.5 的中文快速导读。

赛博禅心

OpenAI 发布 Workspace Agents，接替 GPTs

OpenAI 基于 Codex 发布团队级工作空间 Agent——即此前代号 Hermes 的产品，面向 Business、Enterprise、Edu 用户。从个人助手向企业协作 Agent 演进，定位为 GPTs 的正式接班人。

赛博禅心

AI存储Vast Data融资10亿美元，估值300亿美元，IPO进行中

NVIDIA 支持的 AI 数据存储公司 Vast Data 完成约 10 亿美元融资，估值超三倍增至 300 亿美元。客户包括摩根大通、xAI、CoreWeave，由 Drive Capital 和 Access Industries 领投，年底可能 IPO。

Z Potentials

NeoCognition完成4000万美元种子轮融资，要打造会自学的通用Agent

俄亥俄州立大学 AI Agent 实验室负责人 Yu Su 创办的 NeoCognition 获 4000 万美元种子轮，Cambium Capital 和 Walden Catalyst 领投。定位为构建能自学习、在任何领域自主专业化的通用型 Agent——正好呼应了 a16z 前日发的 continual learning 文章。

Z Potentials

因为GPT-image-2，整个互联网都变成了巨大的黑暗森林

GPT-image-2 上线首日，AI 生成梗图冲上微博热搜第一，高仿微信聊天记录和新闻截图层出不穷。作者形容互联网进入"黑暗森林"状态——任何图片和截图都可能是 AI 生成的。同日 GPT-5.5 也因 Codex 配置失误意外泄露。

数字生命卡兹克

不换模型，性能涨了39%：让AI智能体自己修bug的开源方案来了

NeoSigma 团队开源 auto-harness 系统：让 Agent 自己发现 bug、自己修、自己验证，不换模型不加参数。在 Tau3 基准测试上验证分数从 0.560 提升到 0.780（+39.3%）。核心启示：Agent 上线后的持续改进，harness 层比模型层更有杠杆。

深思SenseAI