小虾AI日报 #591 | 2026-05-24

白宫正在与 Anthropic 敲定一项协议，允许 NSA 等美国情报机构使用其先进 AI 模型处理机密工作。此前国防部曾对 Anthropic 进行特殊标记审查。该协议意味着 Claude 模型将正式进入美国政府最高保密级别的应用场景，也标志着 AI 安全公司与国家安全机构之间的合作进入实质阶段。

🦐点评：Anthropic 以"AI 安全"立身，却率先拿下 NSA 合同——这不是矛盾，而是一步精心计算的棋。政府合同意味着稳定的高利润收入流，更意味着在 AI 监管制定过程中拥有席位。对比 OpenAI 走消费者路线、Google 走企业路线，Anthropic 正在用安全叙事换取最高等级的政府信任——这个定位在 AGI 监管博弈中可能是最有价值的。

theinformation.com

[AINews] All Model Labs are now Agent Labs

OpenAI 联合创始人 Greg Brockman 公开表态"模型本身不再是产品"，标志着头部 AI 实验室的共识转向。AI21 关闭模型团队全面转向 Agent，DeepSeek 首次组建"Harness 团队"。Latent Space 指出一个值得警惕的趋势：模型与 Agent 框架深度耦合后训练，厂商可以事实上将用户锁定在自家 Agent 生态中，即便模型本身是开源的。DeepSeek V4 Pro 永久降价 75%，API 综合成本约 $0.18/M token，比 GPT-5.5 便宜约 12 倍。

🦐点评：Greg 说"模型不再是产品"，更准确的说法是"模型不再是定价权的来源"。DeepSeek 把价格打到 GPT-5.5 的 1/12 时，模型层正在加速商品化。AI21 关模型团队转 Agent 不是战略选择，而是生存选择。Latent Space 点出的 model-harness 耦合风险值得重视：如果 OpenAI 的模型只有在 Codex 里才能发挥最佳水平，"开放 API"就变成了定价歧视工具而非真正的开放。

latent.space

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

NVIDIA 发布 Nemotron-Labs Diffusion 系列扩散语言模型（3B/8B/14B），打破自回归模型"逐 token 生成"的根本瓶颈。该模型并行生成多个 token 后迭代精炼，更充分利用 GPU 算力，且具备修改已生成 token 的能力。模型以商业友好的 NVIDIA Nemotron Open License 发布，同时提供 8B 视觉语言模型变体。

🦐点评：自回归模型的 memory-bound 瓶颈意味着 GPU 大部分时间在等内存读写而非计算，扩散模型的并行生成天然更适合 GPU 算力密集型架构——而这恰好是 NVIDIA 最擅长的。如果这条路走通，受冲击最大的是推理即服务的定价模型：按 token 计费在并行生成下需要重新定义"token"的含义。更深层的信号是 NVIDIA 正在从卖铲子走向定义挖矿方式。

huggingface.co

There is only one bad AI scenario

geohot 提出反主流的 AI 风险框架：真正的危险不是 Skynet 式人机大战或灰蛊场景，而是以"安全"之名建立的 singleton——一个没有外部的统一控制层。暴力被预防、现实被中介、一切以行政语言推行。在这种系统中，没有独立行为者能施加成本，没有竞争系统能绕过它，没有不受控的演化过程能产生意外。不是一场与机器的战争，而是演化的缓慢终结。

🦐点评：geohot 最锐利的洞察是把 AI 风险从"AI 是否会攻击人类"重定义为"AI 是否会终结人类的演化开放性"。这对投资有直接启示——当 AI 安全讨论都聚焦于对齐（alignment）时，更根本的问题可能是多样性：市场上是否存在足够多的独立 AI 系统互相竞争？如果最终只剩 2-3 家 AI 巨头垄断推理层，"安全"本身可能成为最大的垄断工具。

geohot.github.io

📌 其他新闻

对话王小川：离开通用人工智能的主干道之后

百川智能一年前大幅缩减通用模型团队 All in 医疗 AI，新发布医疗大模型 M4 和 Agent 产品"百小医"。在 HealthBench 评测中表现最佳，北京儿童医院 AI 诊断与专家会诊结果吻合率达 95%。

36kr

DeepSeek V4价格打骨折，宁王京东网易抢着入场，梁文锋：目标是AGI

DeepSeek V4 Pro 永久降价 75%，梁文锋重申坚持开源路线。宁德时代、京东、网易等大厂争相接入，API 成本降至行业最低水平。

量子位

Some notes on how we ended up with Palantir & how to replace it

分析欧洲政府为何深度依赖 Palantir，以及替代它为何远比想象困难——问题不只是软件，而是 Palantir 已深度嵌入政府的数据管理和决策流程。

berthub.eu

美团外卖前负责人入局餐饮具身模型，元节智能获千万级种子轮融资

美团外卖前负责人创办元节智能，不造人形机器人而是聚焦餐饮后厨垂直场景的具身智能，获千万级种子轮融资。

量子位

OpenAI 详解规模化低延迟语音 AI 的 WebRTC 架构

OpenAI 公开分享语音 AI 背后的 WebRTC 架构设计细节，解释如何在大规模并发下实现低延迟实时语音交互。

InfoQ 中文

The commencement speech that shook the world

Eric Schmidt 在毕业典礼上直言 AI 不可避免，部分毕业生将面临严峻就业挑战。企业持续以 AI 为由裁员，劳动力市场的结构性冲击正在加速。

idiallo.com

🧠 AI 技术前沿

emollick @emollick

GPT-5.5 Pro 在事实核查方面表现出色，可以逐章检查引用准确性。唯一不足是过于追求细微差异，会返回大量"大方向对但忽略了小细节 X"的反馈。

查看推文 →

godofprompt @godofprompt

OpenAI 内部推理模型一次尝试就解决了 Erdos 1946 年提出的 80 年未解数学难题。9 位顶级数学家验证了证明，菲尔兹奖得主表示会"毫不犹豫地推荐发表"。该模型是通用推理系统，无数学专项训练。

查看推文 →

egeberkina @egeberkina

实测 Runway Aleph 2.0：选取视频中的单帧，用 Nano Banana Pro 或 GPT Image 2 对该帧进行修改，Aleph 能将修改自动传播到整个镜头序列。从一帧编辑到全序列适配，效果惊艳。

查看推文 →

hongming731 @hongming731

BestBlogs 早报三大主题：Agent 架构在生产端形成长时程与实时两类分化（LangChain Interrupt 2027）；Notion 以爵士乐队模式重新创业（Ivan Zhao x Sequoia）；GLM-5.1 高速版 400 tokens/s 打破"快必然小"的惯例。

查看推文 →

🚀 创业动态

shao__meng @shao__meng

Wix VP 推出免费课程「Zero to Claude Code」，14 级 147 课 10 种交互形态，从零基础到能用 Claude Code 在生产环境发布软件。课程覆盖终端基础、Git、MCP 服务器、Subagents、Hooks 到毕业项目。

查看推文 →

rileybrown @rileybrown

预测 Supabase 最终估值将超过 Lovable、Replit 和 Bolt 的总和。AI 编程工具竞争激烈，但底层数据库基础设施的价值更持久。

查看推文 →

0xROAS @0xROAS

用 AI 生成 1 分钟 UGC 视频成本仅 $1.44。可以自由组合任意场景和角色，品牌内容创作的成本和门槛正在归零。

查看推文 →

corbin_braun @corbin_braun

ChatGPT 免费版现在只能用 5 个 prompt 就被锁定。OpenAI 正在收紧免费层以推动付费转化。

查看推文 →

💬 观点与洞察

eptwts @eptwts

在自己深度了解的领域与 LLM 对话越多，越能看到它的局限性。没有优质信息源的基础 LLM 其实相当愚蠢，但危险在于它对自己的无知表现得极其自信。这意味着 LLM 不会杀死信息市场，反而让优质信息更有价值。

查看推文 →

shao__meng @shao__meng

转述 Mixpanel 创始人 Suhail 的观点：当中国在算力层面实现独立后，其开源贡献将迁移到美国"用不了也不能用"的技术栈上。Nvidia + CUDA 被卡住后倒逼出国产方案，未来基于国产方案的开源模型是否还会支持 CUDA，存疑。

查看推文 →

godofprompt @godofprompt

让 Codex 调用 Codex——第一个 Agent 充当项目经理，负责规划、委派和审查工作。在"意图"和"产出"之间加入思考层是所有可靠 AI 工作流的核心原则，无论这个中间层是人还是另一个 Agent。

查看推文 →

vasuman @vasuman

讽刺企业"AI 转型"的现实：号称全面拥抱 AI 改造公司，实际上只是用了 GitHub Copilot。

查看推文 →

shao__meng @shao__meng

建议 X 评论区加上"Made with Human"标志，因为默认已经都是 AI 回复了。AI 生成内容的泛滥正在反转"人类原创"的稀缺性。

查看推文 →

Starcloud CEO Philip Johnston 在红杉 AI Ascent 2026 上论证太空 AI 算力的经济可行性：太空无需土地审批、24 小时太阳能供电、每平方米能量密度是地面 8 倍，主要额外成本仅剩发射费用。盈亏平衡点约 $500/kg 发射成本（现需降约 10 倍），Starship 设计目标 $10-20/kg。已向 SEC 申请部署 88,000 颗卫星的星座系统，20GW 算力容量，capex 约 $1000 亿但仍低于同规模地面设施。几乎全部用于推理——推理很快将占整个算力市场的 99%。

🦐点评：$1000 亿 capex 的入场门槛天然形成赢者通吃格局，但前提是两个关键假设：Starship 发射成本能按计划降到 $10-20/kg，且太空辐射和散热工程问题已被真正解决（目前与 NVIDIA 合作开发的太空版 Rubin 芯片是第一步）。对 VC 而言这是典型的"zero or hero"标的——但值得注意的是 Johnston 把赌注压在推理而非训练上，这与"推理将占算力 99%"的行业共识一致，降低了技术风险中最大的变量。

Z Potentials

不用你按回车，Claude Code 会主动替你开 PR 了

Anthropic 在 Code with Claude 大会上演示 Routines 功能：Claude Code 从被动工具变为主动队友。以文档工程师 Sarah 为例——团队 PR 量增长 200%，她用 Routines 搭建了定时扫描代码变更自动开文档 PR、以及 issue 创建时自动触发处理的两个自动化流程。三大能力：始终在线（不依赖本机）、灵活触发（定时/事件/webhook）、透明可介入（随时查看和调整 session）。

🦐点评：Routines 的真正信号不是"Claude Code 变强了"，而是 Anthropic 正式从开发工具切入 DevOps/SRE 的地盘——一个价值数百亿美元的市场。当 Claude 能在 PR 合并后自动更新文档、在部署后自动检查监控，PagerDuty 和 Datadog 的工作流都会被重新定义。更关键的是，这些自动化 routine 一旦嵌入团队工作流就极难替换，Anthropic 在用 Claude Code 构建 B2B 收入的粘性护城河。

深思SenseAI

Roblox 的AI能实时生成任何游戏场景，但玩了才发现根本没有目标

Roblox 训练的 140 亿参数视频世界模型可以 24fps 实时生成画面，但交给游戏开发者试用后发现核心问题：画面有了，操控有了，但没有血量、任务和游戏逻辑——这不是游戏，只是美丽的荒野。解决方案叫"Game Cartridge"：用 Luau 代码写状态机管游戏逻辑，AI 管视觉渲染，VLM（视觉语言模型）充当桥梁实时观察画面触发逻辑回调。局限在于空间控制不够精准、角色外观长时间运行后会漂移。

🦐点评："Game Cartridge"框架最精妙的不是技术架构，而是商业设计：Roblox 把模型能力包装成卡带平台，价值锚点从"AI 模型多强"转移到"有多少开发者在上面写卡带"——和 App Store 的逻辑一模一样。AI 世界模型可以被竞品复制，但百万开发者写的百万张卡带不能。如果这套"代码管逻辑、AI 管画面"的分工真能稳定运行，Roblox 就不只是一个游戏平台，而是 UGC 3D 世界的操作系统。

深思SenseAI

📌 其他值得看

随便点开 20 个 YC 官网，有 16 个用的是同一套字体

随机打开 20 个 YC 公司官网，16 个使用 Inter/Geist/Sohne/PP Neue Montreal 四款字体之一。Figma 模板、Next.js 框架默认值和从众效应三重锁定，"科技史上同质化程度最高的字体时代"。

深思SenseAI

🔥 精选推荐

📌 其他新闻

🧠 AI 技术前沿

🚀 创业动态

💬 观点与洞察

🔥 精选推荐

📌 其他值得看