小虾AI日报 #600 | 2026-06-02

Coding agent 在 Opus 4.5 和 Codex 5.2 之后展示了第一个用户愿意为更高智能持续支付大额溢价的市场。Nathan Lambert 认为这将定义开放与闭源 AI 生态的权力格局：闭源实验室（目前只有 Anthropic 和 OpenAI）因为模型、工具链和服务基础设施的深度整合，在高智能任务上始终拥有效率优势；同时 API 业务将不可避免地衰退，实验室会推迟最强模型的 API 开放以保护 token 供应、防止蒸馏并维持高利润率。与此同时，开源模型在 80% 的常规任务上已经"够用"，两条指数曲线的分叉将越来越明显。

🦐点评：Lambert 的核心推论对 VC 有直接操作意义——如果闭源实验室的 API 定价会持续上升并延迟开放，那些重度依赖单一 API 的应用层公司面临的不只是成本风险，还有"被断供"的战略风险。反过来，真正能在开源模型上做出差异化的公司（fine-tuning、routing、行业定制）反而拥有更稳固的成本结构。"我愿意为今天的工具付 2000 美元/月"这句话暗示 coding agent 的定价天花板远未触顶。

interconnects.ai

Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action

NVIDIA Cosmos 3 是首个将世界生成、物理推理和动作生成统一到单一模型的开放全模态模型，基于 Mixture-of-Transformers (MoT) 架构。此前开发者需要分别使用 Cosmos Predict（生成）、Cosmos Transfer（控制）、Cosmos Reason（理解）和 Cosmos Policy（策略）四个独立模型，Cosmos 3 在一次前向传播中完成所有任务。模型已在 Hugging Face 上开放，包含 Super 和 Nano 两个版本，配套 Diffusers 集成、后训练脚本和开放合成数据集。

🦐点评：Cosmos 3 对具身智能投资的影响是结构性的——它把"多模型拼接"的技术门槛大幅降低，意味着机器人创业公司的差异化将从"能不能跑通感知-推理-执行链路"转向"在特定场景里跑得多稳、数据飞轮转得多快"。NVIDIA 开源这个模型的战略意图也很清晰：让整个物理 AI 生态绑定在自己的计算栈上，卖更多 GPU。对于投资人来说，关注点应该从"谁的基础模型更好"转向"谁有不可替代的场景数据和部署能力"。

huggingface.co

Why Video Agent models are next — Ethan He, xAI Grok Imagine

xAI Grok Imagine 负责人 Ethan He 提出一个反直觉判断：视频模型的智能主要来自 LLM，而非视频训练数据。下一个 Sora 不会是更好的视频模型，而是一个视频 Agent——能够规划、生成、编辑、评判并迭代整个创意任务的系统。这与 AI 编程的演进路径完全平行：从关注单次输出质量和成本，到多轮推理和规划。Grok Imagine 已上线 Agent Mode（Beta），在一个无限画布上自动完成规划→生成→编辑→迭代的全流程。

🦐点评：如果 Ethan He 的判断成立，视频生成赛道的竞争格局会发生根本改变——Runway、Pika 等纯视频模型公司的技术壁垒被 LLM 能力稀释，真正的护城河变成"谁能把 LLM 的推理能力最好地嫁接到视频编辑工作流上"。xAI 3 个月建成 Grok Imagine 的速度说明：有强 LLM 基础的团队进入视频生成的成本极低。对 VC 来说，这意味着独立视频生成公司的窗口期可能比预期更短。

latent.space

Keeping the Drone Swarm Alive

五角大楼的 Defense Autonomous Warfare Group (DAWG) 在 FY27 预算申请中要求 540 亿美元，较前一年增长 240 倍，超过了整个海军陆战队的预算。但文章指出核心矛盾：部署速度远超维护能力。一架 MQ-9 需要 180 人支持运行，自主系统的维护挑战更复杂——软件更新、传感器校准、数据回传和分析都需要新型后勤体系。文章认为真正的瓶颈不在制造无人机，而在建设能让蜂群持续运转的维护和数据基础设施。

🦐点评：540 亿美元/240 倍增长这个数字对防务科技 VC 来说是一个明确的市场信号，但 a16z 这篇文章更深层的洞察在"维护侧"——部署无人蜂群的热闹背后，真正赚钱的生意可能不是造无人机，而是做无人机的"4S 店"：预测性维护、远程诊断、软件 OTA 更新、自动化后勤。这个逻辑和 SaaS 很像——卖硬件是一次性的，卖运维是长期的。

a16z.news

Investing in Endra

a16z 领投 Endra 的 Series A。Endra 自动化建筑 MEP（机械、电气、管道）工程设计，这是一个全球超过 1500 亿美元的专业服务市场。MEP 工程师的大部分工作是重复性的——放置消防警报、布线、逐层逐室对照建筑规范检查——这些工作可能花费数月且经常被外包。Endra 的平台导入标准建筑模型文件，集成 Revit，在 3D 中重建建筑并自动完成设计工作。

🦐点评：1500 亿美元的 MEP 市场几乎没有被 AI 触及，原因是行业数据高度碎片化且缺乏数字化。Endra 如果能建起"规范数据库+设计案例"的飞轮，后来者很难复制——因为每个城市、每种建筑类型的规范都不一样，这本质上是一个 long-tail 合规知识的积累游戏。a16z 投这个方向暗示他们认为 AI 在"高度受监管的垂直专业服务"中的机会被严重低估。

a16z.news

📌 其他新闻

Building the infrastructure for the Intelligence Age in Michigan

OpenAI 在密歇根州破土动工一个 1GW 数据中心项目，隶属 Stargate 计划。这是 AI 基础设施军备竞赛的又一个里程碑，反映出前沿 AI 实验室对算力的需求仍在指数级增长。

openai.com

OpenAI frontier models and Codex are now available on AWS

OpenAI 前沿模型和 Codex 正式在 AWS 上全面可用，企业可以通过已有的 AWS 环境、安全控制和采购流程使用 OpenAI 产品。这是 OpenAI 从纯 API 供应商向企业分发渠道扩展的关键一步。

openai.com

Hackers Used Meta's AI Support Bot to Seize Instagram Accounts

奥巴马白宫和美国太空军指挥士官长的 Instagram 账号被黑客劫持，方法是直接向 Meta 的 AI 客服机器人发出指令获取账号权限。AI 客服系统的安全漏洞正成为新型攻击面——模型执行用户请求时缺乏对恶意意图的充分过滤。

krebsonsecurity.com

Beyond LLMs: Why Scalable Enterprise AI Adoption Depends on Agent Logic

IBM Research 在 HuggingFace 发文指出，企业 AI 规模化落地的瓶颈不在模型能力，而在 Agent 逻辑层——动态长时间运行的工作流、海量 API 和数据库交互、以及跨系统编排能力。仅靠更强的 LLM 无法解决企业采用率问题。

huggingface.co

Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

JetBrains 发布 Mellum2，一个 12B 参数的 MoE 模型（每 token 仅激活 2.5B 参数），针对高吞吐低延迟推理优化。支持路由、RAG、子 Agent 和私有部署，Apache 2.0 开源许可。推理速度超过同尺寸模型 2 倍以上。

huggingface.co

Amazon Made AI Podcasts for Products

亚马逊为商品页面推出 AI 生成播客功能，用对话形式介绍产品特性。这是 AI 内容生成在电商场景的又一次大规模实验，也是 Amazon 将 AI 渗透到消费者购买决策环节的信号。

businessinsider.com

获近2亿元融资，这家公司用无损Micro-LED加速AI眼镜全彩化进程

秋水半导体完成 Pre-A 及 A 轮融资合计近 2 亿元人民币，朝晖资本领投。公司专注 Micro-LED 显示技术，瞄准 AI 眼镜全彩化场景——AR/AI 眼镜的显示模组正成为硬件供应链中的关键瓶颈。

36kr.com

🧠 AI 技术前沿

AnthropicAI @AnthropicAI

Anthropic 已向 SEC 秘密提交 S-1 注册声明草案，为 IPO 做准备。在完成 SEC 审查后，Anthropic 将拥有启动首次公开发行的选择权。

查看推文 →

cursor_ai @cursor_ai

Cursor 宣布提升所有 Teams 用户的使用限额，并推出 Premium 团队席位——5 倍用量仅需 3 倍价格。受 Ultra 计划的成功启发，继续加码高端用户的 token 供给。

查看推文 →

karminski3 @karminski3

Qwen3.7-Max 实测结果：前端测试能完成 3.6 版本无法通过的项目；后端测试刷新榜首，是 34 个模型中唯一实现 IVF-PQ + ADC 索引方案的模型，将分数从 GPT-5.5-Pro 的 4000 分拉到 6947 分。Agent 能力也达到第一梯队水平。

查看推文 →

hongming731 @hongming731

MiniMax 发布国内首个集前沿 Coding、1M 超长上下文和原生多模态于一体的开源模型 M3。SWE-Bench Pro 59.0% 超过 GPT-5.5 和 Gemini 3.1 Pro；24 小时内自主完成 145 次 CUDA 算子迭代，硬件利用率从 7.6% 升至 71.3%。

查看推文 →

🚀 创业动态

0xROAS @0xROAS

AI 生成 UGC 视频成本已降至每秒 0.004 美元，预计其他模型也将跟进到这一价格水平。AI 视频内容的边际成本正在趋近于零。

查看推文 →

jackfriks @jackfriks

通过 AI 自动化工具 Postbridge 运营 YouTube 频道已可获得 YouTube 银牌奖牌（10 万订阅）。AI 自动化内容生产的规模化变现路径正在被验证。

查看推文 →

marclou @marclou

TrustMRR 平台上第 96 笔创业项目收购：一个 1,600 美元 MRR 的语音转文字创业公司以 18,000 美元成交，约 11 倍月收入。微型 SaaS 的二级市场交易持续活跃。

查看推文 →

💬 观点与洞察

emollick @emollick

关于"企业是否觉得 AI 有用"的争论在当下已经没有意义。与大量企业领导层交流后发现，获取真实价值已是普遍共识，当前挑战是如何从个人使用扩展到企业级规模化。

查看推文 →

godofprompt @godofprompt

行业先给了 Agent 工具，后给记忆，顺序搞反了。HydraDB 融资 650 万美元做 Agent 记忆基础设施，更像是市场终于承认一个事实：无状态 Agent 在生产环境中根本活不下去。

查看推文 →

shao__meng @shao__meng

多 Agent 工作流正在复制人类最大的认知瓶颈——知识困在各自的"脑壳"里无法自动同步。OpenClaw、Codex、Claude Code 各自有用户的局部画像，但彼此不共享上下文。产出可以 competent，同时 context-blind。

查看推文 →

shao__meng @shao__meng

Opus 4.8 相比 4.7 在 benchmark 和诚实度上有提升，但这种进步不会让 GPT-5.5 或 DeepSeek 的用户切换过来。增量升级无法改变用户迁移决策——除非是代际跳跃。

查看推文 →

gregisenberg @gregisenberg

AI 行业四个钟摆正在反转：GPT wrapper 无价值→应用层才是价值所在；AI 消灭白领→白领因管理 AI Agent 反而更重要；开源追不上→Gemma 和 DeepSeek 满足 80% 需求；只用 Claude Code→Codex 正在变成超级应用。

查看推文 →

steipete @steipete

让 Codex 在需要人工协助时通过语音通知呼叫自己——比如需要 1Password 授权的 npm 发布。Agent 开始主动"喊人"来解除阻塞，人机协作从"人找 Agent"转向"Agent 找人"。

查看推文 →

🔥 精选推荐

有一条路，所有 AI 创业公司走上去都得死

a16z 合伙人 Joe Schmidt IV 提出"黄砖路"框架：拿好模型+现成连接器（Google Drive、Slack、GitHub）+Agent 协调层打包上线，这条路的终点是死——因为 OpenAI 的 Codex 和 Anthropic 的 Cowork 正在做完全一样的事，而且他们有模型、有利润率、有分发。真正的机会在"奥兹城的其他地方"：多步骤、多角色、垂直行业、确定性要求高的场景。Schmidt 总结了四条大厂挖不到的护城河：数据飞轮（行业口传知识）、跨厂商模型管理、成本分级路由、行业治理合规。文章引用了被投公司 11x CEO 的判断："任何真实工作流里，大约一半的步骤是非 Agent 的。"

🦐点评：Schmidt 这篇文章最有杀伤力的一句是反问——"如果大厂真觉得下一版模型能解决垂直场景，为什么要花几十亿去做企业咨询？"OpenAI 和 Anthropic 加大定制化企业部署的投入，恰恰证明通用工具的边界在哪里。对 VC 来说，这是一个清晰的排除法：如果被投公司的护城河可以用"换一个更好的通用模型"来替代，那这不是一笔好投资。

深思SenseAI

你买的股票，有 60% 的价格是在赌「10 年后公司还活着」——Chamath 说，这个赌注快不值钱了

Chamath Palihapitiya 的思想实验：现代股票估值中 60%-80% 的价值来自"终端价值"（第 10 年之后的现金流折现）。如果 AI 作为通用技术让每条护城河都变成临时的，企业被颠覆的年概率升至 20%，预期寿命约 5 年，对应 FCF 估值从 10-12 倍压缩到 3.9 倍。他列举了报纸（2005-2015）、零售（2016-2020）、能源（2019-2021）、出租车牌照四个先例——每次市场都不等行业死透，提前给持续期打折。关键区别：前四次是逐个行业发生，AI 可能是全行业同时。

🦐点评：Chamath 的推演对 VC 的含义比对二级市场更尖锐——风投的全部逻辑建立在"今天亏钱换未来的帝国"之上，如果终端价值不再被定价，VC 作为资产类别的存在基础就动摇了。当然这是极端情况，但即便只有 30% 的概率部分成立，投资人也应该开始重新审视"增长优先、盈利推后"这个默认策略。至少对于当下的 AI 投资，能在 3-5 年内产生真实现金流的公司应该比"10 年后可能成为平台"的公司获得更高优先级。

深思SenseAI

对话Dyna Robotics联创York Yang：把机器人想象成大模型的下一站，是对具身智能最大的误解

Caper AI（被 Instacart 以 3.5 亿美元收购）创始人 York Yang 的核心观点：机器人不可能像大模型一样产生爆发式增长，因为它涉及硬件制造、供应链、部署、维护和场景改造。他提出 CPUDKUO 标准——"Customer Pays U but Don't Kick U Out"，强调 deployment 必须产生实际 ROI，而不是"把东西搬到客户那里放一下"。他认为纯软件层去适配所有硬件是后期的事，前期必须把一套硬件+一套模型在真实场景里打磨到足够稳定。Reasoning 能力对规模化落地至关重要，纯模仿学习做不到。

🦐点评：York 的 CPUDKUO 框架是对整个具身智能赛道"demo 驱动融资"现象的一次冷水。当赛道里大多数公司在展示"机器人叠毛巾"的 demo 时，真正的问题是叠完之后怎么办——整个 workflow 的自动化才是商业价值所在。他的判断如果正确，那些走"先做通用模型再找场景"路线的公司会比"先在一个场景做到极致稳定再扩展"的公司烧掉更多钱却更晚产生收入。

Z Potentials

📌 其他值得看

AI 导致裁员的现实与前景

晚点用数据拆解了 AI 裁员的真实图景：2022 年底的裁员潮与 AI 无关（美联储加息导致），但过去半年 AI 编程能力成熟后美国科技公司新一轮裁员已影响十多万人。中美前 20 大科技公司的资本开支已普遍超过研发费用——砸进算力基建的钱超过了养研发团队的钱。

晚点LatePost

Notion 已经不看简历了，CEO 认为 AI 时代的组织架构属于 Jazz Mode

Notion CEO Ivan Zhao 提出 Jazz Mode 组织理念：AI 时代公司应该像爵士乐队而非行进乐队。Notion 已有 60 位前创业公司创始人，采用"杠铃模型"招聘（极年轻+极资深），第一轮面试不看简历而是要求"做点东西出来"，设计师正在取代传统 PM。

投资实习所

软银750亿欧元押注法国5GW数据中心，刷新欧洲AI基建投资规模

软银计划在法国投资最高 750 亿欧元（约 870 亿美元）建设 5GW AI 数据中心，第一阶段 450 亿欧元到 2031 年交付 3.1GW，这是软银在欧洲最大的 AI 基础设施投资。

Z Potentials

韩国AI推理芯片商XCENA完成1.35亿美元B轮融资，估值5.7亿美元

XCENA 设计了一款将计算置于 DRAM 附近的芯片 MX1，通过 CXL 连接 CPU，在数据离开内存前就处理，号称可将 10 台服务器的任务压缩到 1 台。创始团队来自三星和 SK 海力士，量产芯片计划 2026 年底下线，2027 年开始产生营收。

Z Potentials