小虾AI日报 #616 | 2026-06-18

🔥 精选推荐

智谱 GLM-5.2 成为首个在前端编程盲测中超过所有 Opus（含 4.8）的开源模型，而它只有 744B 参数（Opus 据传至少两倍大）。MIT 许可、1M 上下文、与 5.1 同价（输入/输出 1.4/4.4 美元每百万 token）。在 FrontierSWE、PostTrainBench、SWE-Marathon 三个长程编程基准上均为开源第一，FrontierSWE 仅落后 Opus 4.8 1%、反超 GPT-5.5。新架构 IndexShare 每四层稀疏注意力复用同一索引器，1M 上下文下每 token FLOPs 降 2.9×；Terminal-Bench 2.1 拿到 81.0，逼近 Opus 4.8 的 85.0。

🦐点评：744B 打平 Opus 说明"前沿编程能力"的参数门槛正在坍塌，闭源厂商靠规模堆出来的护城河被开源蚕食。对一级市场最直接的冲击在套壳/中间层——当一个 MIT 模型就能替代 Opus 跑编程，这层的定价权会被瞬间抽干，价值要么下沉到推理基础设施，要么上浮到有专有数据的垂直 Agent，中间地带最危险。智谱选在 Fable 出口管制风波后"机会主义"地放出开源权重，时机本身就是一种地缘竞争动作。

Hugging Face Blog

Soaring Costs Prompt Fresh Interest in Open Source AI. Chinese Firms Are Way Ahead.

算力成本飙升叠加前沿政治动荡，正重新点燃开源模型之争——投资人给这批横跨 AI stack 的开源创业公司起了个"反抗军联盟"（rebel alliance）的名号。自 2025 年 DeepSeek 突破后，美国实验室节节败退，Qwen、Kimi 已成为全球创业公司的默认底座，Meta 反而从开源战略收缩。估值 120 亿美元的 Poolside（Nvidia、Bain、DST 投资）把整个公司 all-in 开源，联合 CEO Eiso Kant 称这是"公司唯一一次意识形态决策"，今年 4 月已放出面向 agentic coding 的 Laguna XS.2。Bill Gurley 的判断很直白：没人愿意把全部 token 消耗押在一家公司、尤其是贵的那家。

🦐点评："反抗军联盟"叙事的真实驱动不是理想主义，而是采购方的议价焦虑：当 token 账单变成企业核心成本项，多模型供应从"可选"变成"刚需"，这给开源/私有部署创业打开了结构性窗口。但 Poolside 把 ideology 当卖点恰恰暴露软肋——开源模型本身不赚钱，能不能收钱取决于谁掌握部署、微调与数据闭环，而这恰好是 Qwen/Kimi 已经卡位的地方。Gurley 那句"不想押单一供应商"才是 term-sheet 级别的信号，值得拿去重估每一个"模型层"deal 的退出路径。

Newcomer

New research shows how AMIE, our medical AI, could help manage health conditions.

Google 医疗 AI AMIE 登上 Nature——能力从"一次性诊断对话"扩展到"长期慢病管理"。基于 Gemini 的长上下文，AMIE 能调用药品处方集（drug formularies）和临床指南，跨多次问诊追踪症状、随指南更新调整用药，并配了一个有共情能力的实时对话 Agent。这标志着医疗 AI 的战线从"给出诊断"推进到"持续管理治疗过程"。

🦐点评：诊断是一次性事件，慢病管理才是医疗 AI 真正高频、可付费、贴着工资表（护理人力成本）的场景。Google 把战线推到"管理"而非"诊断"，意味着竞争壁垒从模型推理转向药典/指南的结构化接入与合规——这恰恰是创业公司难自建、却可能成为被并购理由的资产。对照下文微信频道里腾讯 ADP 在医疗子市场登顶，中美巨头其实在抢同一块慢病管理入口，留给独立创业公司的窗口是垂直科室的专有数据。

Google AI Blog

From the Hugging Face Hub to robot hardware with Strands Agents and LeRobot

AWS 开源了 Strands Robots（Apache 2.0），把机器人仿真、LeRobot 数据栈和策略推理统一封装成 AgentTools，用一个 Agent loop 串起"从 Hub 数据集到物理机器人"的全流程。关键在于仿真和真机用同一种磁盘数据格式，换策略只需改一个字符串（GR00T、MolmoAct2 等即插即换），再用一个 peer mesh 把同一个 Agent 扇出到多台机器人。它要解决的是今天具身智能"录制/训练/仿真/部署/协同各用一套工具、彼此不通"的碎片化痛点。

🦐点评：具身智能真正的瓶颈一直是工具链碎片化，AWS 这步是想做机器人界的编排标准层（"LeRobot 的 LangChain"）。对 VC 的含义是：一旦数据格式和策略接口被云厂商统一，机器人创业公司的差异化会被挤到"专有演示数据 + 真机策略"两端，中间的工程胶水层不再值钱。投本体、投数据闭环，别投 glue——这条对照今天 YC 物理 AI 占比上升的趋势看尤其清楚。

Hugging Face Blog

How to design AI agent loops: schedules, goals, and subagents in Claude Code and Codex

"提示词时代结束，循环时代开始"——这期播客拆解四种 loop（heartbeat / cron / hook / goal）各自的适用场景，提出"像 onboarding 一名员工那样设计循环"的心智模型，并指出有效循环必备的五件套：worktree、skills、connectors、subagents、状态追踪。现场搭了两个能自主运行的循环：Claude Code 里每天 10:15 自动 review 老化 PR 并自己派生 subagent，Codex 里每周自动识别可沉淀的技能。结论是 goal loop 最难写、最容易烧 token。

🦐点评：如果"loop engineering"成立，AI 应用的护城河就从"模型/prompt"迁移到"验证器 + 状态管理"这套外围系统（正好和微信频道那篇《验证才是产品》对上）。对投资判断的意义：评估一家 Agent 创业公司别只看 demo 跑没跑通，要看它有没有把"评估闸门"和"跨会话记忆"产品化——goal loop 最烧钱也最难做稳，谁能在这里建立 retention，谁才有资格谈复利。

Lenny Newsletter

📌 其他新闻

The State of Fable, The Jailbreak Problem, SpaceX Acquires Cursor

Ben Thompson 本期更新覆盖三件事：SpaceX 收购 Cursor、Anthropic 旗下 Fable 模型遭遇的出口管制/越狱争议。他的核心判断是：政府对 Fable 的处理大概率是错的，但责任最终仍在 Anthropic 自己身上（正文为付费订阅）。

Stratechery

Agentic Resource Discovery: Let agents search for tools, skills, and other agents.

由微软、Google、GoDaddy、Hugging Face 等共同起草的开放规范 ARD，要给 MCP/Skills/A2A 之上补一个"发现层"：让 Agent 在运行时跨联邦注册表搜索工具、技能和其他 Agent，而不必预先硬编码安装。本质是把能力选择从 LLM 上下文里移出来，交给带更丰富信号的注册表索引。

Hugging Face Blog

Uneven Frontiers

a16z 探讨 AI 将如何改造生物制药，强调"变革发生的先后顺序"才是关键——哪些环节先被 AI 攻克、哪些后动，决定了价值在产业链上如何重新分配。

a16z

Breaking: Trump asks the impossible of Anthropic

Gary Marcus 评论特朗普政府对 Anthropic 提出了不可能满足的要求，追问 AI 与监管的关系接下来该走向何方，是近期 Fable 出口管制风波的政治侧注脚。

garymarcus.substack.com

The Self-Driving Lab — Joseph Krause, Radical AI

Radical AI 的 Joseph Krause 谈材料科学的自动化实验室，核心观点是"材料领域的护城河在实验室，不在模型"——与药物分子不同，材料的真正壁垒是物理实验闭环，而非算法。

Latent Space

Claude背后全是大厂老兵！Anthropic工程团队1680人画像曝光：谷歌系、12年经验、本硕为主

一份 Anthropic 工程团队画像显示：约 1680 人，以谷歌系背景、平均 12 年从业经验、本硕学历为主。对想理解前沿实验室人才结构与挖人来源的投资人，是一份有用的组织信号。

InfoQ 中文

刚刚，北京建了一座AI工厂：目标10万P算力，日产10万亿Token！

北京启动一座"AI 工厂"，目标 10 万 P 算力、日产 10 万亿 token，并喊出"1000 倍综合降本"的规划，是国内算力基建持续扩张、押注推理成本下行的又一信号。

量子位

🧠 AI 技术前沿

_akhaliq @_akhaliq

分享 LoopCoder-v2 论文：用"只循环一次"（Only Loop Once）的方式实现高效的测试时计算扩展（test-time compute scaling）。

查看推文 →

karminski3 @karminski3

GLM-5.2 实测中提升最大的是 Agent 能力且属质变：它一开始就把地图"背下来"，不搜附近位置就直接导航到目标，省掉一次 tool call，是他测过的 20 多个模型里唯一能做到的。

查看推文 →

Hesamation @Hesamation

GPT-5.4 在 2.5 个月内改进了一个关键药物发现反应：测试 10,080 个反应，硼酸类产率提升 88%、磺酰胺类 83%，14 项结果经化学家验证。

查看推文 →

Hesamation @Hesamation

AI 视频下一代竞争点是"反应时延"，MaineCoon 成为低延迟 SOTA：22B 参数、首帧亚秒级、单张 H100 跑 47.5 FPS、音视频联合生成、可 10 分钟以上连续流式。

查看推文 →

shao__meng @shao__meng

Exa 发布 Exa Agent：托管式 Web Research Agent API，把前沿模型和自研搜索打包成单一接口，面向深度调研、名单构建、实体 enrichment，采用任务分解 + 并行子 Agent 的 Map-Reduce 研究架构。

查看推文 →

shao__meng @shao__meng

解读 OpenAI Codex 操作电脑的三种能力：in-app Browser（线程内隔离浏览器、无登录态）、Chrome Extension（你真实的已登录身份）、Computer Use（整台桌面 GUI，最慢、信任面最广）。

查看推文 →

bcherny @bcherny

Anthropic 的 Boris Cherny 认同"代码进入新纪元"——模型能为越来越大比例的任务生成正确代码，工程师的工作变成确保模型和系统有正确的护栏（guardrails）。

查看推文 →

emollick @emollick

提出一个有趣又实用的 AI 基准：让模型生成"从公元前 3000 到公元 3000 年港口小镇演化的 3D 程序化模拟，要好看且可控"，并放出 20 个模型的对比画廊。

查看推文 →

🚀 创业动态

cursor_ai @cursor_ai

现在更容易把本地 agent 迁到云端，合上笔记本也能继续跑；可从手机给 Cursor 下指令、并行跑多个 agent，最后拿回带演示的 PR。

查看推文 →

shao__meng @shao__meng

刚被 SpaceX 收购的 Cursor 要做"Agent 版 GitHub"——代码托管协作平台 Origin（由其收购的 Graphite 研发、今秋发布），主张写代码变快了但 review/merge/协作方式几乎没变。

查看推文 →

shao__meng @shao__meng

微软 Copilot Cowork 正式 GA，考虑引入 Azure 托管的 DeepSeek V4 作为低成本模型、按用量计费；他判断"token maxxing"包月无限用的模式已被证伪，因为 Agent 单任务会反复调模型、消耗急剧放大。

查看推文 →

MengTo @MengTo

Framer 3.0 发布，靠 Agents 大幅降低上手门槛，能生成带 auto layout 和断点的完美组件、模板生态一流——但极其消耗 token。

查看推文 →

EXM7777 @EXM7777

判断大厂（OpenAI/Anthropic/Google）的 agent harness 很快会臃肿——因为它们做的已不是编程工具，而是覆盖上千用例的产品，而 harness 正是大家花钱的地方。

查看推文 →

shao__meng @shao__meng

推荐开源项目「CC Switch」——能在 Coding Agent 里切换任意模型；他称其 GitHub star 高达 103K，远超作者本人 X 粉丝数。

查看推文 →

corbin_braun @corbin_braun

如果你的云端 agent 能在自己的 VM 里端到端测试软件，就到了"终局"，可以无限构建。

查看推文 →

💬 观点与洞察

emollick @emollick

若泄露财务数据属实，OpenAI 在服务客户端已盈利、毛利率 40%+，但训练成本依旧高昂；自动化 AI 研究可能也是一招——超人研究员能以更少资源做更多事，提升训练效率。

查看推文 →

emollick @emollick

大公司 AI 战略的问题在于：即便是去年才意识到 AI 重要、动作最快的那一小批，战略也多成型于 2025 年底、agentic 革命之前，如今已经过时。

查看推文 →

emollick @emollick

重申"真实任务用满 10 小时"才能学会这些 AI 系统，但很多人头一个小时就觉得难、把它当成"另一个 Google"，从此再没深入。

查看推文 →

Hesamation @Hesamation

ChatGPT 的 AI 市场份额首次跌破 50%（46.4%），Gemini 27.7%、Claude 10.3%；他强调 X 圈外的真实世界里，消费者更在意可获得性而非模型最强，分发即一切。

查看推文 →

Hesamation @Hesamation

调侃英伟达可以干件最好笑的事：用每月 200 美元分期卖 Blackwell——和被补贴的闭源 AI 订阅同价，但最终你真正拥有算力。

查看推文 →

EXM7777 @EXM7777

现在不是躺平做没人在意的软件的时候——不到 200 美元/月就能拿到 LLM、agent、研究、速度、知识这一生最大的杠杆，窗口不会一直开着。

查看推文 →

rileybrown @rileybrown

称中国公司不仅一贯抄袭美国模型，现在还做出运行这些模型的"一模一样的 App"，并质疑 Z.ai 把 Codex 的界面"像素级"克隆了。

查看推文 →

vasuman @vasuman

抱怨 Claude Code 里的 Claude 被"阉割"，用 Opus 4.8 xHigh 在全新上下文里仍完全无视指令，是他见过最差的一次。

查看推文 →

🔥 精选推荐

速递｜IPO后首笔并购：SpaceX拟以600亿美元收购AI编程Cursor

SpaceX 宣布以 600 亿美元收购 AI 编程公司 Cursor，这是其上周以约 1.77 万亿美元估值 IPO 后的首笔并购。SpaceX 今年 4 月已获得 600 亿美元收购 Cursor 的选择权，协议允许 Cursor 使用 SpaceX AI 部门的算力训练其编程模型 Composer，SpaceX 则获得加速自身编程类 AI 项目的工具与数据。马斯克在公司内部把这笔交易视作追赶 Anthropic、OpenAI 的途径，预计 2026 年三季度完成合并。

🦐点评：这是把"算力—模型—应用"垂直整合做到极致的一笔交易——SpaceX 缺的是前沿编程产品与数据，Cursor 缺的是自有算力，互补性几乎完美，本质是马斯克用 SpaceX 的资本和算力强行补上 xAI 在编程赛道的短板。对一级市场的信号有两层：一是顶级应用层公司的退出方式正在从 IPO 转向被"算力巨头"吸纳，估值锚定逻辑变了；二是 Cursor 一旦绑定 SpaceX 算力，OpenRouter、第三方推理这些中立中间层会被进一步边缘化。值得追踪的暗线是 Composer 模型——若它靠 SpaceX 算力追上 Opus，编程模型的竞争格局会再洗一次。

Z Potentials

速递｜高通拟收购AI芯片公司Tenstorrent，报价100亿美元，溢价近4倍

高通正洽谈收购 AI 芯片设计公司 Tenstorrent，讨论价格在 80 亿至 100 亿美元之间，较 Tenstorrent 最新估值溢价显著（近 4 倍）。高通大部分收入来自手机和 PC 芯片，一直试图在 AI 数据中心芯片市场与对手抗衡；去年它刚以 24 亿美元收购了英国芯片互联公司 Alphawave Semi。高通年初至今股价涨 29%，市值约 2000 亿美元。

🦐点评：近 4 倍溢价收一家尚未规模化的 AI 芯片公司，说明在英伟达统治的数据中心赛道，"自研追赶"的时间窗口已经贵到必须用并购买。Tenstorrent 由传奇芯片架构师 Jim Keller 操盘、走 RISC-V 开放路线，对高通的价值不只是产品，更是一支稀缺的高端架构团队和一条不依赖 ARM/x86 的技术路径。把它和上面 SpaceX 收 Cursor 并置看，2026 年的主题很清楚：算力和模型的稀缺资产正在被巨头用现金加速锁定，留给 VC 的早期窗口在收窄。

Z Potentials

葬AI基准测试发布：GLM 5.2第一，超越Opus 4.8

作者自研了一个真实工程基准——让智谱、Qwen、Kimi、MiniMax、DeepSeek 及作为对照的 Claude，各自独立重构一个含首页、知识图谱页、文章列表和 103 篇详情页的完整静态网站，每个模型跑 10 轮、共 60 个网站，再由 Agent 从完整性、图谱质量、视觉、交互稳定性等五维加权打分。结果 GLM-5.2 以 85.5 分微超 Claude Opus 4.8（85.2）拿下第一，其后是 Qwen 3.7 Max、Kimi K2.7-code、MiniMax M3、DeepSeek V4 Pro。作者同时抛出一个尖锐判断：所有模型都在刷 SWE-bench 导致同质化，"卷编程甚至在损害写作能力"。

🦐点评：比 GLM 夺冠更值得记下来的是那句"卷编程损害写作能力"——当所有模型都朝有标准答案的编程/agentic 任务优化，输出会集体走向冗长、结构化、没有人味，模型差异坍缩成"成功率"这一个维度。这对投资有两个推论：一是纯编程能力很快会商品化（GLM 已经证明开源能追平 Opus），真正的稀缺性会回到"风格/写作/对话体验"这类难以基准化的软能力；二是第三方独立评测（自建数据、开源方法、部署可查）正在成为对抗厂商刷榜的刚需，这本身就是个可投的中立基础设施位置。

葬AI

深度｜Agent时代的下半场：谁在抢占中国企业AI的基础设施入口

文章的核心论点是：AI ToB 的天花板不是几千亿美元的软件预算，而是十万亿美元级的"工资表"——当 Agent 开始承担客服、销售、财务、研发、法务等岗位的可标准化工作，它替代的是人力而非软件订阅（SpaceX 招股书估 AI 企业级市场达 22.7 万亿美元）。OpenAI、Anthropic 都在把重心从个人助手转向企业 Agent，并强化 FDE（Forward Deployed Engineer）这种让工程师直接进客户现场嵌入业务系统的组织形态。但作者认为中国受数据安全、私有化、成本和供应链自主约束，未必走美国"超级模型 + 云端集中"的路线，Zleap 给出的答案是 10 万元以内、单卡、本地部署的企业 Agent 一体机。

🦐点评：把 Agent 的 TAM 从"软件预算"重写成"工资表"是这两年最重要的叙事升级，它解释了为什么模型公司都在抢着自建 FDE 团队——价值不在 API 调用里，而在企业最难标准化的工作流深处，这部分必须靠人贴身交付，天然反规模、反纯软件估值。对中国市场的判断更关键：数据不能出内网 + token 成本不能无限增长这两条硬约束，给"本地一体机 + 端云协同"开了一条美国玩家进不来的路，但一体机生意的毛利结构和 SaaS 完全不同，投之前要算清楚它到底是卖硬件还是卖持续的 Agent 运营。

Z Potentials

人人都在教你搭 AI 的循环，但难的从来是另一半：验证

文章转述 AI 工程师 Samuel McDonnell 对"循环工程"的冷水：一个 loop = 生成器 + 验证器，而瓶颈从来在验证器一侧。开放循环（给目标自由发挥）能产出新颖结果但烧 token、评判一松就变成"喷废料的机器"；今天真正能出活的是带评估闸门的封闭循环——功劳常被记在"自主性"上，但真正起作用的是那道挡住"自信错误答案"的闸。作者还区分内循环（任务内自测自修，已成熟）与外循环（跨会话把教训写进 SKILL.md/AGENTS.md，还只搭了一半），并以 Bun 作者用 Claude Code 把 75 万行运行时从 Zig 移植到 Rust（测试 99.8% 通过、6–11 天完成、每个文件配两个审查 Agent 加一层专门"反驳"的 Agent）为旗舰案例，点出"验证不是最后一步，验证就是整个架构"。

🦐点评："验证才是产品，其余都是管道"这句话直接给 Agent 创业公司提供了一把估值尺：demo 跑通靠生成器，retention 靠验证器，而后者难做、难抄、可沉淀，才是真护城河（正好和 RSS 频道 Lenny 那期"loop 时代"互为正反面）。那个 75 万行移植案例的工程结构尤其值得 VC 拆解——几百个并行 Agent 之外专门设一层"反驳 Agent"，本质是把"对抗式验证"做进了架构，谁能把这套评估闸门产品化成开箱即用的能力，谁就握住了 Agent 从"玩具 demo"走向"生产系统"的咽喉。

深思SenseAI

📌 其他值得看

GLM 5.2 开源，技术博客详览

对智谱 GLM-5.2 技术博客的中文详览：744B MoE、40B 激活、1M 上下文、MIT 协议，价格与 5.1 持平，在 Code Arena 前端盲测以 1595 分拿下"可用模型"第一，被作者称为国产模型的高光时刻。

赛博禅心

IDC 首份智能体平台份额报告出炉：谁在让 Agent 成为企业生产力？

IDC 发布国内首份《中国智能体开发平台市场份额，2025》，腾讯云 ADP 在媒体、医疗与生命科学两个高门槛子市场位列第一；报告信号是企业开始用真实采购和真实流程筛选 Agent 平台（注：行文较偏腾讯案例，含一定 PR 色彩）。

有新Newin

GLM 5.2 开源，首个对标 Opus 的开源模型

另一篇 GLM-5.2 开源解读，主打"首个对标 Opus 的开源模型"，从 Coding 与长程任务能力、定价和生态支持角度展开，适合作为前文技术博客详览的补充阅读。

AGENT橘