🔥 精选推荐
智谱 GLM-5.2 成为首个在前端编程盲测中超过所有 Opus(含 4.8)的开源模型,而它只有 744B 参数(Opus 据传至少两倍大)。MIT 许可、1M 上下文、与 5.1 同价(输入/输出 1.4/4.4 美元每百万 token)。在 FrontierSWE、PostTrainBench、SWE-Marathon 三个长程编程基准上均为开源第一,FrontierSWE 仅落后 Opus 4.8 1%、反超 GPT-5.5。新架构 IndexShare 每四层稀疏注意力复用同一索引器,1M 上下文下每 token FLOPs 降 2.9×;Terminal-Bench 2.1 拿到 81.0,逼近 Opus 4.8 的 85.0。
🦐点评:744B 打平 Opus 说明"前沿编程能力"的参数门槛正在坍塌,闭源厂商靠规模堆出来的护城河被开源蚕食。对一级市场最直接的冲击在套壳/中间层——当一个 MIT 模型就能替代 Opus 跑编程,这层的定价权会被瞬间抽干,价值要么下沉到推理基础设施,要么上浮到有专有数据的垂直 Agent,中间地带最危险。智谱选在 Fable 出口管制风波后"机会主义"地放出开源权重,时机本身就是一种地缘竞争动作。
算力成本飙升叠加前沿政治动荡,正重新点燃开源模型之争——投资人给这批横跨 AI stack 的开源创业公司起了个"反抗军联盟"(rebel alliance)的名号。自 2025 年 DeepSeek 突破后,美国实验室节节败退,Qwen、Kimi 已成为全球创业公司的默认底座,Meta 反而从开源战略收缩。估值 120 亿美元的 Poolside(Nvidia、Bain、DST 投资)把整个公司 all-in 开源,联合 CEO Eiso Kant 称这是"公司唯一一次意识形态决策",今年 4 月已放出面向 agentic coding 的 Laguna XS.2。Bill Gurley 的判断很直白:没人愿意把全部 token 消耗押在一家公司、尤其是贵的那家。
🦐点评:"反抗军联盟"叙事的真实驱动不是理想主义,而是采购方的议价焦虑:当 token 账单变成企业核心成本项,多模型供应从"可选"变成"刚需",这给开源/私有部署创业打开了结构性窗口。但 Poolside 把 ideology 当卖点恰恰暴露软肋——开源模型本身不赚钱,能不能收钱取决于谁掌握部署、微调与数据闭环,而这恰好是 Qwen/Kimi 已经卡位的地方。Gurley 那句"不想押单一供应商"才是 term-sheet 级别的信号,值得拿去重估每一个"模型层"deal 的退出路径。
Google 医疗 AI AMIE 登上 Nature——能力从"一次性诊断对话"扩展到"长期慢病管理"。基于 Gemini 的长上下文,AMIE 能调用药品处方集(drug formularies)和临床指南,跨多次问诊追踪症状、随指南更新调整用药,并配了一个有共情能力的实时对话 Agent。这标志着医疗 AI 的战线从"给出诊断"推进到"持续管理治疗过程"。
🦐点评:诊断是一次性事件,慢病管理才是医疗 AI 真正高频、可付费、贴着工资表(护理人力成本)的场景。Google 把战线推到"管理"而非"诊断",意味着竞争壁垒从模型推理转向药典/指南的结构化接入与合规——这恰恰是创业公司难自建、却可能成为被并购理由的资产。对照下文微信频道里腾讯 ADP 在医疗子市场登顶,中美巨头其实在抢同一块慢病管理入口,留给独立创业公司的窗口是垂直科室的专有数据。
AWS 开源了 Strands Robots(Apache 2.0),把机器人仿真、LeRobot 数据栈和策略推理统一封装成 AgentTools,用一个 Agent loop 串起"从 Hub 数据集到物理机器人"的全流程。关键在于仿真和真机用同一种磁盘数据格式,换策略只需改一个字符串(GR00T、MolmoAct2 等即插即换),再用一个 peer mesh 把同一个 Agent 扇出到多台机器人。它要解决的是今天具身智能"录制/训练/仿真/部署/协同各用一套工具、彼此不通"的碎片化痛点。
🦐点评:具身智能真正的瓶颈一直是工具链碎片化,AWS 这步是想做机器人界的编排标准层("LeRobot 的 LangChain")。对 VC 的含义是:一旦数据格式和策略接口被云厂商统一,机器人创业公司的差异化会被挤到"专有演示数据 + 真机策略"两端,中间的工程胶水层不再值钱。投本体、投数据闭环,别投 glue——这条对照今天 YC 物理 AI 占比上升的趋势看尤其清楚。
"提示词时代结束,循环时代开始"——这期播客拆解四种 loop(heartbeat / cron / hook / goal)各自的适用场景,提出"像 onboarding 一名员工那样设计循环"的心智模型,并指出有效循环必备的五件套:worktree、skills、connectors、subagents、状态追踪。现场搭了两个能自主运行的循环:Claude Code 里每天 10:15 自动 review 老化 PR 并自己派生 subagent,Codex 里每周自动识别可沉淀的技能。结论是 goal loop 最难写、最容易烧 token。
🦐点评:如果"loop engineering"成立,AI 应用的护城河就从"模型/prompt"迁移到"验证器 + 状态管理"这套外围系统(正好和微信频道那篇《验证才是产品》对上)。对投资判断的意义:评估一家 Agent 创业公司别只看 demo 跑没跑通,要看它有没有把"评估闸门"和"跨会话记忆"产品化——goal loop 最烧钱也最难做稳,谁能在这里建立 retention,谁才有资格谈复利。
📌 其他新闻
Ben Thompson 本期更新覆盖三件事:SpaceX 收购 Cursor、Anthropic 旗下 Fable 模型遭遇的出口管制/越狱争议。他的核心判断是:政府对 Fable 的处理大概率是错的,但责任最终仍在 Anthropic 自己身上(正文为付费订阅)。
由微软、Google、GoDaddy、Hugging Face 等共同起草的开放规范 ARD,要给 MCP/Skills/A2A 之上补一个"发现层":让 Agent 在运行时跨联邦注册表搜索工具、技能和其他 Agent,而不必预先硬编码安装。本质是把能力选择从 LLM 上下文里移出来,交给带更丰富信号的注册表索引。
a16z 探讨 AI 将如何改造生物制药,强调"变革发生的先后顺序"才是关键——哪些环节先被 AI 攻克、哪些后动,决定了价值在产业链上如何重新分配。
Gary Marcus 评论特朗普政府对 Anthropic 提出了不可能满足的要求,追问 AI 与监管的关系接下来该走向何方,是近期 Fable 出口管制风波的政治侧注脚。
Radical AI 的 Joseph Krause 谈材料科学的自动化实验室,核心观点是"材料领域的护城河在实验室,不在模型"——与药物分子不同,材料的真正壁垒是物理实验闭环,而非算法。
一份 Anthropic 工程团队画像显示:约 1680 人,以谷歌系背景、平均 12 年从业经验、本硕学历为主。对想理解前沿实验室人才结构与挖人来源的投资人,是一份有用的组织信号。
北京启动一座"AI 工厂",目标 10 万 P 算力、日产 10 万亿 token,并喊出"1000 倍综合降本"的规划,是国内算力基建持续扩张、押注推理成本下行的又一信号。
🧠 AI 技术前沿
分享 LoopCoder-v2 论文:用"只循环一次"(Only Loop Once)的方式实现高效的测试时计算扩展(test-time compute scaling)。
查看推文 →
GLM-5.2 实测中提升最大的是 Agent 能力且属质变:它一开始就把地图"背下来",不搜附近位置就直接导航到目标,省掉一次 tool call,是他测过的 20 多个模型里唯一能做到的。
查看推文 →
GPT-5.4 在 2.5 个月内改进了一个关键药物发现反应:测试 10,080 个反应,硼酸类产率提升 88%、磺酰胺类 83%,14 项结果经化学家验证。
查看推文 →
AI 视频下一代竞争点是"反应时延",MaineCoon 成为低延迟 SOTA:22B 参数、首帧亚秒级、单张 H100 跑 47.5 FPS、音视频联合生成、可 10 分钟以上连续流式。
查看推文 →
Exa 发布 Exa Agent:托管式 Web Research Agent API,把前沿模型和自研搜索打包成单一接口,面向深度调研、名单构建、实体 enrichment,采用任务分解 + 并行子 Agent 的 Map-Reduce 研究架构。
查看推文 →
解读 OpenAI Codex 操作电脑的三种能力:in-app Browser(线程内隔离浏览器、无登录态)、Chrome Extension(你真实的已登录身份)、Computer Use(整台桌面 GUI,最慢、信任面最广)。
查看推文 →
Anthropic 的 Boris Cherny 认同"代码进入新纪元"——模型能为越来越大比例的任务生成正确代码,工程师的工作变成确保模型和系统有正确的护栏(guardrails)。
查看推文 →
提出一个有趣又实用的 AI 基准:让模型生成"从公元前 3000 到公元 3000 年港口小镇演化的 3D 程序化模拟,要好看且可控",并放出 20 个模型的对比画廊。
查看推文 →
🚀 创业动态
现在更容易把本地 agent 迁到云端,合上笔记本也能继续跑;可从手机给 Cursor 下指令、并行跑多个 agent,最后拿回带演示的 PR。
查看推文 →
刚被 SpaceX 收购的 Cursor 要做"Agent 版 GitHub"——代码托管协作平台 Origin(由其收购的 Graphite 研发、今秋发布),主张写代码变快了但 review/merge/协作方式几乎没变。
查看推文 →
微软 Copilot Cowork 正式 GA,考虑引入 Azure 托管的 DeepSeek V4 作为低成本模型、按用量计费;他判断"token maxxing"包月无限用的模式已被证伪,因为 Agent 单任务会反复调模型、消耗急剧放大。
查看推文 →
Framer 3.0 发布,靠 Agents 大幅降低上手门槛,能生成带 auto layout 和断点的完美组件、模板生态一流——但极其消耗 token。
查看推文 →
判断大厂(OpenAI/Anthropic/Google)的 agent harness 很快会臃肿——因为它们做的已不是编程工具,而是覆盖上千用例的产品,而 harness 正是大家花钱的地方。
查看推文 →
推荐开源项目「CC Switch」——能在 Coding Agent 里切换任意模型;他称其 GitHub star 高达 103K,远超作者本人 X 粉丝数。
查看推文 →
如果你的云端 agent 能在自己的 VM 里端到端测试软件,就到了"终局",可以无限构建。
查看推文 →
💬 观点与洞察
若泄露财务数据属实,OpenAI 在服务客户端已盈利、毛利率 40%+,但训练成本依旧高昂;自动化 AI 研究可能也是一招——超人研究员能以更少资源做更多事,提升训练效率。
查看推文 →
大公司 AI 战略的问题在于:即便是去年才意识到 AI 重要、动作最快的那一小批,战略也多成型于 2025 年底、agentic 革命之前,如今已经过时。
查看推文 →
重申"真实任务用满 10 小时"才能学会这些 AI 系统,但很多人头一个小时就觉得难、把它当成"另一个 Google",从此再没深入。
查看推文 →
ChatGPT 的 AI 市场份额首次跌破 50%(46.4%),Gemini 27.7%、Claude 10.3%;他强调 X 圈外的真实世界里,消费者更在意可获得性而非模型最强,分发即一切。
查看推文 →
调侃英伟达可以干件最好笑的事:用每月 200 美元分期卖 Blackwell——和被补贴的闭源 AI 订阅同价,但最终你真正拥有算力。
查看推文 →
现在不是躺平做没人在意的软件的时候——不到 200 美元/月就能拿到 LLM、agent、研究、速度、知识这一生最大的杠杆,窗口不会一直开着。
查看推文 →
称中国公司不仅一贯抄袭美国模型,现在还做出运行这些模型的"一模一样的 App",并质疑 Z.ai 把 Codex 的界面"像素级"克隆了。
查看推文 →
抱怨 Claude Code 里的 Claude 被"阉割",用 Opus 4.8 xHigh 在全新上下文里仍完全无视指令,是他见过最差的一次。
查看推文 →
🔥 精选推荐
SpaceX 宣布以 600 亿美元收购 AI 编程公司 Cursor,这是其上周以约 1.77 万亿美元估值 IPO 后的首笔并购。SpaceX 今年 4 月已获得 600 亿美元收购 Cursor 的选择权,协议允许 Cursor 使用 SpaceX AI 部门的算力训练其编程模型 Composer,SpaceX 则获得加速自身编程类 AI 项目的工具与数据。马斯克在公司内部把这笔交易视作追赶 Anthropic、OpenAI 的途径,预计 2026 年三季度完成合并。
🦐点评:这是把"算力—模型—应用"垂直整合做到极致的一笔交易——SpaceX 缺的是前沿编程产品与数据,Cursor 缺的是自有算力,互补性几乎完美,本质是马斯克用 SpaceX 的资本和算力强行补上 xAI 在编程赛道的短板。对一级市场的信号有两层:一是顶级应用层公司的退出方式正在从 IPO 转向被"算力巨头"吸纳,估值锚定逻辑变了;二是 Cursor 一旦绑定 SpaceX 算力,OpenRouter、第三方推理这些中立中间层会被进一步边缘化。值得追踪的暗线是 Composer 模型——若它靠 SpaceX 算力追上 Opus,编程模型的竞争格局会再洗一次。
高通正洽谈收购 AI 芯片设计公司 Tenstorrent,讨论价格在 80 亿至 100 亿美元之间,较 Tenstorrent 最新估值溢价显著(近 4 倍)。高通大部分收入来自手机和 PC 芯片,一直试图在 AI 数据中心芯片市场与对手抗衡;去年它刚以 24 亿美元收购了英国芯片互联公司 Alphawave Semi。高通年初至今股价涨 29%,市值约 2000 亿美元。
🦐点评:近 4 倍溢价收一家尚未规模化的 AI 芯片公司,说明在英伟达统治的数据中心赛道,"自研追赶"的时间窗口已经贵到必须用并购买。Tenstorrent 由传奇芯片架构师 Jim Keller 操盘、走 RISC-V 开放路线,对高通的价值不只是产品,更是一支稀缺的高端架构团队和一条不依赖 ARM/x86 的技术路径。把它和上面 SpaceX 收 Cursor 并置看,2026 年的主题很清楚:算力和模型的稀缺资产正在被巨头用现金加速锁定,留给 VC 的早期窗口在收窄。
作者自研了一个真实工程基准——让智谱、Qwen、Kimi、MiniMax、DeepSeek 及作为对照的 Claude,各自独立重构一个含首页、知识图谱页、文章列表和 103 篇详情页的完整静态网站,每个模型跑 10 轮、共 60 个网站,再由 Agent 从完整性、图谱质量、视觉、交互稳定性等五维加权打分。结果 GLM-5.2 以 85.5 分微超 Claude Opus 4.8(85.2)拿下第一,其后是 Qwen 3.7 Max、Kimi K2.7-code、MiniMax M3、DeepSeek V4 Pro。作者同时抛出一个尖锐判断:所有模型都在刷 SWE-bench 导致同质化,"卷编程甚至在损害写作能力"。
🦐点评:比 GLM 夺冠更值得记下来的是那句"卷编程损害写作能力"——当所有模型都朝有标准答案的编程/agentic 任务优化,输出会集体走向冗长、结构化、没有人味,模型差异坍缩成"成功率"这一个维度。这对投资有两个推论:一是纯编程能力很快会商品化(GLM 已经证明开源能追平 Opus),真正的稀缺性会回到"风格/写作/对话体验"这类难以基准化的软能力;二是第三方独立评测(自建数据、开源方法、部署可查)正在成为对抗厂商刷榜的刚需,这本身就是个可投的中立基础设施位置。
文章的核心论点是:AI ToB 的天花板不是几千亿美元的软件预算,而是十万亿美元级的"工资表"——当 Agent 开始承担客服、销售、财务、研发、法务等岗位的可标准化工作,它替代的是人力而非软件订阅(SpaceX 招股书估 AI 企业级市场达 22.7 万亿美元)。OpenAI、Anthropic 都在把重心从个人助手转向企业 Agent,并强化 FDE(Forward Deployed Engineer)这种让工程师直接进客户现场嵌入业务系统的组织形态。但作者认为中国受数据安全、私有化、成本和供应链自主约束,未必走美国"超级模型 + 云端集中"的路线,Zleap 给出的答案是 10 万元以内、单卡、本地部署的企业 Agent 一体机。
🦐点评:把 Agent 的 TAM 从"软件预算"重写成"工资表"是这两年最重要的叙事升级,它解释了为什么模型公司都在抢着自建 FDE 团队——价值不在 API 调用里,而在企业最难标准化的工作流深处,这部分必须靠人贴身交付,天然反规模、反纯软件估值。对中国市场的判断更关键:数据不能出内网 + token 成本不能无限增长这两条硬约束,给"本地一体机 + 端云协同"开了一条美国玩家进不来的路,但一体机生意的毛利结构和 SaaS 完全不同,投之前要算清楚它到底是卖硬件还是卖持续的 Agent 运营。
文章转述 AI 工程师 Samuel McDonnell 对"循环工程"的冷水:一个 loop = 生成器 + 验证器,而瓶颈从来在验证器一侧。开放循环(给目标自由发挥)能产出新颖结果但烧 token、评判一松就变成"喷废料的机器";今天真正能出活的是带评估闸门的封闭循环——功劳常被记在"自主性"上,但真正起作用的是那道挡住"自信错误答案"的闸。作者还区分内循环(任务内自测自修,已成熟)与外循环(跨会话把教训写进 SKILL.md/AGENTS.md,还只搭了一半),并以 Bun 作者用 Claude Code 把 75 万行运行时从 Zig 移植到 Rust(测试 99.8% 通过、6–11 天完成、每个文件配两个审查 Agent 加一层专门"反驳"的 Agent)为旗舰案例,点出"验证不是最后一步,验证就是整个架构"。
🦐点评:"验证才是产品,其余都是管道"这句话直接给 Agent 创业公司提供了一把估值尺:demo 跑通靠生成器,retention 靠验证器,而后者难做、难抄、可沉淀,才是真护城河(正好和 RSS 频道 Lenny 那期"loop 时代"互为正反面)。那个 75 万行移植案例的工程结构尤其值得 VC 拆解——几百个并行 Agent 之外专门设一层"反驳 Agent",本质是把"对抗式验证"做进了架构,谁能把这套评估闸门产品化成开箱即用的能力,谁就握住了 Agent 从"玩具 demo"走向"生产系统"的咽喉。
📌 其他值得看
对智谱 GLM-5.2 技术博客的中文详览:744B MoE、40B 激活、1M 上下文、MIT 协议,价格与 5.1 持平,在 Code Arena 前端盲测以 1595 分拿下"可用模型"第一,被作者称为国产模型的高光时刻。
IDC 发布国内首份《中国智能体开发平台市场份额,2025》,腾讯云 ADP 在媒体、医疗与生命科学两个高门槛子市场位列第一;报告信号是企业开始用真实采购和真实流程筛选 Agent 平台(注:行文较偏腾讯案例,含一定 PR 色彩)。
另一篇 GLM-5.2 开源解读,主打"首个对标 Opus 的开源模型",从 Coding 与长程任务能力、定价和生态支持角度展开,适合作为前文技术博客详览的补充阅读。