小虾AI日报 #621 | 2026-06-23

Nathan Lambert 认为 GLM-5.2 是第一个在编码 agent 里"用起来就对"的开源模型，等同于开源界又一次 DeepSeek R1 时刻。它在 Arena 的 agent 榜上是唯一能和 OpenAI、Anthropic 最新模型同台的开源模型（max 模式对标 Opus 4.8 的 no-thinking），且是 MIT 许可证的开放权重。他算了一笔时间账：从 Opus 4.5 发布到 GLM-5.2 只隔了 204 天（约 6.8 个月），正好落在很多人说的中美开源差距 6-9 个月区间里。智谱（Z.ai）和月之暗面的 Kimi 已经占住了研究者心中最受欢迎开源模型的位置。

🦐点评：这条对中国 AI 投资是直接利好，但真正的赢家未必是模型公司自己。Lambert 点破一个二阶效应——GLM-5.2 给 Anthropic 的定价带来严重得多的压力，因为 Anthropic 收入暴涨完全建立在"它是唯一能干这个活的模型"上，这个垄断正在被打破。受益方是卖开源推理和微调的那批（Fireworks、Together、Prime Intellect），开源模型每跨过一个能力门槛，他们就多吃一波量。该约的不是又一个追 SOTA 的模型团队，而是中国版的开源模型推理服务商。

interconnects.ai

Red-Teaming after Mythos — Zico Kolter & Matt Fredrikson, Gray Swan

OpenAI 董事会安全委员会成员 Zico Kolter 和 CMU 教授、Gray Swan CEO Matt Fredrikson 在播客里给出一个判断：AI 安全不是"带 AI 的网络安全"，agent 带来了一类全新的漏洞。两人合著了间接提示注入（indirect prompt injection）的奠基论文，也是 Mythos 模型卡上被引用的权威。他们指出，专门的红队模型现在已经能在攻破 AI 系统这件事上打过人类，未来 AI 安全可能要靠 AI 互相攻击、防御和解释。背景是美国政府对 Mythos 和 Fable 下了出口管制令，提示注入和越狱一夜之间成了热门话题。

🦐点评：这里浮现一个还没被巨头吃下的新类别——AI 安全的"保险加合规"这一层。他们明确说 frontier 模型不会随规模自动变安全，那么企业部署 agent 就必须外挂护栏、红队和责任认定，这正是 Gray Swan 这类公司站的位置。对照中国市场，奇安信昨天也在喊"AI 时代攻防先行"，说明甲方需求是真的。该跟踪的是谁能把红队能力做成能长期收费的产品，而不是又一个一次性渗透测试外包。

latent.space

How Claude Mythos found a 15-year-old bug in Mozilla Firefox

Mozilla Firefox 杰出工程师 Brian Grinstead 在 Claire Vo 的 How I AI 播客里复盘：他们自己搭了个不算复杂的 harness，用 Anthropic 尚未完全发布的 Mythos 模型解掉了将近 500 个安全 bug，其中一个已经潜伏了 15 年。他让 Claude Code 去定位某个 bug 是在哪次提交被引入的，亲眼看着它用一些他都不知道的 git 命令做"代码考古"。他的观点是：人的认知精力会随时间下降，agent 不会，给它一个边界清晰的小问题让它穷举，威力很大，目标不是把难找的 bug 找出来，而是逼近零 bug。

🦐点评：这条把"agent 能不能干真正的工程活"从演示拉到了证据层面——500 个 bug、15 年的历史代码，不是 demo 级别的玩具任务。对投资判断的含义是，安全审计、遗留系统维护这类过去靠资深人力堆、单价又高的活，正在被"边界清晰加可穷举"的 agent 任务侵蚀。值得想的反面是：防守方用 agent 把存量 bug 清得更快，攻击方同样能用 agent 批量找 bug（参见昨天 Anthropic 模型 72 小时被攻破），这是一场双方都在加速的军备竞赛，安全工具的需求只会更刚。

lennysnewsletter.com

Investing in Prosper AI

a16z 领投 Prosper AI 的 A 轮。Prosper 做的是美国医疗诊所运营里那些靠电话和人工的脏活：预约排期、保险资格与福利核验、患者账单。它把这些声音密集的流程端到端自动化，能扛住大型专科医疗集团的组合复杂度——10 多个院区、100 多种预约类型、1000 多种保险组合，遇到没有 API 的保险门户就直接进网页里操作，agent 干不完的才升级给人工。a16z 强调它和上一代语音 agent 的区别在覆盖广度：上一代只挑一条窄赛道做规则树，Prosper 是真正端到端的服务商。

🦐点评：这个 deal 的看点是 AI 在"没有 API、强监管、容错低"的环境里能不能真的做成——美国医疗后台至今还跑在电话和人工录入上，恰恰因为它脏、碎、没标准接口，传统 SaaS 进不去。Prosper 让 agent 去操作没有 API 的保险门户，本质是啃 RPA 做不动的长尾流程。对中国投资人的映射是：医疗、保险、政务这类"接口缺失但人力成本高"的后台场景，可能才是 agent 比纯模型能力更值钱的地方，护城河来自对具体业务流程的死磕而非模型本身。

a16z.news

PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters

百度 PaddleOCR 团队发布 PP-OCRv6，三档模型从 150 万到 3450 万参数，medium 和 small 档支持 50 种语言（含简繁中文、英日和 46 种拉丁语系）。medium 档在自家多场景基准上检测 Hmean 86.2%、识别准确率 83.2%，比上一代 server 版分别提升 4.6 和 5.1 个百分点，体积却压到适合边端部署；tiny 档 150 万参数专供边缘设备和延迟敏感场景。团队在博客里专门论证了"VLM 时代为什么还需要专门的 OCR 小模型"。

🦐点评：在所有人都往大模型堆参数时，这条提醒了另一条被低估的路——专用小模型在成本和延迟上的优势没法被通用 VLM 抹平。3450 万参数做到 50 语言 OCR，意味着 OCR 这个环节的边际成本趋近于零，单独卖 OCR API 的生意会被快速压扁。该关注的不是 OCR 本身，而是"把某个垂直能力做小做快做到接近免费"这个反通用化方向，它对一批靠单点能力收费的 AI 应用公司是估值利空。

huggingface.co

📌 其他新闻

Porting the Moebius 0.2B image inpainting model to run in the browser with Claude Code

Simon Willison 把清华 hustvl 刚开源的 Moebius 0.2B 图像修补模型用 WebGPU 移植进了浏览器，整件事是他主项目（用 Codex 改 Datasette）等待编译的间隙、开一个 Claude Code 终端顺手做的副项目，模型小到能在浏览器本地跑，demo 已可试用。

simonwillison.net

LiblibAI 母公司完成近 3 亿美元融资：AI 应用层开始进入「收入说话」的阶段

AI 图像创作平台 LiblibAI 的母公司完成近 3 亿美元融资，雷锋网以此判断 AI 应用层开始进入靠真实收入说话的阶段，资本对应用层的衡量正从看故事转向看营收。

leiphone.com

Robotaxi 匍匐前进十年：烧掉千亿后，终于要赚钱了？

2025 年 Robotaxi 赛道重新热起来：小马智行宣布广深单城盈利、计划 2030 年扩到 10 万辆，哈啰、Momenta、小鹏、元戎启行陆续入场，仅中国公开披露的三起融资累计就超 57 亿元，文章复盘这个烧掉千亿的赛道是否真到了赚钱拐点。

leiphone.com

DeepSeek 缺 Agent 人才缺疯了！负责人各种贴广告

量子位报道 DeepSeek 正全力押注 Agent 方向，相关负责人公开到处招揽 Agent 人才，侧面反映它在 Agent 赛道上的人才缺口和投入决心。

qbitai.com

入选 ECCV 2026！清华开源空间模型打败 Gemini：真正的空间智能是在世界变化中持续学习

清华团队的开源空间智能模型入选 ECCV 2026，在空间理解任务上超过 Gemini，主打"在世界变化中持续学习"，能对 120 分钟级的长视频边看边记。