🔥 精选推荐
Nathan Lambert 认为 GLM-5.2 是第一个在编码 agent 里"用起来就对"的开源模型,等同于开源界又一次 DeepSeek R1 时刻。它在 Arena 的 agent 榜上是唯一能和 OpenAI、Anthropic 最新模型同台的开源模型(max 模式对标 Opus 4.8 的 no-thinking),且是 MIT 许可证的开放权重。他算了一笔时间账:从 Opus 4.5 发布到 GLM-5.2 只隔了 204 天(约 6.8 个月),正好落在很多人说的中美开源差距 6-9 个月区间里。智谱(Z.ai)和月之暗面的 Kimi 已经占住了研究者心中最受欢迎开源模型的位置。
🦐点评:这条对中国 AI 投资是直接利好,但真正的赢家未必是模型公司自己。Lambert 点破一个二阶效应——GLM-5.2 给 Anthropic 的定价带来严重得多的压力,因为 Anthropic 收入暴涨完全建立在"它是唯一能干这个活的模型"上,这个垄断正在被打破。受益方是卖开源推理和微调的那批(Fireworks、Together、Prime Intellect),开源模型每跨过一个能力门槛,他们就多吃一波量。该约的不是又一个追 SOTA 的模型团队,而是中国版的开源模型推理服务商。
OpenAI 董事会安全委员会成员 Zico Kolter 和 CMU 教授、Gray Swan CEO Matt Fredrikson 在播客里给出一个判断:AI 安全不是"带 AI 的网络安全",agent 带来了一类全新的漏洞。两人合著了间接提示注入(indirect prompt injection)的奠基论文,也是 Mythos 模型卡上被引用的权威。他们指出,专门的红队模型现在已经能在攻破 AI 系统这件事上打过人类,未来 AI 安全可能要靠 AI 互相攻击、防御和解释。背景是美国政府对 Mythos 和 Fable 下了出口管制令,提示注入和越狱一夜之间成了热门话题。
🦐点评:这里浮现一个还没被巨头吃下的新类别——AI 安全的"保险加合规"这一层。他们明确说 frontier 模型不会随规模自动变安全,那么企业部署 agent 就必须外挂护栏、红队和责任认定,这正是 Gray Swan 这类公司站的位置。对照中国市场,奇安信昨天也在喊"AI 时代攻防先行",说明甲方需求是真的。该跟踪的是谁能把红队能力做成能长期收费的产品,而不是又一个一次性渗透测试外包。
Mozilla Firefox 杰出工程师 Brian Grinstead 在 Claire Vo 的 How I AI 播客里复盘:他们自己搭了个不算复杂的 harness,用 Anthropic 尚未完全发布的 Mythos 模型解掉了将近 500 个安全 bug,其中一个已经潜伏了 15 年。他让 Claude Code 去定位某个 bug 是在哪次提交被引入的,亲眼看着它用一些他都不知道的 git 命令做"代码考古"。他的观点是:人的认知精力会随时间下降,agent 不会,给它一个边界清晰的小问题让它穷举,威力很大,目标不是把难找的 bug 找出来,而是逼近零 bug。
🦐点评:这条把"agent 能不能干真正的工程活"从演示拉到了证据层面——500 个 bug、15 年的历史代码,不是 demo 级别的玩具任务。对投资判断的含义是,安全审计、遗留系统维护这类过去靠资深人力堆、单价又高的活,正在被"边界清晰加可穷举"的 agent 任务侵蚀。值得想的反面是:防守方用 agent 把存量 bug 清得更快,攻击方同样能用 agent 批量找 bug(参见昨天 Anthropic 模型 72 小时被攻破),这是一场双方都在加速的军备竞赛,安全工具的需求只会更刚。
a16z 领投 Prosper AI 的 A 轮。Prosper 做的是美国医疗诊所运营里那些靠电话和人工的脏活:预约排期、保险资格与福利核验、患者账单。它把这些声音密集的流程端到端自动化,能扛住大型专科医疗集团的组合复杂度——10 多个院区、100 多种预约类型、1000 多种保险组合,遇到没有 API 的保险门户就直接进网页里操作,agent 干不完的才升级给人工。a16z 强调它和上一代语音 agent 的区别在覆盖广度:上一代只挑一条窄赛道做规则树,Prosper 是真正端到端的服务商。
🦐点评:这个 deal 的看点是 AI 在"没有 API、强监管、容错低"的环境里能不能真的做成——美国医疗后台至今还跑在电话和人工录入上,恰恰因为它脏、碎、没标准接口,传统 SaaS 进不去。Prosper 让 agent 去操作没有 API 的保险门户,本质是啃 RPA 做不动的长尾流程。对中国投资人的映射是:医疗、保险、政务这类"接口缺失但人力成本高"的后台场景,可能才是 agent 比纯模型能力更值钱的地方,护城河来自对具体业务流程的死磕而非模型本身。
百度 PaddleOCR 团队发布 PP-OCRv6,三档模型从 150 万到 3450 万参数,medium 和 small 档支持 50 种语言(含简繁中文、英日和 46 种拉丁语系)。medium 档在自家多场景基准上检测 Hmean 86.2%、识别准确率 83.2%,比上一代 server 版分别提升 4.6 和 5.1 个百分点,体积却压到适合边端部署;tiny 档 150 万参数专供边缘设备和延迟敏感场景。团队在博客里专门论证了"VLM 时代为什么还需要专门的 OCR 小模型"。
🦐点评:在所有人都往大模型堆参数时,这条提醒了另一条被低估的路——专用小模型在成本和延迟上的优势没法被通用 VLM 抹平。3450 万参数做到 50 语言 OCR,意味着 OCR 这个环节的边际成本趋近于零,单独卖 OCR API 的生意会被快速压扁。该关注的不是 OCR 本身,而是"把某个垂直能力做小做快做到接近免费"这个反通用化方向,它对一批靠单点能力收费的 AI 应用公司是估值利空。
📌 其他新闻
Simon Willison 把清华 hustvl 刚开源的 Moebius 0.2B 图像修补模型用 WebGPU 移植进了浏览器,整件事是他主项目(用 Codex 改 Datasette)等待编译的间隙、开一个 Claude Code 终端顺手做的副项目,模型小到能在浏览器本地跑,demo 已可试用。
AI 图像创作平台 LiblibAI 的母公司完成近 3 亿美元融资,雷锋网以此判断 AI 应用层开始进入靠真实收入说话的阶段,资本对应用层的衡量正从看故事转向看营收。
2025 年 Robotaxi 赛道重新热起来:小马智行宣布广深单城盈利、计划 2030 年扩到 10 万辆,哈啰、Momenta、小鹏、元戎启行陆续入场,仅中国公开披露的三起融资累计就超 57 亿元,文章复盘这个烧掉千亿的赛道是否真到了赚钱拐点。
量子位报道 DeepSeek 正全力押注 Agent 方向,相关负责人公开到处招揽 Agent 人才,侧面反映它在 Agent 赛道上的人才缺口和投入决心。
清华团队的开源空间智能模型入选 ECCV 2026,在空间理解任务上超过 Gemini,主打"在世界变化中持续学习",能对 120 分钟级的长视频边看边记。
🧠 AI 技术前沿
DeepSWE 榜单放出:GLM-5.2 是国产编程模型 SOTA,Kimi-K2.7-Code 是性价比 SOTA。他认为 DeepSWE 比 SWE-Bench 更有参考价值——题目是人工新造、单题要改上百行、且不预先喂工具和错误日志,更接近真实改代码的过程。
查看推文 →
他更新国产四模型的投票结果:GLM-5.2 拿到 79.7%,DeepSeek V4 13.4%,Kimi K2.7 5.2%,MiniMax M3 只有 1.7%,感慨 GLM-5.2 这么强、MiniMax M3 这么惨。
查看推文 →
一篇买 Mac 跑大模型的劝退账:M3 Ultra 96G 跑 Qwen3.6-27B 才 65 token/s,按 GLM-5.2 每百万 token 28 元算,设备钱够买 11.78 亿 token,要不间断跑 200 天才回本,512G 版跑 GLM-5.2 更掉到 17 token/s。
查看推文 →
Cursor 在 Compile 大会公布三项发布,其中包括正在和 SpaceX 合作训练一个新模型。
查看推文 →
他试用 Sakana Fugu Ultra-high,吐槽极慢——shader、交互场景这类编码测试要跑 30 分钟,结果只能算"还行",实际使用比不上 Fable。
查看推文 →
🚀 创业动态
他转介前 Meta/微软/Atlassian 主任工程师 kunchenguid 的 agent 工作流——每天交付 40-50 个带测试的生产级 PR,用"你是船长、agent 是船员"四层递进组织:造船、训练船员、与单个船员协作、并行指挥多个船员加一位大副。
查看推文 →
他 90% 的 prompt 都用截图来给:先用 Wispr Flow 口述 1-2 分钟说清目标、UI 改动和验收方式,工作流稳定后固化成 skill/runbook/memory,再让 agent 循环测试、验证,并像对小学五年级学生那样解释改动。
查看推文 →
他分享怎么用 AI agent 搭一个"第二大脑",并由此体验所谓的"个人版 AGI"。
查看推文 →
他认为内容的未来是一个人可以并行运营 5 个自己的"分身"并同时养大,早入场的人会拿到很大优势。
查看推文 →
💬 观点与洞察
他统计 Anthropic 2026 年的表述里每 1000 词有 5 个与风险、监管、限制相关,是 Sam Altman 的 8 倍("risk" 336 比 30,"safeguard" 121 比 33),调侃 Anthropic 可能是把自己"恐惧营销"成了被出口管制的对象。
查看推文 →
针对"在不受出口管制风险下交付前沿能力"的说法,他反讽欧盟其实有"进口管制"问题——可能是唯一既被禁用 Mythos、又因监管过严不让用其替代品的地区。
查看推文 →
一句话感慨:GLM-5.2 让所有人都相信开源真的能赢。
查看推文 →
他说 Fable 的情况过去 10 天基本还是一团乱,各方放出的报道、文章和说法互相矛盾,没让困惑减少半分。
查看推文 →
他批评微信"小微"AI 助手不支持 Markdown,认为这是微信一贯的傲慢守旧、无视公开标准、爱自造标准;但也承认对自己这种几乎不用微信的人其实不重要,微信真正的高频用户早已不是 X 上这群人。
查看推文 →
他抛出一个判断:在电脑上完成工作这件事,"超级应用(Super-app)"才是终局形态。
查看推文 →
🔥 精选推荐
Sand.ai 三个月内连续完成两轮融资、合计超 1 亿美元,投资方阵容罕见地豪华:王慧文家办 Lollapalooza、九坤创投、经纬创投、和玉资本、创新工场、源码资本、IDG、百度风投等一线机构同时进场。它走的是自回归加 MoE 的视频生成路线,是全球最早重押多模态自回归的团队之一,方向是从视频生成走向可交互、可演化的世界模型。和玉作为本轮首个新股东领投,看中的是它从模型、系统工程到产品和商业化的整套能力。
🦐点评:这是今年中国视频生成赛道最值得看的一笔融资,信号不在金额而在投资人结构——王慧文家办、九坤这类既懂技术又有耐心的钱集中下注同一家早期公司,说明对视频生成的技术路线判断已经从"谁的画质好"转向"谁能做成世界模型"。Sand.ai 押自回归而非主流的扩散路线,是一次方向性下注,赌对了是新一代基础模型,赌错了就是绕路。该跟的是它能否在 Veo、可灵的资源碾压下证明这条少数派路线的独特价值。
晚点描摹了 00 后 AI 从业者的生态:一家成立超 15 年的知名 VC 专门办晚宴,定向邀请这群穿卫衣、用动漫头像的年轻人。数字很夸张——本科刚毕业就能拿 200 万、500 万元或 100 万美元年薪;顶尖应届生年薪从 2024 年的约 150 万涨到 2026 年核心岗位的 600 万元;还没毕业的实习生日薪最高 5500 元,抵 10 个北京外卖员。一个年薪 300 万的研究员干一年,相当于一名 2025 届本科生勤奋干 39 年。
🦐点评:这条对看人、看早期项目的投资人是一手的市场温度计。人才价格炸成这样,本质是大厂和资本在用钱锁定一个极小的供给池,传递两个判断:一是模型核心人才的稀缺被定价到了极致,二是这群人"反正要创业、不在乎工资"的心态意味着未来 2-3 年会冒出一批由 00 后主导、起点就很高的 deal。该做的不是感慨薪资,而是提前和那些在大厂核心团队实习过、还没被锁死的应届生建立关系——他们就是下一波创始人。
Transformer 论文《Attention Is All You Need》的核心作者 Noam Shazeer 离开谷歌加入 OpenAI,将领导 OpenAI 的 AI 架构研究。他 2021 年曾因谷歌出 AI 产品太慢而离职创办 Character.AI,2024 年通过一笔 25 亿美元估值的授权交易重返谷歌、共同主导 Gemini。前员工透露,谷歌研究员要靠内部政治才能拿到算力,且谷歌在卖企业级 AI 编码工具的市场上已经落后。
🦐点评:顶级研究员的流向是判断 AI 实力天平的一手证据,Shazeer 这次出走比一般人事变动信息量更大——他刚被谷歌花 25 亿美元估值请回来主导 Gemini,不到两年又走,说明钱和头衔都留不住人,留不住的很可能是算力和决策效率。对照他自己说的"研究员要靠内部政治拿算力",这是大公司组织效率拖累顶尖人才的典型信号。谷歌股价在涨,但能不能把最强的人留在牌桌上,是比股价更早的领先指标。
作者拿到微信 Agent"小微"的灰度内测,体验后认为完成度远超预期。能力清单很长:给好友发消息、发红包(都要先弹确认卡片)、读取群聊和私聊记录、建日程和待办、总结朋友圈、把公众号和视频号接进来做问答、把丢进去的 PDF 提取成笔记存进收藏。最让他意外的是里面藏着一个"小工具"——可以直接用嘴生成一个自用的小程序,他判断未来大概率会和小程序生态全面接通。
🦐点评:微信做 Agent 的杀伤力不在模型,而在它独有的社交关系链和小程序生态——发红包、读聊天记录、调起任意小程序这些动作,是 OpenAI、字节给多少钱都买不到的接口。如果"用嘴生成小程序"真和小程序生态接上,等于把开发门槛降到对话级别,微信十几亿用户瞬间都成了潜在开发者,这对独立小程序开发者和低代码平台是釜底抽薪。该重新评估的是:超级 App 自带分发和支付,做 Agent 的天然优势会不会让中国 to-C Agent 创业的空间被进一步压缩。
📌 其他值得看
中国最大的独立存储器厂商江波龙二次递表港交所冲击"A+H",同时 A 股定增拟募资不超过 37 亿元,投向 AI 存储与主控研发、海外封测。文章分析它正夹在存储周期景气与三星等巨头之间的尴尬位置。
作者线下看了清华团队"一念 Unisonmind"(CEO 为清华计算机博士耿威)的本地具身智能演示,三台机器人在没有遥控和预编程的情况下实时与环境和人交互,模型还是通用的、跑在本地。他原以为具身智能的"GPT-3.5 时刻"还很远,看完觉得可能很快就到。
据开源智能体增长追踪平台 ClawCharts 的 GitHub 数据,Nous Research 的 Agent 工具 Hermes 近 30 天新增贡献者数已超过此前席卷科技界的 OpenClaw,开源 Agent 进入"自学技能"的新一轮竞争。
作者端午假期用 Agent 做项目烧掉 2000 多万 token 后的体会:用好 AI 和会不会带人越来越像同一件事——都要把任务讲清楚、给清边界、会验收产出。
一篇讨论 RAG 本质的短文:作者把 RAG 还原成"先在数据库里检索、再组织回答"的搜索思路,抛出"RAG 的尽头可能是 SQL"的观点,引出对企业知识库、智能客服等场景检索方式的反思。