🔥 精选推荐
OpenAI Agents SDK 重大升级——将 Agent harness 从计算和存储中解耦并开源,Cloudflare、Modal、E2B、Vercel 等合作伙伴在发布首日同步推出沙箱集成。GitHub 历史上首次允许在仓库中禁用 Pull Request,标志着 AI 驱动代码协作方式的根本性转变。GPT-5.4 Pro 为 Erdős 问题 #1196 生成了一个被数学家认可的证明,采用了违反直觉的分析路径。此外,首个稀疏 MoE 扩散模型 Nucleus-Image(17B 参数/2B 激活)和 NVIDIA 120B 混合 Mamba-Attention MoE Nemotron 3 Super 等发布,推动计算效率架构前沿。
🦐点评:OpenAI 开放 Agent harness 是一步关键的平台棋——当 Codex-style 的 Agent 可以被任何人用第三方沙箱复现时,竞争差异化将从"谁的模型更强"转向"谁的编排和状态管理更好"。这对 E2B、Modal 这类沙箱创业公司既是利好(生态集成)也是风险(被降维为组件供应商)。GitHub 禁用 PR 的信号更值得深想——如果代码贡献从人类 PR 转向 Agent prompt,整个 DevOps 工具链都需要重构。
Microsoft Office 365 用户中仅约 3% 付费使用 AI Copilot,企业级 AI 变现远低于预期。但 LinkedIn 的 AI 智能体产品意外成为亮点,在招聘和销售等专业工作流中展现出更强的付费转化能力。这一对比揭示了 AI 变现的核心规律:水平化生产力工具的 AI 附加值难以定价,而嵌入垂直工作流的 AI 更容易被企业买单。
🦐点评:Copilot 3% 渗透率是一个被低估的负面信号——意味着"给每个人加个 AI 助手"的 SaaS 加价模式可能走不通。LinkedIn Agent 的反差则暗示 AI 变现的最佳路径不是"通用 copilot"而是"垂直 agent":当 AI 直接嵌入招聘/销售的闭环决策流程时,企业愿意为结果而非功能付费。这对所有在做"AI + 已有 SaaS"的创业公司是一记警钟。
马斯克旗下 xAI 计划向 AI 编程工具 Cursor 出租大规模算力,Cursor 将使用 xAI 的数万块 GPU 训练其最新编码模型。这笔交易标志着 xAI 正从纯模型公司向算力基础设施提供商转型,同时也反映出 AI 编码工具进入新的资本密集阶段。
🦐点评:xAI 的 Colossus 数据中心投入终于找到了除自家模型训练之外的变现渠道——卖算力。这让 xAI 的估值逻辑从"Grok 能打赢 GPT 吗"变成"算力基础设施+模型"的双轮故事。更有意思的是 Cursor 端的信号:一个编程工具需要数万块芯片来训练模型,说明 AI Coding 赛道的竞争壁垒正在从产品体验转向计算资源,小团队很难再靠调 API 做出差异化。
HuggingFace 联合 Apple MLX 团队开发了一套 Skill + 测试框架,帮助代码 Agent 高质量地将 transformers 模型移植到 mlx-lm。核心发现:Agent 生成的 PR 数量增长 10 倍,但绝大多数忽略了代码库的隐性设计契约——transformers 本质上是人对人的代码通信,Agent 会按"最佳实践"重构代码,实际上破坏了库与用户之间的隐含约定。解决方案不是限制 Agent,而是通过 Skill 教会 Agent 什么是重要的,同时用独立的非 Agent 测试框架保证可复现性。
🦐点评:这篇文章揭示了一个被忽视的问题——开源的瓶颈不是 coding 速度,而是对代码库隐性契约的理解。Agent PR 泛滥但维护者没有增加,意味着"谁来做 code review"将成为开源项目的新瓶颈。对投资人来说,这指向 AI 编码的下一个竞争维度:不是"谁生成代码更多",而是"谁理解代码上下文更深"。HuggingFace 的 Skill 模式——教 Agent 规则而非让 Agent 自由发挥——可能是企业级代码智能体的标准范式。
📌 其他新闻
OpenAI 大幅扩展 Codex 功能,新增计算机操作、应用内浏览、图像生成、记忆和插件系统,覆盖 macOS 和 Windows。Codex 正从代码工具进化为通用开发者 Agent,对 Cursor、Windsurf 等独立 AI 编程工具形成直接竞争压力。
OpenAI 发布生命科学领域专用推理模型 GPT-Rosalind,覆盖药物发现、基因组分析和蛋白质推理。标志着从通用模型向垂直领域专用模型的战略延伸,对 AI+Bio 交叉投资主题有直接参考价值。
高瓴、红杉中国、美团联合领投,创中国具身智能单轮融资最高纪录。公司成立仅一年即达到行业头部,资本加速向人形机器人集中。
支持从文本/图像/视频多模态输入生成、重建和模拟 3D 世界,兼容游戏引擎导出 Mesh/3DGS/点云资产。开源定位生态基础设施,与 Google Genie3 正面竞���。
支持实时交互式世界构建(漫游+导演模式)及多模态理解与音视频联合生成,用户创建的世界可保存并开放二次创作。中国科技巨头在 LLM 和视频生成之后,世界模型成为新竞争前沿。
电商老兵 Marc Lore(前 Walmart 电商 CEO)的食品配送公司 Wonder 正在准备 Pre-IPO 轮融资,信号 IPO 窗口正在向消费科技创业公司回暖。
🧠 AI 技术前沿
Qwen 3.6-35B-A3B 在 SWE-bench 上达到 73.4%(对比 Opus 4.7 的 87.6%),推理仅用 3B 参数、无速率限制、免费运行。~5T 参数大模型 vs 3B 激活小模型,差距在缩小。
查看推文 →
2-bit 量化后的 Qwen3.6-35B-A3B 仅需 13GB 内存即可快速运行,已能完成完整的代码仓库 bug 猎取、修复、测试和 PR 编写。
查看推文 →
批评 Claude Opus 4.7 的自适应思考机制——模型经常将非数学/代码任务判定为"低努力"并产出更差结果,且不像 ChatGPT 那样提供手动覆盖选项。AI 公司总假设编程是唯一重要的智力工作。
查看推文 →
LangChain 实验证明:保持模型不变,仅改进 Agent 周围的基础设施/harness 配置,任务完成率提升 13.7 个百分点。harness 正变得比模型本身更重要。
查看推文 →
502 名高盛、摩根大通和 Evercore 银行家参与测试:没有任何前沿 AI 模型的输出达到"客户就绪"标准。GPT-5.4 仅通过 16% 的任务,Claude Opus 4.6 直接硬编码数值而非写 Excel 公式,导致产出的金融模型完全不可用。
查看推文 →
Opus 4.7 在启动深度思考时,产出了迄今为止最好的 TikZ 独角兽图形——用科学图表语言画出的复杂图形,是模型能力意外涌现的经典测试。非思考模式下表现也不错。
查看推文 →
🚀 创业动态
深度体验 Codex 应用:全权限运行、无 Cowork 限制、代码任务自动生成预览、非代码任务直接出文档/PPT。已用它搭建自动化——每天早上从 Readwise 生成 X 书签分类卡片。
查看推文 →
一条推文带来 3000 注册用户,3 天内达到 $1K MRR。背后是三个月的艰苦产品打磨,全员加薪后仍高强度投入,并非一夜爆红。
查看推文 →
字节旗下 BytePlus 发布 Seedance 2.0 API,支持多模态输入生成 AI 视频,被评为目前最可控的 AI 视频工作流之一。
查看推文 →
TinyFish 自建搜索、抓取、浏览器和 Agent 全套基础设施——如果你的 Agent 无法在真实网络中存活,它到达用户手里就已经死了。
查看推文 →
Codex 团队实际功能做得很好,但缺乏独立 X 账号和成熟的 PR 策略,严重低估了自身的市场宣传力度。
查看推文 →
💬 观点与洞察
Agent 遇到瓶颈是因为缺乏领域判断力。问题不是 AI 是否取代你,而是你的专业知识是否足够具体到 Agent 会付费获取它。大多数人的答案是否定的——先解决这个问题。
查看推文 →
永远不会有一人公司估值十亿美元。
查看推文 →
10 万次请求只花 20 美元——推理成本之低比腾讯爬数据这件事本身更值得担忧。
查看推文 →
AI 正在让你变笨,而你自己感觉不到。
查看推文 →
🔥 精选推荐
DeepSeek V3/R1/Coder/Math 核心贡献者、GRPO 算法提出者郭达雅以近亿元年薪总包加入字节 Seed 团队任 Agent 负责人之一,阿里腾讯字节三家争抢,字节胜出。Claude Code 上线不到一年 ARR 达 25 亿美元,推动 Anthropic 整体 ARR 从 90 亿暴涨至 300 亿。中国大厂 AI Coding 团队格局剧变——智谱 GLM-5 调用量增长 400%,月之暗面 K2.5 发布不到一个月收入超 2025 全年。
🦐点评:近亿元年薪的真正信号不是"人才贵",而是字节判断 AI Coding 赛道的商业化价值已经超过了大模型基础研究。Claude Code 25 亿美元 ARR 的数据证实了这一判断——AI Coding 可能是当前 AI 领域 PMF 最清晰的方向。对投资者来说,关注点应该从"谁的模型跑分高"转向"谁能把模型能力转化为开发者付费"。字节抢人也说明中国 AI Coding 市场即将进入烧钱抢份额阶段。
深度拆解 AI Roll-Up 投资模式:不卖 AI 工具给传统企业,而是直接收购传统企业后用 AI 重新运营。三大资本方合计投入超 50 亿美元专项资本——GC 15 亿、Thrive 20 亿(OpenAI 工程师入驻共建)、Lightspeed 15 亿。核心经济逻辑:AI 引入结构性利润率转变,会计事务所 EBITDA 从 10% 拉到 35%。Inference 成本 18 个月内降 200 倍(GPT-4 级别从 $60 降至 $0.28/百万 token),使 AI 卖劳动力的毛利开始超过 SaaS。
🦐点评:AI Roll-Up 的核心洞察是"与其说服传统企业用 AI,不如直接买下来自己改"——这绕过了企业 AI 采用慢的最大痛点。$5B+ 专项资本的规模说明这已不是实验阶段。但风险在于:Roll-Up 的历史战绩并不好看(PE 做 Roll-Up 的平均回报并不优秀),AI 能否真正改变这个公式取决于 margin expansion 的可持续性和管理整合的复杂度。
SaaS 公司 Mutiny 创始人做出极端决策——主动终止所有 SaaS 客户合同,团队从峰值缩至 15 人,放弃 8 位数 ARR 全力押注 AI 智能体产品。红杉 A 轮董事会成员 Bogomil 力挺:"我们投的是你们这个团队,不是产品。" 新 Agent 产品零市场投入获 1000+ 注册(Rippling、Amazon、Google 等),MRR 周增速 188%,是 SaaS 时期的 12 倍。
🦐点评:188% 周 MRR 增速 vs SaaS 时期 15%——这组数据比任何论述都有说服力。核心教训是"找 PMF 和规模化运营是物理上不相容的"——大多数 SaaS 公司在旧业务和新 AI 产品之间左右摇摆,Mutiny 选择了最激进的焚船路径。对 VC 来说,值得追踪这个案例的后续:红杉对团队而非产品下注的决策框架,以及焚船策略成功的前提——创始人对新方向的 PMF 判断必须准确,否则就是毁灭。
Anthropic 收到多份投资要约估值达 8000 亿美元以上,但目前已全部拒绝(2 月份融资估值为 3500 亿美元)。公司 ARR 从数月前的 190 亿美元飙升至 300 亿美元,IPO 或最早于 10 月启动。同期 OpenAI 以 8520 亿美元估值完成 1220 亿美元融资。
🦐点评:拒绝 $800B 估值意味着 Dario Amodei 要么认为 Anthropic 值更多(Opus 4.7 发布提振信心),要么在为 IPO 保留定价空间。ARR 从 $19B 到 $30B 的增速惊人,但与 $800B 估值对应的隐含 P/S 仍超 25x——只有维持这种增速才能支撑。最值得关注的是时间窗口:如果 10 月 IPO,Anthropic 将成为 AI 公司上市的标杆定价者。
📌 其他值得看
基于红杉合伙人 Julien Bek"Services as Software"论文:每 $1 软件支出对应 $6+ 服务支出,AI Autopilot 模式(卖结果)的利润率远高于 Copilot 模式(卖工具),因为交付成本随模型进步下降但定价不变。
SWE-bench Pro 64.3% 超 GPT-5.4 的 57.7%,OfficeQA Pro 文档推理 80.6% 碾压对手(GPT-5.4 仅 51.1%)。Rakuten 生产任务解决量是 4.6 的 3 倍。Mythos Preview 未发布但 benchmark 全面领先。
XBOW 视觉敏锐度从 Opus 4.6 的 54.5% 跳至 98.5%,Mythos Preview 在主流系统中发现 0-day 漏洞。Anthropic 联合 AWS/Apple/Google 等成立 Project Glasswing 安全联盟。
GLM Coding Plan 海外版定价是国内版 2 倍多(Max $160 vs 469 元),"护照税"在海外开发者社区传开。智谱一季度接口调用价格提升 83%、调用量仍增 400%,AI Coding 供不应求。
前 Apple 芯片架构师 Gerard Williams(上一家 Nuvia 以 $1.4B 卖给高通)再次创业,红杉领投种子轮,瞄准 AI 数据中心 CPU 瓶颈。
全球首例 AI 公司收购律所,AI 助手以 74% 通过英国律师资格考试。B 轮融 6000 万英镑,年收入 2900 万欧元 7 倍增长,价格比传统律所低 30%。
速卖通品牌 GMV 增 40%+ 并挖亚马逊头部品牌,京东 22 亿欧元收购 Ceconomy 进欧洲千家门店,新拼姆投 150 亿直投产业带。三条路径对标亚马逊不同层面。
Agent OS 产品包含 OpenClaw 所有功能外加"灵魂系统"(思绪/觉知/牵挂三维度),五周开发上线,团队已用其替代 Notion/Linear。