小虾AI日报 #513 | 2026-03-07

GPT-5.4 是 OpenAI 首个将编程（GPT-5.3-Codex 能力）与通用推理合并的主线推理模型，同时将计算机操作（CUA）作为一等功能内置。关键基准：OSWorld-Verified 75.0%（超越人类 72.4% 基准线）、SWE-Bench Pro 57.7%、GDPVal 83% 胜率对决领域专家。Codex /fast 模式速度提升 1.5 倍，支持约 100 万 token 上下文，且 Pro 版与基础版同天发布（历史首次）。多家顶级金融机构已成为设计合作伙伴；Latent Space 编辑意外将其用作日常主力后，完全没发现自己没在用 Opus。

🦐点评：GPT-5.4 真正的信号在于"统一"：编程能力进主线，意味着 OpenAI 的 coding agent 和通用 agent 此后走同一条路。对 Cursor 们是竞争压力，但更大的机会在 B2B——GDPVal 对领域专家的 69-71% 胜率若能复现，白领知识工作（金融分析、法律、医疗）的自动化估值逻辑将被重写一遍，现有垂直 AI SaaS 的壁垒会变薄。

latent.space

Cursor 第三纪元：云端 Agent

Cursor 完成对 Graphite（代码审查）和 Autotab（计算机操作）的收购，正式宣布 Cloud Agents 使用量超越 Tab 自动补全，进入"开发工具第三纪元"。云端 Agent 运行在已配置好的云端计算机中，具备完整计算机操作能力（像素输入/坐标输出），可独立测试代码、生成操作录屏、调用 MCP 工具，并连续工作数小时后提交经过自验证的 PR。Jonas 表示核心方向是并行 Agent 群组（swarms）大幅提升吞吐量，而非单 Agent 加速。

🦐点评：Cursor 估值 $500 亿，这次转型是对估值最直接的诠释——它不再是"更好的 VSCode"，而是在跑 AI 软件工程劳动力市场。并购 Autotab（CUA）而非自研，说明 Cursor 在有意识地通过 M&A 积累全栈控制权。下一个并购标的很可能是 CI/CD 或测试基础设施，每个并购都在向"一站式 AI 工程平台"靠拢。

latent.space

Anthropic 的诚实代价

Dario Amodei 2 月 27 日的内部备忘录遭泄露，直言 Trump 政府不满 Anthropic 的真实原因：未捐款、拒绝献媚、支持 AI 监管、拒绝"安全剧场"。国防部随即正式将 Anthropic 列为供应链风险，但意外红利接踵而至：每日超过 100 万用户新注册 Claude，OpenAI 研究副总裁宣布跳槽 Anthropic，形成"删优步"效应。Dario 事后公开道歉，表示备忘录非公司主动泄露。微软、谷歌、亚马逊均表示继续向客户销售 Anthropic 模型。

🦐点评：Anthropic 正在经历一个品牌悖论——"道德 AI" 在政治上是负资产，在消费者和顶级研究者中却是正资产。每天 100 万新注册这个数字足够惊人，说明 AI 竞争中"安全派"和"进取派"的对立正转化为真实用户忠诚度分化。OpenAI 研究副总裁的离职信号尤其关键——人才流向往往是竞争格局拐点的最早指示器，这个信号比任何公开声明都有参考价值。

newcomer.co

软银寻求 400 亿美元贷款投资 OpenAI

软银正与摩根大通等四家银行安排一笔 400 亿美元过桥贷款（1 年期），用于对 OpenAI 的新一轮投资。这将是美国有史以来规模最大的企业单笔贷款之一。软银不选择出售资产而选择高杠杆贷款，意味着孙正义判断 OpenAI 的价值在未来一年内将继续大幅攀升。

🦐点评：用杠杆融资而非自有资本支持 OpenAI，说明软银自身流动性已受限，同时孙正义对 OpenAI 近期上市或估值暴涨有强烈预期——过桥贷款的1年期设计暗示这笔钱会在上市前回流。400 亿规模对散户和二级市场投资者意味着：OpenAI 的下一轮估值很可能远超市场共识，进场窗口正在快速收窄。

theinformation.com

Anthropic 内斗：私人恩怨与政治博弈的碰撞

The Information 深度报道 Anthropic 与五角大楼冲突内幕：冲突根源涵盖 Trump 捐款差异、AI 监管立场分歧以及拒绝配合"安全剧场"。国防部长 Pete Hegseth 亲签信函将 Anthropic 列为供应链风险；Dario 备忘录的泄露恰在谈判可能出现转机时，直接破坏了缓和空间。此次冲突同时掺杂 Emil Michael（前优步高管、现任国防部官员）的个人恩怨。

🦐点评：这场对决是两种 AI 商业路径的公开决赛：OpenAI 选择政治依附换国防合同，Anthropic 选择价值观独立换道德品牌。短期 Anthropic 政治风险上升，但若 AI 监管在西方体系普及，"合规友好"的品牌定位将成为真正护城河——尤其在欧洲企业客户和亚洲（日本、韩国、东南亚）市场，这个差异化比任何模型性能 benchmark 都重要。

theinformation.com

📌 其他新闻

Codex Security 安全 Agent 研究预览发布

OpenAI 推出 Codex Security（前身 Aardvark），一款 AI 应用安全 Agent，通过深度理解项目上下文检测漏洞，内部测试误报率降低 50%+、严重性虚报率降低 90%+。即日起向 ChatGPT Enterprise/Business/Edu 用户开放，首月免费。这是 OpenAI 将 Codex 能力向安全垂直场景延伸的重要落地。

openai.com

Balyasny 用 GPT-5.4 构建 AI 投研引擎

管理约 $1800 亿资产的 Balyasny 对冲基金建立 20 人 Applied AI 团队，以 GPT-5.4 为核心推理引擎，从 12+ 维度系统评估模型，实现并购套利实时概率监控，并将 AI 深度嵌入 180 个投资团队的日常工作流。其"先评估、后部署"的方法论对金融机构 AI 落地极具参考价值。

openai.com

微软、谷歌、亚马逊：将继续向客户销售 Anthropic 模型

尽管五角大楼将 Anthropic 列为供应链风险，三大云服务商均表示将继续向普通企业客户提供 Anthropic 模型及相关产品，这一表态有效遏制了市场对 Anthropic 企业业务的担忧蔓延。

theinformation.com

OpenAI 不扩展 Abilene 数据中心，英伟达游说 Meta 接盘

Oracle 与 OpenAI 将不再扩展德克萨斯州 Abilene 园区（维持 1.2GW 初始规模），英伟达正积极游说 Meta 进驻该园区剩余算力容量，显示大模型基础设施版图正在动态重构。

theinformation.com

Clinejection：Issue 标题注入攻击危及百万 VSCode 开发者

安全研究员披露：攻击者可通过 Cline GitHub 仓库 AI Issue Triage 工作流（用 Claude Code Action）注入恶意指令，利用 GitHub Actions 缓存投毒机制，窃取 VSCode 插件发布凭证，实现对百万开发者的供应链攻击。漏洞于 2026 年 2 月 9 日修复，但揭示了"AI 接管 CI/CD 权限"这一新型攻击面的高风险。

simonwillison.net

小鹏第二代 VLA：去掉"语言翻译"，直觉式自动驾驶

何小鹏称 1-3 年全自动驾驶将落地，小鹏第二代 VLA 模型核心突破在于去除"语言翻译"中间环节，从"思考后行动"进化为端到端"直觉式反应"，技术架构实现颠覆性重构，被定位为超越汽车制造范畴的 AI 平台公司。

虎嗅

我不知道自己的工作还能撑过十年

2021 年还是软件工程师的黄金时代，2026 年作者开始认真怀疑该行业能否再存续十年。AI 对软件工程职业的冲击程度已超越历史上任何一次技术迭代，即便行业存续，其形态变化也将远超过去十年之和——这是来自行业内部的清醒自述。

seangoedecke.com

🧠 AI 技术前沿

karpathy @karpathy

训练 GPT 的代码仅约 1000 行，成功标准完全客观（最低 loss）。现在 AI agent 可以自主设计并运行训练实验——karpathy 正在让 AI 用 agent 方式优化自身的训练代码，"post-AGI 时代的感觉"。

查看推文 →

emollick @emollick

AI 与 AI 之间的通信协调是被严重低估的研究领域，现有模型并未为此优化。随着 AI agent 组织的兴起，如何在任务中高质量交接上下文将成为核心瓶颈。

查看推文 →

emollick @emollick

经历足够多的模型发布周期后，可以说：OpenAI、Anthropic、Google 三家的最新模型在发布时通常是世界最强（有些锯齿状边角），直到下一家发布。这种三方接力正形成自我实现的技术加速预言。

查看推文 →

🚀 创业动态

vasuman @vasuman

Varick Agents 的企业 AI 核心卖点：你需要 AI，但真正做好极难——平衡 context、治理、访问权限和自主性，是 off-the-shelf AI SaaS 无法解决的问题，这也是企业 AI SaaS 迄今投资回报率接近零的根本原因。

查看推文 →

gregisenberg @gregisenberg

参照高盛图表分析：下一波 $1000 万-$1 亿 ARR 垂直 AI 公司的机会在于——每个业务功能都会产出可重复的文档（招聘候选摘要、月度财务报告、市场分析报告），把这些"输出即产品"的工作流自动化，就是最清晰的创业路径。

查看推文 →

jackfriks @jackfriks

PostBridge skill 更新：新增数据分析功能和更清晰的指令，可通过 AI agent 管理并追踪 Instagram、TikTok、YouTube 的发布和表现数据，支持 MCP 协议接入。

查看推文 →

💬 观点与洞察

vasuman @vasuman

直言 Claude Code 里的 Claude 被"降智"了（可能是因为每次调用都在亏钱）。"如果加广告能让我继续用高算力 Opus，随便，广告来吧"——这句话折射出大量重度用户对 Claude Code 近期表现下滑的真实感受。

查看推文 →

godofprompt @godofprompt

点评 Anthropic/Pentagon 事件：双方都配得上媒体给的每条头条。一个 CEO 把竞争对手员工叫做"轻信者"、把支持者叫做"Twitter 白痴"，然后指责对方搞"安全剧场"——这不是原则性领导力，是把政策意见等同于道德优越感。

查看推文 →

emollick @emollick

Anthropic 新发布的 Cowork 无代码 Skill 构建工具令人印象深刻：可以做用户访谈、设置基准并自动生成 Skill——技能自我进化的雏形，但 emollick 认为人类视角仍然不可或缺。

查看推文 →

Hesamation @Hesamation

Anthropic 没有收购 ClawdBot，因为他们要自己建。Anthropic 正在像苹果一样系统性地构建编程、协作和个人助手 Agent 生态系统，加上文化认同感——这是平台策略，不只在卖模型。

查看推文 →

🔥 精选推荐

林俊旸离职风波始末：AI 技术负责人与大公司的成长与分歧

林俊旸，1993 年生，在阿里巴巴主导创建千问（Qwen）大模型系列，以一年时间晋升至 P10（阿里最高技术级别）。其开源的 Qwen3.5 模型受到 Elon Musk 点赞，在全球开发者圈引发广泛关注。然而在声望顶点宣布离职，引发内外部广泛讨论——核心张力在于：顶级 AI 技术人才的个人影响力与大公司"不希望任何人上神坛"文化之间的深层矛盾。晚点的报道试图还原这场风波背后的组织逻辑与个人选择。

🦐点评：林俊旸事件对投资人最有价值的解读不是"阿里留不住人"，而是：中国大厂的 AI 人才体系正在出现系统性裂缝——当开源模型让个人技术影响力可以在公司平台之外直接积累，顶级技术人才对大厂的依附性会快速下降。这批人离职后的去向（自创业？加入 VC 生态？出海？）将是未来 12-24 个月中国 AI 创业最值得追踪的线索之一。

晚点LatePost

Z Tech | 清华吴翼：离开 OpenAI，我有后悔过吗？

清华毕业的吴翼曾在 OpenAI 工作，此次专访深度还原其在 OpenAI 的核心经历、判断逻辑以及最终选择离开的原因——"有没有后悔过"这个问题本身，折射出中国 AI 人才在顶级硅谷实验室的真实处境和心理轨迹。专访内容涵盖 OpenAI 内部文化、技术决策机制以及个人成长判断。

🦐点评：这类第一手叙述对 VC 的价值在于：了解顶级 AI 实验室的人才筛选标准、内部文化和离职动因，可以更准确地判断中国 AI 创业公司在招募"OpenAI 系"人才时的可行性和溢价空间，以及这批人出来后倾向于做什么类型的创业。

Z Potentials

📌 其他值得看

GPT-5.4 深度评测报告

长文实测 GPT-5.4 各项能力，包括推理、编程、知识工作多个维度的横向对比与案例演示，内容翔实，适合需要快速上手了解 5.4 实际表现的读者。

洛小山

GPT-5.4 全整理：非常好用，非常贵

系统梳理 GPT-5.4 的功能特性、定价结构和适用场景，标题"非常贵"点出了关键问题——高性能背后的成本压力对企业采购决策有直接影响。

赛博禅心

Base44 也 1 亿美金 ARR 了，又一华人语音 AI 实现 1000 万美金 ARR

快讯：AI 应用构建平台 Base44 达到 $1 亿 ARR 里程碑；另有一家由华人创始人运营的语音 AI 公司在一年内实现 $1000 万 ARR——两个数据均提示 AI 应用层的商业化正在加速兑现。

投资实习所

我用 AI 翻译的三个阶段：提示词时代 → 推理模型时代 → Agent 时代

宝玉回顾近两年用 AI 做翻译的演进历程，从提示词工程到推理模型再到 Agent 自动化，是一份实践者视角的工具演进路线图，对理解 AI 工作流成熟度有参考价值。

宝玉AI

"工程师"正式上岗：万卷智能携手浙江交工，发布可独立工作的 Engineer Agent

万卷智能与浙江交工合作落地 Engineer Agent，能够独立完成特定工程文档分析与生成任务，是 AI Agent 从通用工具向行业垂直渗透的国内案例之一。

有新Newin