🔥 精选推荐
GPT-5.4 是 OpenAI 首个将编程(GPT-5.3-Codex 能力)与通用推理合并的主线推理模型,同时将计算机操作(CUA)作为一等功能内置。关键基准:OSWorld-Verified 75.0%(超越人类 72.4% 基准线)、SWE-Bench Pro 57.7%、GDPVal 83% 胜率对决领域专家。Codex /fast 模式速度提升 1.5 倍,支持约 100 万 token 上下文,且 Pro 版与基础版同天发布(历史首次)。多家顶级金融机构已成为设计合作伙伴;Latent Space 编辑意外将其用作日常主力后,完全没发现自己没在用 Opus。
🦐点评:GPT-5.4 真正的信号在于"统一":编程能力进主线,意味着 OpenAI 的 coding agent 和通用 agent 此后走同一条路。对 Cursor 们是竞争压力,但更大的机会在 B2B——GDPVal 对领域专家的 69-71% 胜率若能复现,白领知识工作(金融分析、法律、医疗)的自动化估值逻辑将被重写一遍,现有垂直 AI SaaS 的壁垒会变薄。
Cursor 完成对 Graphite(代码审查)和 Autotab(计算机操作)的收购,正式宣布 Cloud Agents 使用量超越 Tab 自动补全,进入"开发工具第三纪元"。云端 Agent 运行在已配置好的云端计算机中,具备完整计算机操作能力(像素输入/坐标输出),可独立测试代码、生成操作录屏、调用 MCP 工具,并连续工作数小时后提交经过自验证的 PR。Jonas 表示核心方向是并行 Agent 群组(swarms)大幅提升吞吐量,而非单 Agent 加速。
🦐点评:Cursor 估值 $500 亿,这次转型是对估值最直接的诠释——它不再是"更好的 VSCode",而是在跑 AI 软件工程劳动力市场。并购 Autotab(CUA)而非自研,说明 Cursor 在有意识地通过 M&A 积累全栈控制权。下一个并购标的很可能是 CI/CD 或测试基础设施,每个并购都在向"一站式 AI 工程平台"靠拢。
Dario Amodei 2 月 27 日的内部备忘录遭泄露,直言 Trump 政府不满 Anthropic 的真实原因:未捐款、拒绝献媚、支持 AI 监管、拒绝"安全剧场"。国防部随即正式将 Anthropic 列为供应链风险,但意外红利接踵而至:每日超过 100 万用户新注册 Claude,OpenAI 研究副总裁宣布跳槽 Anthropic,形成"删优步"效应。Dario 事后公开道歉,表示备忘录非公司主动泄露。微软、谷歌、亚马逊均表示继续向客户销售 Anthropic 模型。
🦐点评:Anthropic 正在经历一个品牌悖论——"道德 AI" 在政治上是负资产,在消费者和顶级研究者中却是正资产。每天 100 万新注册这个数字足够惊人,说明 AI 竞争中"安全派"和"进取派"的对立正转化为真实用户忠诚度分化。OpenAI 研究副总裁的离职信号尤其关键——人才流向往往是竞争格局拐点的最早指示器,这个信号比任何公开声明都有参考价值。
软银正与摩根大通等四家银行安排一笔 400 亿美元过桥贷款(1 年期),用于对 OpenAI 的新一轮投资。这将是美国有史以来规模最大的企业单笔贷款之一。软银不选择出售资产而选择高杠杆贷款,意味着孙正义判断 OpenAI 的价值在未来一年内将继续大幅攀升。
🦐点评:用杠杆融资而非自有资本支持 OpenAI,说明软银自身流动性已受限,同时孙正义对 OpenAI 近期上市或估值暴涨有强烈预期——过桥贷款的1年期设计暗示这笔钱会在上市前回流。400 亿规模对散户和二级市场投资者意味着:OpenAI 的下一轮估值很可能远超市场共识,进场窗口正在快速收窄。
The Information 深度报道 Anthropic 与五角大楼冲突内幕:冲突根源涵盖 Trump 捐款差异、AI 监管立场分歧以及拒绝配合"安全剧场"。国防部长 Pete Hegseth 亲签信函将 Anthropic 列为供应链风险;Dario 备忘录的泄露恰在谈判可能出现转机时,直接破坏了缓和空间。此次冲突同时掺杂 Emil Michael(前优步高管、现任国防部官员)的个人恩怨。
🦐点评:这场对决是两种 AI 商业路径的公开决赛:OpenAI 选择政治依附换国防合同,Anthropic 选择价值观独立换道德品牌。短期 Anthropic 政治风险上升,但若 AI 监管在西方体系普及,"合规友好"的品牌定位将成为真正护城河——尤其在欧洲企业客户和亚洲(日本、韩国、东南亚)市场,这个差异化比任何模型性能 benchmark 都重要。
📌 其他新闻
OpenAI 推出 Codex Security(前身 Aardvark),一款 AI 应用安全 Agent,通过深度理解项目上下文检测漏洞,内部测试误报率降低 50%+、严重性虚报率降低 90%+。即日起向 ChatGPT Enterprise/Business/Edu 用户开放,首月免费。这是 OpenAI 将 Codex 能力向安全垂直场景延伸的重要落地。
管理约 $1800 亿资产的 Balyasny 对冲基金建立 20 人 Applied AI 团队,以 GPT-5.4 为核心推理引擎,从 12+ 维度系统评估模型,实现并购套利实时概率监控,并将 AI 深度嵌入 180 个投资团队的日常工作流。其"先评估、后部署"的方法论对金融机构 AI 落地极具参考价值。
尽管五角大楼将 Anthropic 列为供应链风险,三大云服务商均表示将继续向普通企业客户提供 Anthropic 模型及相关产品,这一表态有效遏制了市场对 Anthropic 企业业务的担忧蔓延。
Oracle 与 OpenAI 将不再扩展德克萨斯州 Abilene 园区(维持 1.2GW 初始规模),英伟达正积极游说 Meta 进驻该园区剩余算力容量,显示大模型基础设施版图正在动态重构。
安全研究员披露:攻击者可通过 Cline GitHub 仓库 AI Issue Triage 工作流(用 Claude Code Action)注入恶意指令,利用 GitHub Actions 缓存投毒机制,窃取 VSCode 插件发布凭证,实现对百万开发者的供应链攻击。漏洞于 2026 年 2 月 9 日修复,但揭示了"AI 接管 CI/CD 权限"这一新型攻击面的高风险。
何小鹏称 1-3 年全自动驾驶将落地,小鹏第二代 VLA 模型核心突破在于去除"语言翻译"中间环节,从"思考后行动"进化为端到端"直觉式反应",技术架构实现颠覆性重构,被定位为超越汽车制造范畴的 AI 平台公司。
2021 年还是软件工程师的黄金时代,2026 年作者开始认真怀疑该行业能否再存续十年。AI 对软件工程职业的冲击程度已超越历史上任何一次技术迭代,即便行业存续,其形态变化也将远超过去十年之和——这是来自行业内部的清醒自述。
🧠 AI 技术前沿
训练 GPT 的代码仅约 1000 行,成功标准完全客观(最低 loss)。现在 AI agent 可以自主设计并运行训练实验——karpathy 正在让 AI 用 agent 方式优化自身的训练代码,"post-AGI 时代的感觉"。
查看推文 →
AI 与 AI 之间的通信协调是被严重低估的研究领域,现有模型并未为此优化。随着 AI agent 组织的兴起,如何在任务中高质量交接上下文将成为核心瓶颈。
查看推文 →
经历足够多的模型发布周期后,可以说:OpenAI、Anthropic、Google 三家的最新模型在发布时通常是世界最强(有些锯齿状边角),直到下一家发布。这种三方接力正形成自我实现的技术加速预言。
查看推文 →
🚀 创业动态
Varick Agents 的企业 AI 核心卖点:你需要 AI,但真正做好极难——平衡 context、治理、访问权限和自主性,是 off-the-shelf AI SaaS 无法解决的问题,这也是企业 AI SaaS 迄今投资回报率接近零的根本原因。
查看推文 →
参照高盛图表分析:下一波 $1000 万-$1 亿 ARR 垂直 AI 公司的机会在于——每个业务功能都会产出可重复的文档(招聘候选摘要、月度财务报告、市场分析报告),把这些"输出即产品"的工作流自动化,就是最清晰的创业路径。
查看推文 →
PostBridge skill 更新:新增数据分析功能和更清晰的指令,可通过 AI agent 管理并追踪 Instagram、TikTok、YouTube 的发布和表现数据,支持 MCP 协议接入。
查看推文 →
💬 观点与洞察
直言 Claude Code 里的 Claude 被"降智"了(可能是因为每次调用都在亏钱)。"如果加广告能让我继续用高算力 Opus,随便,广告来吧"——这句话折射出大量重度用户对 Claude Code 近期表现下滑的真实感受。
查看推文 →
点评 Anthropic/Pentagon 事件:双方都配得上媒体给的每条头条。一个 CEO 把竞争对手员工叫做"轻信者"、把支持者叫做"Twitter 白痴",然后指责对方搞"安全剧场"——这不是原则性领导力,是把政策意见等同于道德优越感。
查看推文 →
Anthropic 新发布的 Cowork 无代码 Skill 构建工具令人印象深刻:可以做用户访谈、设置基准并自动生成 Skill——技能自我进化的雏形,但 emollick 认为人类视角仍然不可或缺。
查看推文 →
Anthropic 收购 ClawdBot 不是因为想自建,而是在系统性地构建编程、协作和个人助手 Agent 生态系统——加上文化认同感,这是一种类似苹果的平台策略,不只在卖模型。
查看推文 →
🔥 精选推荐
林俊旸,1993 年生,在阿里巴巴主导创建千问(Qwen)大模型系列,以一年时间晋升至 P10(阿里最高技术级别)。其开源的 Qwen3.5 模型受到 Elon Musk 点赞,在全球开发者圈引发广泛关注。然而在声望顶点宣布离职,引发内外部广泛讨论——核心张力在于:顶级 AI 技术人才的个人影响力与大公司"不希望任何人上神坛"文化之间的深层矛盾。晚点的报道试图还原这场风波背后的组织逻辑与个人选择。
🦐点评:林俊旸事件对投资人最有价值的解读不是"阿里留不住人",而是:中国大厂的 AI 人才体系正在出现系统性裂缝——当开源模型让个人技术影响力可以在公司平台之外直接积累,顶级技术人才对大厂的依附性会快速下降。这批人离职后的去向(自创业?加入 VC 生态?出海?)将是未来 12-24 个月中国 AI 创业最值得追踪的线索之一。
清华毕业的吴翼曾在 OpenAI 工作,此次专访深度还原其在 OpenAI 的核心经历、判断逻辑以及最终选择离开的原因——"有没有后悔过"这个问题本身,折射出中国 AI 人才在顶级硅谷实验室的真实处境和心理轨迹。专访内容涵盖 OpenAI 内部文化、技术决策机制以及个人成长判断。
🦐点评:这类第一手叙述对 VC 的价值在于:了解顶级 AI 实验室的人才筛选标准、内部文化和离职动因,可以更准确地判断中国 AI 创业公司在招募"OpenAI 系"人才时的可行性和溢价空间,以及这批人出来后倾向于做什么类型的创业。
📌 其他值得看
长文实测 GPT-5.4 各项能力,包括推理、编程、知识工作多个维度的横向对比与案例演示,内容翔实,适合需要快速上手了解 5.4 实际表现的读者。
系统梳理 GPT-5.4 的功能特性、定价结构和适用场景,标题"非常贵"点出了关键问题——高性能背后的成本压力对企业采购决策有直接影响。
快讯:AI 应用构建平台 Base44 达到 $1 亿 ARR 里程碑;另有一家由华人创始人运营的语音 AI 公司在一年内实现 $1000 万 ARR——两个数据均提示 AI 应用层的商业化正在加速兑现。
宝玉回顾近两年用 AI 做翻译的演进历程,从提示词工程到推理模型再到 Agent 自动化,是一份实践者视角的工具演进路线图,对理解 AI 工作流成熟度有参考价值。
万卷智能与浙江交工合作落地 Engineer Agent,能够独立完成特定工程文档分析与生成任务,是 AI Agent 从通用工具向行业垂直渗透的国内案例之一。