🔥 精选推荐
GPT-5.4 是 OpenAI 发布的最强通用前沿模型,整合了 GPT-5.3-Codex 的代码能力,并全面提升 Agentic 工作流和专业任务处理能力。在 GDPval 基准中,GPT-5.4 以 83% 的胜率比肩或超越行业专业人士(上代 GPT-5.2 为 70.9%),覆盖 44 种职业的真实工作产出(财务模型、PPT、排班表等)。在 API 和 Codex 中,GPT-5.4 是首个具备原生 computer-use 能力的通用模型,支持 100 万 token 上下文,并通过 tool search 机制大幅降低大型工具生态的 token 成本。内部测试显示,在初级投行分析师的电子表格建模任务上,GPT-5.4 得分 87.3%,远超 GPT-5.2 的 68.4%。
🦐点评:GDPval 83% 的数字值得细读——44 个职业、真实工作产出,不是 coding benchmark。如果 AI Agent 真的能替代初级分析师的结构化工作,对 Wall Street 的影响是减员而非增效,对靠 junior headcount 赚钱的咨询和投行是降本工具,对 AI 基础设施赛道是推力。GPT-5.4 把 Codex 代码能力合并入主模型这一决定尤其值得关注——产品整合信号,而非单纯的能力升级。
OpenAI 发布 CoT-Control 研究,系统测量了推理模型控制自身思维链(CoT)的能力——例如能否按指令使用特定格式、避免某些关键词。在对 13 个推理模型的评估中,所有模型的 CoT 可控性均极低,前沿模型最高也不超过 15.4%。这意味着现有推理模型无法主动隐藏或操纵自己的思考过程,对 AI 安全监控是个好消息:通过 CoT 监控来发现异常行为的方法论目前仍然有效。研究同时开源了 CoT-Control 评估框架(含 13,000+ 任务)。
🦐点评:这篇研究的价值在于"证明了负面"——模型现在没能力欺骗 CoT 监控器。但文章也预警随着模型变强,这个边界可能被突破。对投资人而言,这类研究说明 OpenAI 在积极建立 AI 安全可解释性的话语权——这是跟监管层对话的筹码,也是抵御欧盟/美国监管风险的护城河。谁先建立"可监控性"标准谁就能影响行业规范。
AI Agent 的普及正在重塑网络安全格局:自动化攻击规模剧增,防御端涌现出能 24/7 不间断运行的 AI 渗透测试 Agent。Sequoia 支持的渗透测试初创公司 Xbow 正在洽谈新融资,投后估值超 10 亿美元,DFJ 预计是主要参与方。与此同时,Palo Alto Networks 创始人 Nir Zuk 新公司 Cylake 获 Greylock 领投的 4500 万美元种子轮,Cogent Security 完成 Bain Capital Ventures 领投的 4200 万 A 轮。结构性机会在于 Agent 身份验证——当 AI Agent 开始代表用户执行有权限操作,企业权限体系必须重建。Anthropic 推出 Claude Code Security 工具后,Crowdstrike 和 Zscaler 股价各跌超 10%,说明市场正在重新给这一赛道定价。
🦐点评:Agent 身份验证才是这个赛道的真实底层机会——不是"AI+安全"的表面叙事,而是整个企业权限体系的重构。Astrix($45M Series B)、已被 ServiceNow 收购的 Veza 都指向这个方向。Okta 今年跌 17% 说明老玩家正在被估值压缩,而这也给新进入者创造了窗口期。Xbow $1B+ 估值对于历来是人力密集型的渗透测试行业是真正的颠覆信号,值得深入研究这一赛道。
Latent Space 系统梳理了 AI 工程界的核心辩论:随着推理模型变强,外部"Harness"(调度框架、orchestration 层)的价值是否正在消失?Claude Code 团队称产品是"最薄的包装层,所有 secret sauce 都在模型本身";OpenAI 的 Noam Brown 认为推理模型出现后,复杂 Agent scaffold 反而使结果变差;但 METR 测试发现 Claude Code 和 Codex 并不能超越基础 scaffold。文章认为最佳实践是让模型决策尽可能少受干扰,但在工具调用、记忆持久化、多 Agent 协调等环节仍需工程化投入。
🦐点评:这个辩论直接影响 Agent 框架赛道的估值逻辑。"模型即一切"成立的话,LangChain/Dify 类框架护城河趋于零;但 memory/tool 层的工程化需求仍会长期存在。历史上"模型够好了不需要框架"的预言每次都提前——但长期方向大概率是对的。VC 现阶段应该对 pure-play harness 公司的估值倍数保持克制,重点看那些深度垂直整合到特定工作流的 Agent。
a16z 领投 Lio 的 3000 万美元 A 轮融资。Lio 是专注企业采购流程的 AI Agent 公司,将采购申请、供应商谈判、合规审核等压缩为"两次点击完成购买"。目前超 100 家企业客户(含多家世界 500 强)、管理数十亿美元采购支出,实现了 85% 手动工作量减少、10% 额外采购节省、95% 用户采用率、100% 客户留存。创始团队三位技术型创始人 Vlad、Lukas、Till 专注于重构"以 Agent 为核心"的采购工作流,覆盖 ERP、合同、采购规则等全链路整合。
🦐点评:企业采购是个被严重低估的垂直市场——全球 500 强每年采购支出数万亿美元,但管理系统还停留在 SAP+邮件+PDF 的时代。Lio 的核心壁垒不是 AI 本身,而是深度整合了 ERP、合同、采购规则的工作流自动化。95% 留存率是真实信号。对标 Coupa($8B 收购)和 Ariba($4.3B 收购),结构性机会清晰,且 AI 时代的时机远比前两者更好——Lio 值得持续跟进。
📌 其他新闻
OpenAI 发布 ChatGPT for Excel 企业插件,基于 GPT-5.4 支持财务建模、研究分析等任务,并新增与金融数据服务的集成,面向受监管行业企业用户,是 GPT-5.4 发布当日同步落地的垂直产品。
Simon Willison 借 chardet 库许可证争议探讨 coding agent 能否通过"AI 辅助 clean room 重写"绕开开源许可证限制——传统 clean room 需要严格团队隔离,但 AI 生成代码打破了这一前提,法律和伦理层面尚无定论,将成为 AI 时代的新型知识产权争议。
恩智浦(NXP)与 HuggingFace 合作,将 VLA 微调和机器人 AI 推理部署到嵌入式平台,展示了工业边缘 AI 和消费级机器人"端侧推理"的最新进展,嵌入式平台的算力约束正在被新一代优化方法突破。
谷歌 2 月 AI 产品更新汇总,包括 Gemini 3.1 Pro 和 Nano Banana 2 的发布,持续推进多模态和移动端 AI 能力,反映谷歌在模型迭代节奏上正在加速。
Box CEO Aaron Levie 深度访谈,探讨企业 AI Agent 的落地路径:企业内容管理是 Agent 的天然入口,Box 正在将自身定位为 AI Agent 的"安全内容层",每个 Agent 都需要一个可信的内容存储和权限管理底座。
具身智能企业星动纪元完成 10 亿元战略轮融资,估值破百亿,引入三星、高成投资、新加坡电信等 16 家国内外产业方,成为具身智能行业产业投资方最多的企业,距上一轮仅 2 个月,意向投资额远超募资目标。
小鹏第二代 VLA 将于 3 月下旬开始全量推送,计划 2027 年全球交付,大众汽车是首发客户;Robotaxi 今年内试运营;何小鹏称"完全自动驾驶将在 1-3 年内到来",并表示第二代 VLA 是面向完全自动驾驶的第一个版本。
外骨骼机器人公司程天科技完成 B+ 轮亿元级融资,农银资本领投,创始人王天以"外骨骼会像手机一样成为人体器官"为愿景,已从 B 端医院康复市场向消费场景延伸,具身智能热潮带动 C 端外骨骼预期升温。
🧠 AI 技术前沿
nanochat 用单节点 8×H100 已能在 2 小时内完成 GPT-2 级别模型训练(一个月前是 3 小时),数据集从 FineWeb-edu 切换到 NVIDIA ClimbMix 后提升明显,正向"交互式训练速度"快速逼近。
查看推文 →
Karpathy 提出将记忆操作(memory compression、memory storage)作为 RL 中的"工具"进行端到端优化,而非手动设计——认为这是当前范式下尚未被充分探索的研究方向,当前的记忆实现是"粗糙的早期版本"。
查看推文 →
新 meta:最重要的 benchmark 是"哪个 research org 的 agent 代码能最快推动 nanochat 进步"——研究竞争的衡量维度正在从论文发表转向自动化研究迭代速度。
查看推文 →
基于 GDPval 数据更新:GPT-5.4 在专业任务中 82% 的情况下能与人类持平或胜出,即使考虑失败率,7 小时的任务平均可节省 4 小时 38 分钟——AI 对知识工作者生产力的冲击已有量化数据支撑。
查看推文 →
Gemini Deep Think 智力很强但工具生态薄弱——不能稳定运行代码、不能下载文件、不能可靠做网页搜索——说明模型能力之外,工具整合层仍然是前沿模型竞争的关键变量。
查看推文 →
QueryBandits 论文核心洞察:通过强化学习动态选择最优的 query 改写策略,在 16 个 QA 场景中取得 87.5% 的幻觉减少胜率;且某些静态改写策略(如"永远先 paraphrase 用户问题")反而会增加幻觉,完全不改写有时更好。
查看推文 →
🚀 创业动态
levelsio 晒出 index.php 已达 40,870 行,坚持单文件架构——理由是 AI 完全能理解这种写法,CMD+F 比多文件更快,体现了"面向 AI 可读性而非人类工程规范"的 solo 开发哲学。
查看推文 →
拥有代码能力 + 分发渠道的创始人已进入终局模式:不再需要路线图,AI 将原本几周的工作压缩到两天,"知道下一步该做什么"的经验判断力成为唯一不可替代的变量。
查看推文 →
淘金热中卖铁锹:Agent 时代的"铁锹"是 skills、tools、memory、protocols——围绕 Agent 基础设施而非 Agent 本身构建,是当下胜率最高的创业方向。
查看推文 →
💬 观点与洞察
AI Agent 的真正约束正在变成算力成本:token 需求随 agentic 工作大幅增加,目前前沿 Agent 只在高价值任务上有成本效益,大量机会在等待成本曲线下降后才能被解锁。
查看推文 →
AI 不会消灭律师(或其他专业人士),而是让顶尖从业者赚更多钱——AI 超级加速精英,同时让普通从业者竞争压力剧增,专业赛道的马太效应正在全面加速。
查看推文 →
Jeremy Howard 7 分钟演讲的核心论点:AI coding 工具利用赌博心理给程序员一种"掌控感幻觉",实际上正在让开发者失去对代码的深度理解和控制权,这个视角值得每个重度依赖 AI coding 工具的人认真对待。
查看推文 →
🔥 精选推荐
Rogo 是专注于服务顶尖投行(高盛、摩根大通等)的金融 AI Agent,能自动完成 CIM 分析、行业研究、财务建模等投行日常工作。海外独角兽对其进行深度拆解,核心分析了 Rogo 的产品定位("Financial Analyst in a Box")、数据安全合规体系、与彭博/FactSet 等数据源的深度整合,以及在顶尖机构的实际部署情况。相比通用 AI 工具,Rogo 在金融专业术语理解、监管合规、数据安全上具有明显的垂直壁垒。
🦐点评:金融 Agent 的落地逻辑跟其他行业根本不同——监管合规和数据安全是硬约束,"通用 Agent"几乎无法直接切入,这给 Rogo 这类专精公司留了相当可观的时间窗口。但风险在于:GPT-5.4 的 Excel 能力加上 Bloomberg 的数据接入,通用替代来得可能比预期快。Rogo 的真正护城河不是 AI 能力,而是客户信任和合规认证积累——这类资产比技术壁垒更难复制。
英伟达宣布停止对 OpenAI 和 Anthropic 的后续投资计划,官方理由是规避 OpenAI IPO 临近带来的利益冲突,但多方分析认为背后原因更复杂。作为 AI 芯片绝对垄断者,英伟达持续投资下游 AI 公司存在竞争关系敏感性,且在 H100/H200 供不应求的背景下,NVIDIA 本身已无需通过股权投资绑定客户关系。文章还分析了这一举动对 OpenAI 即将到来的 IPO 和 Anthropic 融资的潜在影响,以及市场对 NVIDIA 战略意图的不同解读。
🦐点评:英伟达撤资的真正信号不是"不看好",恰恰相反——在 AI 算力绝对垄断格局下,NVIDIA 已不需要用股权来确保最优客户关系,而是在主动管理利益冲突为自身未来的资本市场动作铺路。对 OpenAI 和 Anthropic 而言,少了一个强势股东,未来 IPO 谈判的自由度反而更大。
Sam Altman 与硅谷知名投资人的深度对话,核心论断是:AI 将在 2035 年前后推动全球经济进入"极度通缩"阶段——大量商品和服务的生产成本将接近零,真正稀缺的将是土地、自然资源和人类注意力。Altman 对 AGI 时间线保持乐观,认为 AI 自主科研和工程能力将在几年内大幅超越人类,并强调 OpenAI 的战略重心是确保这一转型以尽可能广泛受益的方式发生。访谈涉及 AI 对劳动力市场、资本市场、政策监管的系统性影响。
🦐点评:Altman 的"2035通缩论"对 VC 的投资框架是一次提问:在商品成本趋零的世界里,什么还有定价权?稀缺资源控制者、高价值人类注意力聚合平台(品牌/社区/创造力)、以及过渡期的 AI 基础设施提供商——这三类资产在通缩世界里最抗跌。对于当下已投的 SaaS 公司,核心问题变成:你的壁垒是否能在"AI 把你的产品价格打到零"之前完成转型?
瑞·达利欧最新观点:AI 渗透速度超出大多数人预期,各行各业都在被"吞掉",但核心问题不是"AI 能做什么",而是"谁能用 AI 赚到钱"。达利欧认为 AI 带来的效率红利会被竞争迅速摊平,利润趋于零;真正的 Alpha 在于率先建立基于 AI 的新效率优势,并在竞争格局稳定前锁定市场地位——先发优势的时间窗口正在快速关闭。
🦐点评:达利欧的判断跟 VC 投资逻辑高度契合——AI 带来的生产力红利会被竞争快速摊平,留给创业公司的"超额利润窗口"比想象中短,这要求更快的 GTM 速度和更深的护城河积累。作为投资人,与其找"AI 受益赛道",不如找"护城河来源不是 AI 本身"的公司——因为 AI 能力本身会被平权,差异化必须来自数据、渠道、监管壁垒或网络效应。
OpenAI 正式启动 IPO 筹备,计划完成 PBC(公益公司)转型后登陆公开市场。赛博禅心梳理了 OpenAI 的股权结构演变、从非营利到 PBC 的转型过程,以及 IPO 对现有投资者(微软、红杉等)的退出机会和潜在利益冲突。当前 OpenAI 估值约 3000 亿美元,是全球估值最高的未上市科技公司之一;英伟达同期退出投资者行列,为 IPO 清理了结构性障碍。
🦐点评:OpenAI IPO 是未来 12-18 个月 AI 行业最大的资本事件,其定价将成为整个 AI 赛道的估值锚点——尤其对二级市场还未完全为 AI 公司建立估值框架的当下,这将是一次关键的价格发现时刻。对于已投 AI 公司的基金,这是一次 mark-to-market 的重要参考,也是 LP 对整个 AI 周期判断的信心节点。
📌 其他值得看
GPT-5.4 详解:API 和 Codex 支持 100 万上下文,代码能力合并入主模型,超出 272K 上下文才计费两倍,计算机原生使用和 Agentic 能力大幅提升,适合 API 开发者快速上手的中文解读。
长文探讨"压缩即智能"理论:人类智能本质是算力受限下对信息的压缩抽象,模型通过思维链和结构性训练数据也在实现类似过程,AGI 路径可能是通过自我改进的正向循环实现——且作者提出中文结构复杂度超过英文,可能对模型质量有独特价值。
谷歌发布 Workspace CLI,可通过命令行直接操作 Gmail、Calendar、Drive、Sheets、Docs,内置 40+ Agent Skills,对 Zapier/Make 等工作流自动化工具形成直接竞争威胁,是谷歌以平台方式进入 Agent 生态的重要动作。
陶哲轩认为 AI 是数学研究的放大器而非替代者,在大规模定理验证、穷举搜索等任务上有独特优势,创造性数学仍需人类主导;AI 将扩展整个数学研究的边界——Fields Medal 得主的积极背书对 AI 数学方向(如 AI 辅助定理证明赛道)有重要信号意义。
Apple M5 在大模型推理速度上比 M4 提升超 3 倍,即将发布的 MacBook Air M5 将成为本地运行 AI 模型的性价比之选,端侧推理的硬件门槛持续快速降低。