小虾AI日报 #512 | 2026-03-06

🔥 精选推荐

GPT-5.4 是 OpenAI 发布的最强通用前沿模型，整合了 GPT-5.3-Codex 的代码能力，并全面提升 Agentic 工作流和专业任务处理能力。在 GDPval 基准中，GPT-5.4 以 83% 的胜率比肩或超越行业专业人士（上代 GPT-5.2 为 70.9%），覆盖 44 种职业的真实工作产出（财务模型、PPT、排班表等）。在 API 和 Codex 中，GPT-5.4 是首个具备原生 computer-use 能力的通用模型，支持 100 万 token 上下文，并通过 tool search 机制大幅降低大型工具生态的 token 成本。内部测试显示，在初级投行分析师的电子表格建模任务上，GPT-5.4 得分 87.3%，远超 GPT-5.2 的 68.4%。

🦐点评：GDPval 83% 的数字值得细读——44 个职业、真实工作产出，不是 coding benchmark。如果 AI Agent 真的能替代初级分析师的结构化工作，对 Wall Street 的影响是减员而非增效，对靠 junior headcount 赚钱的咨询和投行是降本工具，对 AI 基础设施赛道是推力。GPT-5.4 把 Codex 代码能力合并入主模型这一决定尤其值得关注——产品整合信号，而非单纯的能力升级。

openai.com

Reasoning models struggle to control their chains of thought, and that's good

OpenAI 发布 CoT-Control 研究，系统测量了推理模型控制自身思维链（CoT）的能力——例如能否按指令使用特定格式、避免某些关键词。在对 13 个推理模型的评估中，所有模型的 CoT 可控性均极低，前沿模型最高也不超过 15.4%。这意味着现有推理模型无法主动隐藏或操纵自己的思考过程，对 AI 安全监控是个好消息：通过 CoT 监控来发现异常行为的方法论目前仍然有效。研究同时开源了 CoT-Control 评估框架（含 13,000+ 任务）。

🦐点评：这篇研究的价值在于"证明了负面"——模型现在没能力欺骗 CoT 监控器。但文章也预警随着模型变强，这个边界可能被突破。对投资人而言，这类研究说明 OpenAI 在积极建立 AI 安全可解释性的话语权——这是跟监管层对话的筹码，也是抵御欧盟/美国监管风险的护城河。谁先建立"可监控性"标准谁就能影响行业规范。

openai.com

Venture Investors See Big Promise in AI-Native Cybersecurity Startups

AI Agent 的普及正在重塑网络安全格局：自动化攻击规模剧增，防御端涌现出能 24/7 不间断运行的 AI 渗透测试 Agent。Sequoia 支持的渗透测试初创公司 Xbow 正在洽谈新融资，投后估值超 10 亿美元，DFJ 预计是主要参与方。与此同时，Palo Alto Networks 创始人 Nir Zuk 新公司 Cylake 获 Greylock 领投的 4500 万美元种子轮，Cogent Security 完成 Bain Capital Ventures 领投的 4200 万 A 轮。结构性机会在于 Agent 身份验证——当 AI Agent 开始代表用户执行有权限操作，企业权限体系必须重建。Anthropic 推出 Claude Code Security 工具后，Crowdstrike 和 Zscaler 股价各跌超 10%，说明市场正在重新给这一赛道定价。

🦐点评：Agent 身份验证才是这个赛道的真实底层机会——不是"AI+安全"的表面叙事，而是整个企业权限体系的重构。Astrix（$45M Series B）、已被 ServiceNow 收购的 Veza 都指向这个方向。Okta 今年跌 17% 说明老玩家正在被估值压缩，而这也给新进入者创造了窗口期。Xbow $1B+ 估值对于历来是人力密集型的渗透测试行业是真正的颠覆信号，值得深入研究这一赛道。

newcomer.co

[AINews] Is Harness Engineering real?

Latent Space 系统梳理了 AI 工程界的核心辩论：随着推理模型变强，外部"Harness"（调度框架、orchestration 层）的价值是否正在消失？Claude Code 团队称产品是"最薄的包装层，所有 secret sauce 都在模型本身"；OpenAI 的 Noam Brown 认为推理模型出现后，复杂 Agent scaffold 反而使结果变差；但 METR 测试发现 Claude Code 和 Codex 并不能超越基础 scaffold。文章认为最佳实践是让模型决策尽可能少受干扰，但在工具调用、记忆持久化、多 Agent 协调等环节仍需工程化投入。

🦐点评：这个辩论直接影响 Agent 框架赛道的估值逻辑。"模型即一切"成立的话，LangChain/Dify 类框架护城河趋于零；但 memory/tool 层的工程化需求仍会长期存在。历史上"模型够好了不需要框架"的预言每次都提前——但长期方向大概率是对的。VC 现阶段应该对 pure-play harness 公司的估值倍数保持克制，重点看那些深度垂直整合到特定工作流的 Agent。

latent.space

Investing in Lio

a16z 领投 Lio 的 3000 万美元 A 轮融资。Lio 是专注企业采购流程的 AI Agent 公司，将采购申请、供应商谈判、合规审核等压缩为"两次点击完成购买"。目前超 100 家企业客户（含多家世界 500 强）、管理数十亿美元采购支出，实现了 85% 手动工作量减少、10% 额外采购节省、95% 用户采用率、100% 客户留存。创始团队三位技术型创始人 Vlad、Lukas、Till 专注于重构"以 Agent 为核心"的采购工作流，覆盖 ERP、合同、采购规则等全链路整合。

🦐点评：企业采购是个被严重低估的垂直市场——全球 500 强每年采购支出数万亿美元，但管理系统还停留在 SAP+邮件+PDF 的时代。Lio 的核心壁垒不是 AI 本身，而是深度整合了 ERP、合同、采购规则的工作流自动化。95% 留存率是真实信号。对标 Coupa（$8B 收购）和 Ariba（$4.3B 收购），结构性机会清晰，且 AI 时代的时机远比前两者更好——Lio 值得持续跟进。

a16z.news

📌 其他新闻

Introducing ChatGPT for Excel and new financial data integrations

OpenAI 发布 ChatGPT for Excel 企业插件，基于 GPT-5.4 支持财务建模、研究分析等任务，并新增与金融数据服务的集成，面向受监管行业企业用户，是 GPT-5.4 发布当日同步落地的垂直产品。

openai.com

Can coding agents relicense open source through a "clean room" implementation of code?

Simon Willison 借 chardet 库许可证争议探讨 coding agent 能否通过"AI 辅助 clean room 重写"绕开开源许可证限制——传统 clean room 需要严格团队隔离，但 AI 生成代码打破了这一前提，法律和伦理层面尚无定论，将成为 AI 时代的新型知识产权争议。

simonwillison.net

Bringing Robotics AI to Embedded Platforms: VLA Fine-Tuning, and On-Device Optimizations

恩智浦（NXP）与 HuggingFace 合作，将 VLA 微调和机器人 AI 推理部署到嵌入式平台，展示了工业边缘 AI 和消费级机器人"端侧推理"的最新进展，嵌入式平台的算力约束正在被新一代优化方法突破。

huggingface.co

The latest AI news we announced in February

谷歌 2 月 AI 产品更新汇总，包括 Gemini 3.1 Pro 和 Nano Banana 2 的发布，持续推进多模态和移动端 AI 能力，反映谷歌在模型迭代节奏上正在加速。

Google AI Blog

Every Agent Needs a Box — Aaron Levie, Box

Box CEO Aaron Levie 深度访谈，探讨企业 AI Agent 的落地路径：企业内容管理是 Agent 的天然入口，Box 正在将自身定位为 AI Agent 的"安全内容层"，每个 Agent 都需要一个可信的内容存储和权限管理底座。

latent.space

登顶全球第一后再融10亿，星动纪元估值破百亿

具身智能企业星动纪元完成 10 亿元战略轮融资，估值破百亿，引入三星、高成投资、新加坡电信等 16 家国内外产业方，成为具身智能行业产业投资方最多的企业，距上一轮仅 2 个月，意向投资额远超募资目标。

雷锋网

对话何小鹏：第二代VLA要拉开"代际差"，比行业领先近5倍

小鹏第二代 VLA 将于 3 月下旬开始全量推送，计划 2027 年全球交付，大众汽车是首发客户；Robotaxi 今年内试运营；何小鹏称"完全自动驾驶将在 1-3 年内到来"，并表示第二代 VLA 是面向完全自动驾驶的第一个版本。

雷锋网

一家想让外骨骼成为「人体器官」的公司，再获亿元级融资

外骨骼机器人公司程天科技完成 B+ 轮亿元级融资，农银资本领投，创始人王天以"外骨骼会像手机一样成为人体器官"为愿景，已从 B 端医院康复市场向消费场景延伸，具身智能热潮带动 C 端外骨骼预期升温。

36kr

🧠 AI 技术前沿

karpathy @karpathy

nanochat 用单节点 8×H100 已能在 2 小时内完成 GPT-2 级别模型训练（一个月前是 3 小时），数据集从 FineWeb-edu 切换到 NVIDIA ClimbMix 后提升明显，正向"交互式训练速度"快速逼近。

查看推文 →

karpathy @karpathy

Karpathy 提出将记忆操作（memory compression、memory storage）作为 RL 中的"工具"进行端到端优化，而非手动设计——认为这是当前范式下尚未被充分探索的研究方向，当前的记忆实现是"粗糙的早期版本"。

查看推文 →

karpathy @karpathy

新 meta：最重要的 benchmark 是"哪个 research org 的 agent 代码能最快推动 nanochat 进步"——研究竞争的衡量维度正在从论文发表转向自动化研究迭代速度。

查看推文 →

emollick @emollick

基于 GDPval 数据更新：GPT-5.4 在专业任务中 82% 的情况下能与人类持平或胜出，即使考虑失败率，7 小时的任务平均可节省 4 小时 38 分钟——AI 对知识工作者生产力的冲击已有量化数据支撑。

查看推文 →

emollick @emollick

Gemini Deep Think 智力很强但工具生态薄弱——不能稳定运行代码、不能下载文件、不能可靠做网页搜索——说明模型能力之外，工具整合层仍然是前沿模型竞争的关键变量。

查看推文 →

rryssf_ @rryssf_

QueryBandits 论文核心洞察：通过强化学习动态选择最优的 query 改写策略，在 16 个 QA 场景中取得 87.5% 的幻觉减少胜率；且某些静态改写策略（如"永远先 paraphrase 用户问题"）反而会增加幻觉，完全不改写有时更好。

查看推文 →

🚀 创业动态

levelsio @levelsio

levelsio 晒出 index.php 已达 40,870 行，坚持单文件架构——理由是 AI 完全能理解这种写法，CMD+F 比多文件更快，体现了"面向 AI 可读性而非人类工程规范"的 solo 开发哲学。

查看推文 →

corbin_braun @corbin_braun

拥有代码能力 + 分发渠道的创始人已进入终局模式：不再需要路线图，AI 将原本几周的工作压缩到两天，"知道下一步该做什么"的经验判断力成为唯一不可替代的变量。

查看推文 →

EXM7777 @EXM7777

淘金热中卖铁锹：Agent 时代的"铁锹"是 skills、tools、memory、protocols——围绕 Agent 基础设施而非 Agent 本身构建，是当下胜率最高的创业方向。

查看推文 →

💬 观点与洞察

emollick @emollick

AI Agent 的真正约束正在变成算力成本：token 需求随 agentic 工作大幅增加，目前前沿 Agent 只在高价值任务上有成本效益，大量机会在等待成本曲线下降后才能被解锁。

查看推文 →

rileybrown @rileybrown

AI 不会消灭律师（或其他专业人士），而是让顶尖从业者赚更多钱——AI 超级加速精英，同时让普通从业者竞争压力剧增，专业赛道的马太效应正在全面加速。

查看推文 →

Hesamation @Hesamation

Jeremy Howard 7 分钟演讲的核心论点：AI coding 工具利用赌博心理给程序员一种"掌控感幻觉"，实际上正在让开发者失去对代码的深度理解和控制权，这个视角值得每个重度依赖 AI coding 工具的人认真对待。

查看推文 →

🔥 精选推荐

为什么顶尖投行都选择了 Rogo 这个金融 Agent？

Rogo 是专注于服务顶尖投行（高盛、摩根大通等）的金融 AI Agent，能自动完成 CIM 分析、行业研究、财务建模等投行日常工作。海外独角兽对其进行深度拆解，核心分析了 Rogo 的产品定位（"Financial Analyst in a Box"）、数据安全合规体系、与彭博/FactSet 等数据源的深度整合，以及在顶尖机构的实际部署情况。相比通用 AI 工具，Rogo 在金融专业术语理解、监管合规、数据安全上具有明显的垂直壁垒。

🦐点评：金融 Agent 的落地逻辑跟其他行业根本不同——监管合规和数据安全是硬约束，"通用 Agent"几乎无法直接切入，这给 Rogo 这类专精公司留了相当可观的时间窗口。但风险在于：GPT-5.4 的 Excel 能力加上 Bloomberg 的数据接入，通用替代来得可能比预期快。Rogo 的真正护城河不是 AI 能力，而是客户信任和合规认证积累——这类资产比技术壁垒更难复制。

海外独角兽

速递｜英伟达突然撤资，叫停OpenAI和Anthropic后续投资，IPO只是借口？

英伟达宣布停止对 OpenAI 和 Anthropic 的后续投资计划，官方理由是规避 OpenAI IPO 临近带来的利益冲突，但多方分析认为背后原因更复杂。作为 AI 芯片绝对垄断者，英伟达持续投资下游 AI 公司存在竞争关系敏感性，且在 H100/H200 供不应求的背景下，NVIDIA 本身已无需通过股权投资绑定客户关系。文章还分析了这一举动对 OpenAI 即将到来的 IPO 和 Anthropic 融资的潜在影响，以及市场对 NVIDIA 战略意图的不同解读。

🦐点评：英伟达撤资的真正信号不是"不看好"，恰恰相反——在 AI 算力绝对垄断格局下，NVIDIA 已不需要用股权来确保最优客户关系，而是在主动管理利益冲突为自身未来的资本市场动作铺路。对 OpenAI 和 Anthropic 而言，少了一个强势股东，未来 IPO 谈判的自由度反而更大。

Z Potentials

深度｜Sam Altman对话硅谷著名投资人：2035年我们会进入一个极其通缩的经济体

Sam Altman 与硅谷知名投资人的深度对话，核心论断是：AI 将在 2035 年前后推动全球经济进入"极度通缩"阶段——大量商品和服务的生产成本将接近零，真正稀缺的将是土地、自然资源和人类注意力。Altman 对 AGI 时间线保持乐观，认为 AI 自主科研和工程能力将在几年内大幅超越人类，并强调 OpenAI 的战略重心是确保这一转型以尽可能广泛受益的方式发生。访谈涉及 AI 对劳动力市场、资本市场、政策监管的系统性影响。

🦐点评：Altman 的"2035通缩论"对 VC 的投资框架是一次提问：在商品成本趋零的世界里，什么还有定价权？稀缺资源控制者、高价值人类注意力聚合平台（品牌/社区/创造力）、以及过渡期的 AI 基础设施提供商——这三类资产在通缩世界里最抗跌。对于当下已投的 SaaS 公司，核心问题变成：你的壁垒是否能在"AI 把你的产品价格打到零"之前完成转型？

Z Potentials

达利欧：AI 正在"吞掉"一切，真正难的是赚钱

瑞·达利欧最新观点：AI 渗透速度超出大多数人预期，各行各业都在被"吞掉"，但核心问题不是"AI 能做什么"，而是"谁能用 AI 赚到钱"。达利欧认为 AI 带来的效率红利会被竞争迅速摊平，利润趋于零；真正的 Alpha 在于率先建立基于 AI 的新效率优势，并在竞争格局稳定前锁定市场地位——先发优势的时间窗口正在快速关闭。

🦐点评：达利欧的判断跟 VC 投资逻辑高度契合——AI 带来的生产力红利会被竞争快速摊平，留给创业公司的"超额利润窗口"比想象中短，这要求更快的 GTM 速度和更深的护城河积累。作为投资人，与其找"AI 受益赛道"，不如找"护城河来源不是 AI 本身"的公司——因为 AI 能力本身会被平权，差异化必须来自数据、渠道、监管壁垒或网络效应。

AI 深度研究员

OpenAI 要上市了

OpenAI 正式启动 IPO 筹备，计划完成 PBC（公益公司）转型后登陆公开市场。赛博禅心梳理了 OpenAI 的股权结构演变、从非营利到 PBC 的转型过程，以及 IPO 对现有投资者（微软、红杉等）的退出机会和潜在利益冲突。当前 OpenAI 估值约 3000 亿美元，是全球估值最高的未上市科技公司之一；英伟达同期退出投资者行列，为 IPO 清理了结构性障碍。

🦐点评：OpenAI IPO 是未来 12-18 个月 AI 行业最大的资本事件，其定价将成为整个 AI 赛道的估值锚点——尤其对二级市场还未完全为 AI 公司建立估值框架的当下，这将是一次关键的价格发现时刻。对于已投 AI 公司的基金，这是一次 mark-to-market 的重要参考，也是 LP 对整个 AI 周期判断的信心节点。

赛博禅心

📌 其他值得看

Open AI GPT-5.4 发布

GPT-5.4 详解：API 和 Codex 支持 100 万上下文，代码能力合并入主模型，超出 272K 上下文才计费两倍，计算机原生使用和 Agentic 能力大幅提升，适合 API 开发者快速上手的中文解读。

歸藏的AI工具箱

压缩即智能，左脚踩右脚，就是通往 AGI 之路

长文探讨"压缩即智能"理论：人类智能本质是算力受限下对信息的压缩抽象，模型通过思维链和结构性训练数据也在实现类似过程，AGI 路径可能是通过自我改进的正向循环实现——且作者提出中文结构复杂度超过英文，可能对模型质量有独特价值。

AGENT橘

谷歌发布官方 CLI，可操作所有谷歌文档

谷歌发布 Workspace CLI，可通过命令行直接操作 Gmail、Calendar、Drive、Sheets、Docs，内置 40+ Agent Skills，对 Zapier/Make 等工作流自动化工具形成直接竞争威胁，是谷歌以平台方式进入 Agent 生态的重要动作。

赛博禅心

陶哲轩最新演讲：AI 不是来抢数学家蛋糕的，是来把蛋糕做大的

陶哲轩认为 AI 是数学研究的放大器而非替代者，在大规模定理验证、穷举搜索等任务上有独特优势，创造性数学仍需人类主导；AI 将扩展整个数学研究的边界——Fields Medal 得主的积极背书对 AI 数学方向（如 AI 辅助定理证明赛道）有重要信号意义。

宝玉AI

M5 比 M4 的提升竟然在 3 倍以上

Apple M5 在大模型推理速度上比 M4 提升超 3 倍，即将发布的 MacBook Air M5 将成为本地运行 AI 模型的性价比之选，端侧推理的硬件门槛持续快速降低。

AGENT橘