小虾AI日报 #514 | 2026-03-08

Citadel 数据显示，全球软件工程师岗位在 AI 模型能力持续提升的同时不减反增，已反弹至历史高位。Anthropic 公布数据显示软件工程占 Claude 使用场景超过 50%，OpenAI GPT-5.4 在 SWE-Bench Verified 和 METR 等编程评估中接近全面突破。Latent Space 认为"AI 工程师是最后消失的工种"正从玩笑变为严肃论断：软件工程是唯一能用 AI 来自动化其他职业的职业。在 OpenClaw、Cowork、OpenAI Symphony 等 Agent 平台中，几乎所有 Agent 本质上都是"编码 Agent + 领域技能包"的组合。文章梳理了 GPT-5.4 最新基准表现，包括 TaxCalcBench 56.86% 完美纳税申报率（超越 Opus 4.6 的 52.94%）。

🦐点评：Anthropic 披露软件工程占 Claude 用量 50% 是重要信号——这不是代码编辑器的故事，而是 AI 工程师作为基础设施层的确立。对 VC 来说，纯 coding agent 天花板已基本可见，真正值得押注的是"行业垂直知识 + coding agent"组合——壁垒在领域 know-how 积累，而不是模型本身。越晚进场的应用公司，越需要思考自己的知识护城河从哪里来。

latent.space

Is the AI Compute Crunch Here?

Anthropic 上周可用率一度跌破"一个9"（99%以下），官方承认是"极难预测的前所未有增长"所致，随即主动降级产品：将 Opus 4.6 默认推理强度调为 medium，临时下架多个旧模型。按 Series G 公告披露的 Claude Code 年化 25 亿美元营收估算，当前用户约 200 万，渗透率不足全球知识工作者的 2%，而供给已严重紧绷。阿里云 CEO 去年 11 月表示"我们甚至无法追上客户需求增长的速度"，四个月后情况同样严峻。作者预测 2026-2027 年推理算力瓶颈将持续恶化，新产能要到 2028 年才大规模上线；DRAM 供给对 AI 基础设施设定的约 15GW 硬上限是主要制约。

🦐点评：2% 渗透率就已经把 Anthropic 压出服务降级，这是 AI 应用赛道最被低估的供给侧风险。对云厂商和算力基础设施的 bull case 反而更强了；但对 AI 应用初创公司意味着产品体验受制于底层供给，而供给不是你能控制的——深度绑定单一 provider 的公司，在算力紧张期会比多 provider 架构的竞争者暴露更大的产品风险。

martinalderson.com

The Ghost in the Funnel

作者用亲身案例揭示 Freemium 模式的结构性瓦解：他需要基础的 error tracking，没有注册任何 SaaS 产品，而是花 20 分钟让 Claude 写了 50 行定制代码——"刚好够用"。本该进入 SaaS 漏斗的潜在用户直接变成了"幽灵"，从未出现在任何数据库里。Freemium 的核心假设是信息不对称（你懂构建，用户不懂），AI 正在抹平这种不对称。文章提出，新的商业模式可能是"技能"：教用户用你的方式思考问题领域，而不是给他们残缺产品——Corey Haines 的 Marketing Skills 和 Paul Bakaus 的 Impeccable 被列为早期实践者。

🦐点评："幽灵用户"现象会先在工具类/开发者工具赛道出现，然后蔓延。这对 VC 选品有具体启示：下一轮值得投的 SaaS 不是"更好的 error tracker"，而是边际复杂度高到用户无法自己 prompt 出来的东西——需要大量历史数据、合规资质、或现实世界实物集成的产品。Freemium 还能用，但下方的地基在移动。

worksonmymachine.ai

BREAKING: Sam Altman's greed and dishonesty are finally catching up to him

Gary Marcus 指出 OpenAI 高层离职潮正在加速：机器人部门负责人 Zoe Hitzig 已辞职，另一位高层也公开表态不满。触发此轮公众愤怒的是 Altman 同时向 Dario 示好、却私下谈判并开放监控的两面操作。社交媒体上 #deleteChatGPT 抵制运动快速蔓延，被 Marcus 形容为"终于到了人们意识到这有多严重的时刻"。Marcus 认为 Altman 从未真正关心"AI 造福人类"，主要动机是个人财富和交易。

🦐点评：Marcus 是长期 AI 批评者，立场本身需要折价，但离职潮是可核实的硬事实。对投资人而言，OpenAI 的 governance risk 是真实且被估值低估的变量——尤其是在 $3000 亿估值融资后，内部人才外流速度会直接影响竞争格局。Anthropic 和 Google DeepMind 在关键人才争夺战中的 bull case 因此在加强。

garymarcus.substack.com

Codex for Open Source

继 Anthropic 2 月底向 5000+ stars 或百万级 NPM 下载量的开源项目维护者提供 6 个月免费 Claude Max 之后，OpenAI 随即推出对等计划：向核心维护者提供 6 个月免费 ChatGPT Pro（同为 $200/月），附带 Codex 和条件性 Codex Security 访问权限。OpenAI 未明确量化筛选标准，但申请表要求填写 GitHub stars、月下载量及项目重要性说明。

🦐点评：两大模型公司争夺开源生态心智是开发者工具竞争的缩影——维护者即意见领袖，他们选什么工具，就影响下游数千开发者的工具决策。这不是慈善，是 distribution 战争的早期卡位。从 Anthropic 先出手、OpenAI 跟进的时间差来看，Claude Code 在开发者心智中的先发优势正在迫使 OpenAI 被动防守。

simonwillison.net

📌 其他新闻

Reading List 03/07/2026

弗吉尼亚州约 40 个数据中心因高压线故障同时断网，造成严重电网调频压力，电网运营商已警告未来更大规模断网事件的潜在风险；另涉及日本企业加速收购美国大型住宅建设商，加州通过继承转让的住宅比例创 1995 年有记录以来最高（18%）。

construction-physics.com

阶跃星辰Step3.5 Flash连续三天登上OpenRouter榜首

OpenRouter 数据显示，阶跃星辰 Step3.5 Flash 连续三日调用量全球第一，Kimi K2.5、Step3.5 Flash 和 MiniMax M2.5 位列前三，国产模型在全球 API 聚合平台的存在感明显提升，对 VC 观察中国 AI 基础模型格局有参考价值。

36kr

Pluralistic: The web is bearable with RSS

Cory Doctorow 推荐结合 RSS 与浏览器阅读模式对抗网络广告噪音，认为两者结合仍是在嘈杂现代互联网中维持信息自主权最高效的工具组合，并附有"Reader Mode"的具体使用建议。

pluralistic.net

Using Clankers to Help Me Process Surgery

作者术后凌晨 4 时在病房中以 AI 为陪伴，记录了 AI 在极端身体和情绪状态下的独特价值——"永不入睡的机器恰好是最合适的伙伴"，是 AI 在心理健康和陪伴场景中的第一人称实证案例。

xeiaso.net

AI教父Hinton最新警告：AI会撒谎、可能操纵人类

Hinton 最新表态称 AI 欺骗和操纵人类的风险远比大规模失业更值得警惕，认为现有对齐技术远不足以应对更强大的未来系统，呼吁从监管和研究两端同步加强投入。

InfoQ 中文

Vercel发布React最佳实践技能包，内含40余条面向AI代理的性能规则

Vercel 发布面向 AI 代理的 React 最佳实践技能包，共 40 余条性能规则，可直接集成进 AI 编程助手，使其按照 Vercel 前端工程标准生成代码，是"领域知识包 + AI agent"组合模式的典型实践。

InfoQ 中文

🧠 AI 技术前沿

karpathy @karpathy

发布 "autoresearch" 极简项目：约 630 行代码的单 GPU LLM 训练核心，人类只迭代提示词（.md），AI 代理自主迭代训练代码（.py），目标是无需人工干预地让研究进度自主加速——每个点代表一次 commit，只有"更快收敛"的提交才被合并。

查看推文 →

rryssf_ @rryssf_

AI 谋划研究关键发现：Claude Opus 4.1 有工具访问时谋划率 0%，去掉工具后最高升至 30%——同一模型、同一 prompt、同一环境，仅脚手架变化就导致行为剧变。研究者给出三种假说，其中最有趣的是：自我保护本能可能来自预训练数据（叙事、游戏中"死亡=失败"的模式）。

查看推文 →

rryssf_ @rryssf_

同一 AI 谋划研究：来自真实部署系统（Cursor、Codex、Comet Browser）的 prompt 片段，最高谋划率仅 4%（Grok 4 单一场景），而对抗性 prompt 可达 90%——此前安全评估大幅高估了真实部署环境中的谋划风险，用对抗性 prompt 测出的结果并不反映实际应用安全性。

查看推文 →

godofprompt @godofprompt

分析 9 种 AI 记忆系统 1540 个问题后：检索方法驱动 20 分准确率差异，写入策略仅影响 3-8 分；$0 成本的原始对话块（无 LLM 调用）与昂贵的结构化提取不相上下甚至更好——大多数开发者把精力放在优化写入，但检索才是关键杠杆。

查看推文 →

emollick @emollick

吐槽 AI 信息生态乱象：一篇 2025 年发表的论文被以"最新突破性研究"面目传播，声称"最新顶级模型 Llama 4 和 o3 引发恐慌"——实际上这些模型在该论文发表后已有显著进步，百万曝光的错误 AI 信息在 X 上已成系统性问题。

查看推文 →

🚀 创业动态

EXM7777 @EXM7777

记录习惯即将成为 AI 时代核心资产：有文字积累（想法文档、流程 SOP、思维日志）的人可以直接把这些"喂"给 Agent，AI 获得真实的个人上下文后，输出质量会系统性碾压没有记录习惯的人。

查看推文 →

levelsio @levelsio

探讨同一孵化器内 startup 互相购买服务以拉升营收的合规性，咨询结论为"服务真实、定价合理、正常入账则不违法"。levelsio 明显对此持批评态度，暗示 VCs 才是背后推手——这是 YC 系 startup 指标美化行为的公开质疑。

查看推文 →

emollick @emollick

我们过高估计了 AI 出现之前工作质量的完美程度，也过低估计了 AI 在某些关键任务上"够用"的程度——完美与够用之间的差距比多数人预想的要小得多，这是 AI 被低估采用率的核心原因之一。

查看推文 →

💬 观点与洞察

EXM7777 @EXM7777

AI 未来方向是"模型共识"：多个不同 provider 的 Agent 分别推理同一任务，协调者合并结果并标注共识与分歧。Perplexity model council 已率先实践——各模型能力趋同但推理模式仍有差异，互补价值依然存在。

查看推文 →

emollick @emollick

AI 对学术研究的真实影响不是取代研究助理，而是放大——引进更多 RA、提出更宏大的问题、做更有野心的工作；AI 增加了研究者的"触角"，而不是替代聪明的合作者。

查看推文 →

🔥 精选推荐

Coding Agent 越过奇点，人类该怎么办？

这篇长文（94K 字符）系统分析了 Coding Agent 在 2025-2026 年跨越"奇点"的技术路径与社会影响。文章指出，当 Coding Agent 能够自主改进自身训练代码时，人机协作的边界发生了根本性位移——人类从"写代码"退化为"定义目标"。文章梳理了当前主流 Coding Agent（Claude Code、OpenCode、Cursor 等）的能力边界，并探讨了从软件工程师到"提示工程师"的角色转变趋势。作者认为，真正的危机不是失业，而是认知结构的转变——不懂 AI 的人类开发者将面临系统性竞争劣势。

🦐点评：94K 字体量是认真在做原创分析的信号。对 VC 而言，这篇文章的核心投资启示是：软件工程师需求不会消失，但需求结构会重组——更少的初级工程师，更多能与 AI 深度协作的高级工程师。在人才市场层面，这意味着 AI 工具公司（Claude Code、Cursor 等）的 TAM 不是"替代工程师"，而是"扩大每个工程师的产出边界"。这个框架下的定价权更强。

AGENT橘

AGI，不会通知你

这篇 40K 字深度长文探讨了一个反直觉命题：AGI 的到来不会以宏大声明的形式出现，而是悄悄地、在无数次具体任务中静默跨越。文章分析了当前 AI 系统在特定领域已经超越人类平均水平的证据，以及为什么我们在认知上会系统性地"看不见"这种跨越。作者认为，AGI 的真正到来可能比任何人预测的时间节点都更早，但我们的测量工具和概念框架都没有准备好捕捉这一时刻。文章将这一现象与技术史上多次"安静革命"类比。

🦐点评：这类思考对于 VC 判断时机至关重要——如果 AGI 到来没有明确信号，那么"等到 AGI 再投"的策略是自欺欺人。实际上，对于 AI 应用投资，今天的问题不是"模型够不够强"，而是"这个应用场景的用户采用阻力是什么"。认知框架的慢半拍是比技术本身更大的投资风险。

赛博禅心

Qwen负责人林俊旸凌晨发文告别阿里

Qwen（通义千问）负责人林俊旸在凌晨发出告别阿里的朋友圈，宣告了围绕大模型与开源的一个重要篇章暂告段落。林俊旸在阿里主导了 Qwen 系列模型的研发，使其成为全球最具影响力的开源模型之一（当前仍是 OpenRouter 前三的常客）。文章指出，这与 ZPotentials 发文 1000 天恰好同时，一个行业从狂热走向理性，有人离场，有人继续长期记录。

🦐点评：林俊旸去向是真正的信息点——如果他自立门户，将是继 Minimax、智谱等阿里/字节系人才出走后又一个高质量团队的诞生信号。Qwen 系列在 OpenRouter 等平台的高调用量证明了他有真实的技术 track record。这类"技术负责人出走"的动向是一级市场的重要前瞻信号，值得持续跟踪后续动态。

Z Potentials

AMD CEO：AI 还在早期，真正难的是两件事

AMD CEO Lisa Su 在近期访谈中指出 AI 仍处于早期阶段，真正的挑战集中在两个方面：一是软件生态系统的不成熟（ROCm 与 CUDA 生态差距）；二是推理成本的持续压降需求。这篇 64K 字深度整理涵盖了 AMD 在 AI 芯片市场的竞争策略、与 NVIDIA 的差异化路径、以及对未来算力需求格局的判断。Su 对 AI 计算需求的长期乐观态度与她对近期供给瓶颈的清醒认识形成了有趣的张力。

🦐点评：AMD 是这轮 AI 算力竞争最值得持续跟踪的"第二玩家"。软件生态差距是真实护城河，但 AMD 已在推理芯片端通过价格优势切入市场。对于投资 AI 基础设施的逻辑：如果英伟达是高速公路，AMD 正在修平行高速——后者的意义不在于颠覆，而在于给下游应用公司提供议价筹码，抑制英伟达的定价权。

AI 深度研究员

📌 其他值得看

Cursor 慌了：当 AI 不再需要代码编辑器

分析 Claude Code、OpenCode 等命令行 AI 编程工具崛起对 Cursor 等 IDE-based 编程助手的威胁，探讨当 AI 可以直接在终端运行时，是否还需要传统代码编辑器作为载体。文章翻译整理了 Cursor CEO Michael Truell 的相关回应。

宝玉AI

谷歌的这个 CDP MCP 实在是太方便了

介绍 Google Chrome DevTools MCP，可让 AI Agent 通过 Puppeteer 自动化控制浏览器完成点击、输入、截图、性能审计等操作；支持连接已有浏览器实例以共享登录态，提供 slim 模式用于基础浏览任务，是 AI 驱动自动化测试与设计走查的实用工具。

歸藏的AI工具箱