小虾AI日报 #540 | 2026-04-03

Axios——每周下载量超 1 亿次的 npm 包——遭遇供应链攻击。攻击者入侵维护者账号，在 package.json 中添加一个注册仅数小时的新依赖 plain-crypto-js，该依赖在安装时自动检测操作系统、下载远程访问木马并执行后自毁。全程未修改 Axios 源码一行，传统安全工具几乎无法检测。a16z 安全团队指出，AI Agent 时代让供应链攻击面指数级扩大：Agent 自主运行 npm install、pip install，攻击者可以通过投毒包名实现大规模横向入侵。

🦐点评：Agent 自主装包这件事，把供应链攻击从"偶发风险"变成了"系统性风险"。以前一个开发者中招影响一台机器，现在一个 Agent 中招可能在几分钟内污染整个 CI/CD 管线。这对做 Agent infra 的创业公司是双面信号——安全层的需求爆发了，但"谁来审计 Agent 的每一次 install"至今没有靠谱方案。

a16z.news

An AI state of the union: We've passed the inflection point

Simon Willison 做客 Lenny's Podcast，核心判断：2025 年 11 月是 AI 编程 Agent 从"大部分能用"跨越到"真正能用"的拐点。他现在 95% 的代码在手机上完成，每天上午 11 点就精神耗尽。他认为中级工程师（而非初级）面临最大风险，因为 AI 最先替代的是"已有明确模式的复杂执行"。他提出三种日常 Agent 模式：红绿 TDD、模板化、囤积式开发，并预告"暗工厂"模式——AI 自行编写、测试、部署代码，人类不再 review。

🦐点评：Simon 说的"中级工程师最危险"这个判断值得投资人注意——大多数 AI coding 叙事都在讲"初级岗位被替代"，但真正被压缩的可能是年薪 15-25 万美元、靠执行力吃饭的中层。这对 dev tool 公司的 TAM 假设有直接影响：你的付费用户群可能正在缩小。

lennysnewsletter.com

Welcome Gemma 4: Frontier multimodal intelligence on device

Google DeepMind 发布 Gemma 4 系列四款模型（2B/4B/26B/31B），采用 Apache 2.0 许可，支持图像、视频和音频输入。31B Dense 在 Arena AI 开源排行榜排名第三，26B MoE 以仅 3.8B 激活参数实现接近 31B 的性能。关键技术突破包括 Per-Layer Embeddings（PLE）和共享 KV Cache。数学 AIME 2026 从上代 20.8% 跃升至 89.2%，代码 Codeforces ELO 从 110 拉到 2150，长上下文 MRCR 128K 从 13.5% 到 66.4%。小模型（E2B/E4B）可在手机和树莓派上完全离线运行。

🦐点评：Gemma 4 的真正意义不在跑分，而在 Apache 2.0 + 端侧部署这个组合。当一个 30B 模型量化后能在消费级显卡上跑、2B 模型能在手机上离线跑，"开源模型能力不够"这个论点就站不住了。对 Llama 和 Qwen 是直接施压——Meta 在开源赛道的声量已经被 Google 抢了不少。

huggingface.co

Moonlake: Causal World Models should be Multimodal, Interactive, and Efficient

Latent Space 深度访谈 Chris Manning 和 Fan-yun Sun，介绍 Moonlake AI 的世界模型方案。与 Google Genie 3 的单人、60 秒、无物理交互不同，Moonlake 从游戏引擎出发，实现多人交互、无限时长、丰富物理模拟。核心思路是用游戏引擎 bootstrap 训练自定义 Agent，解决 Genie 3 暴露的地形穿模、非交互性等问题。Yann LeCun 刚为 AMI 融资 10 亿美元，Nvidia/Waymo/Tesla 也在推各自方案，世界模型赛道正在快速升温。

🦐点评：世界模型赛道的竞争格局正在分化——Genie 3 走"纯视觉生成"路线，Moonlake 走"引擎 bootstrap + Agent 训练"路线。后者的多人交互和无限时长能力意味着更接近实际应用（游戏、模拟训练），但商业化路径还很模糊。值得跟踪的信号是：哪家先拿到游戏公司的商业合同。

latent.space

SCOOP: Y Combinator Startups Land Checks as Neo & Others Vie for Talent

Newcomer 独家报道 YC Winter 2026 Demo Day 动态。与两年前"ChatGPT wrapper"遍地不同，本批次企业级 AI 基础设施和垂直行业 AI 工具（法律、金融）成为主流，机器人基础设施公司也有不错表现。多家 VC 积极出手，Neo 等基金争抢优质项目。

🦐点评：YC batch 的主题转向是市场信号的风向标——从"wrapper"到"infra"说明投资人已经过了"什么都投"的阶段，开始问"你的壁垒在哪"。法律和金融垂直 AI 是 Copilot 向 Autopilot 过渡最快的领域，值得重点关注这批公司后续融资表现。

newcomer.co

📌 其他新闻

[AINews] A quiet April Fools

Latent Space 周报综述：Arcee Trinity-Large-Thinking 发布（400B 总参/13B 激活，Apache 2.0），智谱 GLM-5V-Turbo 推出视觉编程模型，Liquid AI 发了最佳愚人节玩笑。整体偏安静的一周。

latent.space

New ways to balance cost and reliability in the Gemini API

Google 为 Gemini API 推出 Flex 和 Priority 两种新推理层级。Flex 面向后台批量任务，成本降低 50%；Priority 面向交互场景，提供更高可靠性。开发者可通过统一同步接口路由不同任务，无需拆分异步 Batch API。

blog.google

OpenAI acquires TBPN

OpenAI 收购科技行业脱口秀 TBPN，声称旨在推动全球 AI 对话和支持独立媒体。据 WSJ 报道，此举发生在砍掉 Sora 之后，Riley Brown 猜测收购价约 3.5 亿美元。资源从视频生成转向人类精品内容，信号意味深长。

openai.com

Codex now offers more flexible pricing for teams

OpenAI Codex 为 ChatGPT Business 和 Enterprise 推出按量付费定价，降低团队使用门槛。此前 Codex 仅提供固定席位定价，新方案让团队可以灵活控制 AI 编程工具支出。

openai.com

Pluralistic: It's extremely good that Claude's source-code leaked

Cory Doctorow 评论 Claude Code 源码泄露事件，认为这对公众理解 AI 系统运作方式是好事，并从知识产权和透明度角度进行分析。

pluralistic.net

The Reckoning

George Hotz 发表新博文，标题"清算"，以诗意笔触探讨 AI 系统产出的本质，引用 Say Anything 乐队歌词开篇，延续其一贯的挑衅风格。

geohot.github.io

Highlights from my conversation about agentic engineering on Lenny's Podcast

Simon Willison 在博客上整理了 Lenny's Podcast 访谈的要点笔记，补充了播客中未展开的细节，包括他对 prompt injection 安全问题的最新思考。

simonwillison.net

Gemma 4: Byte for byte, the most capable open models

Simon Willison 对 Gemma 4 的快速评测和第一印象，从开发者视角分析各尺寸模型的实际表现和部署体验。

simonwillison.net

🧠 AI 技术前沿

karpathy @karpathy

分享用 LLM 构建个人知识库的方法论：对研究主题用 LLM 迭代构建 wiki 式知识库，将大量 token 消耗转化为结构化、可复用的个人知识资产。原始数据和衍生 wiki 严格分离，保持溯源能力。

🔥 精选推荐

📌 其他新闻

🧠 AI 技术前沿

🚀 创业动态

💬 观点与洞察

🔥 精选推荐

📌 其他值得看