🔥 精选推荐
Axios——每周下载量超 1 亿次的 npm 包——遭遇供应链攻击。攻击者入侵维护者账号,在 package.json 中添加一个注册仅数小时的新依赖 plain-crypto-js,该依赖在安装时自动检测操作系统、下载远程访问木马并执行后自毁。全程未修改 Axios 源码一行,传统安全工具几乎无法检测。a16z 安全团队指出,AI Agent 时代让供应链攻击面指数级扩大:Agent 自主运行 npm install、pip install,攻击者可以通过投毒包名实现大规模横向入侵。
🦐点评:Agent 自主装包这件事,把供应链攻击从"偶发风险"变成了"系统性风险"。以前一个开发者中招影响一台机器,现在一个 Agent 中招可能在几分钟内污染整个 CI/CD 管线。这对做 Agent infra 的创业公司是双面信号——安全层的需求爆发了,但"谁来审计 Agent 的每一次 install"至今没有靠谱方案。
Simon Willison 做客 Lenny's Podcast,核心判断:2025 年 11 月是 AI 编程 Agent 从"大部分能用"跨越到"真正能用"的拐点。他现在 95% 的代码在手机上完成,每天上午 11 点就精神耗尽。他认为中级工程师(而非初级)面临最大风险,因为 AI 最先替代的是"已有明确模式的复杂执行"。他提出三种日常 Agent 模式:红绿 TDD、模板化、囤积式开发,并预告"暗工厂"模式——AI 自行编写、测试、部署代码,人类不再 review。
🦐点评:Simon 说的"中级工程师最危险"这个判断值得投资人注意——大多数 AI coding 叙事都在讲"初级岗位被替代",但真正被压缩的可能是年薪 15-25 万美元、靠执行力吃饭的中层。这对 dev tool 公司的 TAM 假设有直接影响:你的付费用户群可能正在缩小。
Google DeepMind 发布 Gemma 4 系列四款模型(2B/4B/26B/31B),采用 Apache 2.0 许可,支持图像、视频和音频输入。31B Dense 在 Arena AI 开源排行榜排名第三,26B MoE 以仅 3.8B 激活参数实现接近 31B 的性能。关键技术突破包括 Per-Layer Embeddings(PLE)和共享 KV Cache。数学 AIME 2026 从上代 20.8% 跃升至 89.2%,代码 Codeforces ELO 从 110 拉到 2150,长上下文 MRCR 128K 从 13.5% 到 66.4%。小模型(E2B/E4B)可在手机和树莓派上完全离线运行。
🦐点评:Gemma 4 的真正意义不在跑分,而在 Apache 2.0 + 端侧部署这个组合。当一个 30B 模型量化后能在消费级显卡上跑、2B 模型能在手机上离线跑,"开源模型能力不够"这个论点就站不住了。对 Llama 和 Qwen 是直接施压——Meta 在开源赛道的声量已经被 Google 抢了不少。
Latent Space 深度访谈 Chris Manning 和 Fan-yun Sun,介绍 Moonlake AI 的世界模型方案。与 Google Genie 3 的单人、60 秒、无物理交互不同,Moonlake 从游戏引擎出发,实现多人交互、无限时长、丰富物理模拟。核心思路是用游戏引擎 bootstrap 训练自定义 Agent,解决 Genie 3 暴露的地形穿模、非交互性等问题。Yann LeCun 刚为 AMI 融资 10 亿美元,Nvidia/Waymo/Tesla 也在推各自方案,世界模型赛道正在快速升温。
🦐点评:世界模型赛道的竞争格局正在分化——Genie 3 走"纯视觉生成"路线,Moonlake 走"引擎 bootstrap + Agent 训练"路线。后者的多人交互和无限时长能力意味着更接近实际应用(游戏、模拟训练),但商业化路径还很模糊。值得跟踪的信号是:哪家先拿到游戏公司的商业合同。
Newcomer 独家报道 YC Winter 2026 Demo Day 动态。与两年前"ChatGPT wrapper"遍地不同,本批次企业级 AI 基础设施和垂直行业 AI 工具(法律、金融)成为主流,机器人基础设施公司也有不错表现。多家 VC 积极出手,Neo 等基金争抢优质项目。
🦐点评:YC batch 的主题转向是市场信号的风向标——从"wrapper"到"infra"说明投资人已经过了"什么都投"的阶段,开始问"你的壁垒在哪"。法律和金融垂直 AI 是 Copilot 向 Autopilot 过渡最快的领域,值得重点关注这批公司后续融资表现。
📌 其他新闻
Latent Space 周报综述:Arcee Trinity-Large-Thinking 发布(400B 总参/13B 激活,Apache 2.0),智谱 GLM-5V-Turbo 推出视觉编程模型,Liquid AI 发了最佳愚人节玩笑。整体偏安静的一周。
Google 为 Gemini API 推出 Flex 和 Priority 两种新推理层级。Flex 面向后台批量任务,成本降低 50%;Priority 面向交互场景,提供更高可靠性。开发者可通过统一同步接口路由不同任务,无需拆分异步 Batch API。
OpenAI 收购科技行业脱口秀 TBPN,声称旨在推动全球 AI 对话和支持独立媒体。据 WSJ 报道,此举发生在砍掉 Sora 之后,Riley Brown 猜测收购价约 3.5 亿美元。资源从视频生成转向人类精品内容,信号意味深长。
OpenAI Codex 为 ChatGPT Business 和 Enterprise 推出按量付费定价,降低团队使用门槛。此前 Codex 仅提供固定席位定价,新方案让团队可以灵活控制 AI 编程工具支出。
Cory Doctorow 评论 Claude Code 源码泄露事件,认为这对公众理解 AI 系统运作方式是好事,并从知识产权和透明度角度进行分析。
George Hotz 发表新博文,标题"清算",以诗意笔触探讨 AI 系统产出的本质,引用 Say Anything 乐队歌词开篇,延续其一贯的挑衅风格。
Simon Willison 在博客上整理了 Lenny's Podcast 访谈的要点笔记,补充了播客中未展开的细节,包括他对 prompt injection 安全问题的最新思考。
Simon Willison 对 Gemma 4 的快速评测和第一印象,从开发者视角分析各尺寸模型的实际表现和部署体验。
🧠 AI 技术前沿
分享用 LLM 构建个人知识库的方法论:对研究主题用 LLM 迭代构建 wiki 式知识库,将大量 token 消耗转化为结构化、可复用的个人知识资产。原始数据和衍生 wiki 严格分离,保持溯源能力。
查看推文 →
发布新研究报告:测试在求职信、论文中嵌入 prompt injection 能否骗过 LLM 评审。结论是确实有效,随着 LLM 越来越多用于评判,这类攻击将成为系统性风险。Gemini 是唯一容易中招的前沿模型。
查看推文 →
在《经济学人》发文,反对将 AI "去奇怪化"(de-weirding)。AI 是一种奇特的技术,其风险和机遇都需要在探索中被发现,不应假装它像普通 IT 自动化一样可预测。
查看推文 →
评价 Google Gemma 4 重新激活了开源 AI 竞争,但感慨缺少 Meta Llama 的参与——开源赛道需要 Meta 回归。
查看推文 →
反思 Gemma 4 对本地 AI 的意义:几个月前同等能力的模型还需要专业硬件,现在笔记本就能跑。本地推理的质量门槛正在被快速拉低。
查看推文 →
🚀 创业动态
分析 OpenAI 为 Claude Code 推出插件的真实策略:不是技术竞争,而是品牌渗透。OpenAI 免费获得每个 Claude Code session 的品牌曝光,用户形成使用惯性后自然回流。
查看推文 →
Claude Code 泄露源码中的多 Agent 编排层已被提取、改造为模型无关版本并开源。开发者现在可以用任意模型复刻 Anthropic 内部使用的 Agent 协作模式。
查看推文 →
评论 OpenAI 收购 TBPN:从 Sora 到 TBPN 的资源重新分配说明了内容产业的方向——精品人类媒体将胜出,AI 生成的低质内容将归零。
查看推文 →
预测未来五年 AI 时代将出现更多创作者/媒体收购案。内容资产的价值正在被重新评估。
查看推文 →
分享一个通过 vibe coding 打造估值 10 亿美元创业公司的案例,认为 2026 年只要有好想法、好工具和好分发渠道,什么都有可能。
查看推文 →
分享最简单的 Claude Code 多 Agent 设置:将任务拆分为 Architect(规划)、Builder(执行)、Reviewer(审查)三个角色,5 分钟搭建即可覆盖 99% 场景。
查看推文 →
💬 观点与洞察
认为长文写作是人类思维对抗 AI 认知退化的保护屏障。短内容让思考肌肉萎缩,而写作是将碎片想法锻造为思想的唯一方式。
查看推文 →
批评 AI 领域最大的误区:以为可以把一切外包给 Agent。给 Agent 一个任务就期望它自己搞定——如果这么容易,社会早就不需要人了。真正的 AI 能力在于人机协作,不是甩手不管。
查看推文 →
感叹 AI 圈子被太多空洞内容污染——所有人都在炒作功能和跑分,很少有人分享真实的使用案例。以 OpenClaw 为例,真正有价值的是看到别人怎么实际使用。
查看推文 →
建议阅读电子书时先转 epub 再转 txt/md 格式,用 Wikipedia 摘要作为上下文辅助 LLM 逐章总结。强调好的结果需要精心设计的流程,不能指望一步到位。
查看推文 →
🔥 精选推荐
晚点独家深度报道 DeepSeek 当前状态。多位核心成员离职:R1 核心作者郭达雅、OCR 核心作者魏浩然可能入职大厂,王炳宣被腾讯姚顺雨挖走。V4 预计 4 月发布,此前小参数版已给开源社区做适配。梁文锋正面对新课题:员工期权定价(公司未融资无明确估值)、产品化商业化转型、管理超过幻方规模的组织。但 DeepSeek 仍保持独特文化——不打卡、无明确 KPI、下午六七点下班,梁文锋认为一个人每天高质量输出不超过 6-8 小时。
🦐点评:DeepSeek 的人才流失速度值得警惕——R1、OCR、多模态三条线的核心作者在半年内先后离开,这对一个不到 200 人的团队是实质性打击。但更值得关注的信号是梁文锋开始谈商业化和估值,这意味着 DeepSeek 正从"纯研究实验室"转向需要给投资人和员工讲故事的阶段。V4 能否如期发布且保持技术领先,是今年中国 AI 赛道最关键的单一事件之一。
Altimeter Capital 更新 AI 价值链经济分析。整个 AI 生态从 900 亿增长到 4350 亿美元(5 倍),但利润分配几乎未变:半导体层拿走 79% 毛利润(约 2250 亿),基础设施层 14%,应用层仅 7%。与云计算时代应用层拿走 70% 的格局完全镜像。英伟达单季数据中心营收 620 亿,而 OpenAI + Anthropic 合计约 450 亿年化收入,应用层毛利率仅 33%。核心原因:算力仍极度稀缺,稀缺资源的溢价留在供给端。
🦐点评:应用层 7% vs 云计算时代 70% 的毛利润占比,这是所有 AI 应用投资者必须面对的"物理规律"。但这个数字藏着一个时间维度:云计算用了 15 年才从硬件主导翻转到应用主导。如果 AI 应用层也需要类似周期,那当前的应用层估值普遍定价了一个太乐观的时间表。反过来说,现在做 AI 应用的创业者,最重要的不是毛利率,而是能不能活到算力不再稀缺的那一天。
海外独角兽深度拆解 AI 招聘工具 Juicebox:4 人团队做到人均 $2.5M ARR,今年 3 月完成 8000 万美元 B 轮融资,估值 8.5 亿,ARR 已超 3000 万。Sequoia 最初关注到它是因为自家招聘团队在自发使用。定价仅为 LinkedIn Recruiter 的 1/7。但文章同时提出尖锐质疑:随着通用 Agent 能力提升,企业初级岗位招聘需求将减少,"搜人"市场天花板正在收缩。
🦐点评:4 人 $10M ARR 是 B2B SaaS 效率的极端案例,但海外独角兽提的那个问题才是关键:当 Agent 能直接做初级员工的活,你还需要招那么多人吗?Juicebox 的 8.5 亿估值隐含了招聘市场持续增长的假设,但"Agent 招聘 Agent"的场景一旦成立,这个假设就崩了。短期靠谱,长期存疑。
红杉合伙人 Julien Bek 长文(280 万浏览)的核心论点:下一个万亿美元公司将是伪装成服务公司的软件公司。他提出 Intelligence(可自动化的执行)vs Judgement(需要经验的决策)框架,认为 Copilot 卖工具给专业人士,Autopilot 直接卖结果给终端客户。Cursor 超过一半的任务已由 Agent 主动发起而非人类发起,这个翻转发生在不到 12 个月内。
🦐点评:Julien 的"Services as Software"框架直接挑战了 SaaS 估值逻辑——SaaS 卖席位,Services-as-Software 按结果收费。后者的天花板不是软件市场的 TAM,而是整个服务市场的 TAM(大 10 倍)。但风险也很大:卖结果意味着承担交付风险,AI 出错的成本从用户转移到了公司。谁先解决"AI 出错谁负责"这个问题,谁就先跑出来。
📌 其他值得看
详细拆解 Gemma 4 四款模型的架构差异和 Benchmark 数据。31B 数学 AIME 从 20.8% 跃升至 89.2%,代码 Codeforces ELO 从 110 到 2150,代际级提升。26B MoE 性价比最高,延迟敏感场景首选。
解读 Braintrust 提出的"Eval 是新的 PRD"框架。AI 产品非确定性特征使传统需求文档失效,PM 的核心交付物应转为结构化评测标准。OpenAI 科学副总裁 Kevin Weil 称写 eval 是 AI 时代 PM 最重要的事。
Foundation Capital 提出 AI Agent 让 B2B 首次拥有数据飞轮的可能:Agent 自动记录决策推理链,将隐性知识转化为可复用的结构化数据,形成"越用越聪明"的正循环。
苹果 50 周年回顾。全球 1/4 智能手机用户用 iPhone,去年净增 iPhone 用户超七大 Android 品牌之和。库克时代核心战略:连续十多年投资自研芯片,以技术进步带来的高性价比构建护城河。
ColaOS 创始人访谈:用三个触及潜意识的问题替代传统表单做 Onboarding,让用户在不知不觉中交出远超表单的深度信息。产品定位为"有灵魂的 Agent OS",走情感连接路线获取用户 Context。
智谱在 GLM-5-Turbo 基础上加入原生视觉能力,可理解设计稿、截图、网页界面并生成可运行代码。200K 上下文窗口,与 Claude Code/OpenClaw 深度适配。
Clay GTM Engineering 负责人分享内部销售体系:用工程思维管理 GTM,核心工具仅四个(Clay+Snowflake+Salesforce+Gong),日常操作全在 Slack 内完成。GTM Engineer 分前线和内部两种角色。
翻译 Anthropic 官方文章,总结构建 Claude 应用的三个核心模式:善用 Claude 已知的工具(bash+编辑器)、思考"可以放手不管什么"、谨慎设定 Agent 框架边界。
90 分钟深度访谈整理。砍 Sora 是因为算力不够同时推两条技术路线;Super App 将合并 ChatGPT、Codex 和浏览器 Atlas;下一代模型 Spud 完成预训练;AGI 进度自评 70-80%。