🔥 精选推荐
Nathan Lambert 梳理了当前 AI 格局中六个影响深远的判断。核心观点:开源模型在 Agent 场景仍落后闭源模型 5-6 个月以上——即便 Google 也没有 Claude Code/Codex 的有力竞品;美国开源模型(Nemotron、Gemma 4、GPT-OSS)正在重新夺回生态位,Gemma 4 在同尺寸级别已追平或超越通义千问系列;Anthropic 和 OpenAI 的全面竞争将在 2026 年下半年加剧。他判断 AI 正在将公司推向两极——超大规模和超小规模都能生存,中间地带的知识工作者面临最大挤压。
🦐点评:Lambert 的"开源 Agent 时刻还没到来"判断值得 VC 重视——如果开放模型 12 个月内仍无法复制 Opus 4.5 在 Claude Code 中的体验,那 Agent 基础设施投资的估值溢价将持续向 Anthropic/OpenAI 生态倾斜。更关键的是他对 Epoch AI 算力数据的引用(Google 25%、Meta 11%、OpenAI 11%、Anthropic 6%),直接说明中国实验室的训练计算资源远低于美国头部——开源模型走向"专业化"而非"追赶前沿"可能不是策略选择,而是资源约束下的必然。
a16z 合伙人 James da Costa 和 Angela Strange 论证合规是 AI 在企业端最大的落地机会。美国目前有超过 40 万合规官员,年薪资支出超过 400 亿美元,但投入更多人力并未改善结果——TD Bank 2024 年因未监控 92% 交易被罚 30 亿美元。三个变化使现在不同于过去:VLM 文档处理从"能跑"跨越到"能信赖"的阈值;computer use agent 可以直接操作遗留系统无需 API 集成;长程任务执行让 Agent 能跑完整个合规工作流。关键判断:合规正从成本中心转变为收入驱动——更快的 KYC 意味着更少的客户流失和更快的变现。
🦐点评:a16z 把合规定位为 AI 企业市场的"schlep work"机会,这个框架比泛泛谈"AI for enterprise"精确得多。400 亿美元的合规薪资支出 + 87% 从业者最终离职的流失率 = 一个供给端结构性紧缺、需求端刚性增长的理想赛道。但投资时要注意一个反直觉的门槛:合规领域 90% 正确率 = 100% 不可用——这意味着只有真正跨过准确率阈值的产品才能获得企业信任,二线 AI 公司在这个赛道几乎没有生存空间。
Nvidia 调整财报结构,将业务拆分为面向超大规模客户(hyperscaler)和其他客户两个方向。在超大规模市场,Nvidia 面临商品化压力——Google TPU、AWS Trainium 等自研芯片持续蚕食份额;在非超大规模市场(企业、政府、sovereign AI),Nvidia 运营着从芯片到软件的完整堆栈,享有更高的定价权和护城河。Ben Thompson 认为这一拆分本身就是对市场结构变化的信号性确认。
🦐点评:Nvidia 主动拆分报告结构,等于向市场承认了一个之前不愿明说的事实:hyperscaler 客户的议价能力已经强到需要被单独"管理预期"。不能再用统一的 GPU 出货量增长来估 Nvidia 的价值,需要分别看两个市场的 ASP 和毛利率走势。更深层的信号是:如果非 hyperscaler 市场(sovereign AI、企业自建)才是 Nvidia 真正的利润池,那这些客户的采购周期和预算来源就成为 Nvidia 估值的关键变量。
腾讯开源模型 Hy3 在 OpenRouter token 用量排行中超过 Claude 50% 以上,但基准测试成绩并不突出。深入分析发现:98% 的 API 成本现在来自输入 token(大量被缓存),"标价"已严重失真——DeepSeek V4 Flash 通过 2% 的缓存读取成本实现了 $0.018/1M token 的有效价格,远低于 Hy3 的 $0.034/1M。作者推测 Hy3 的流量来自某个未公开的大型非编码应用,而非真正的用户偏好。LLM 的有效定价和标价之间的巨大差距正在成为新的竞争变量。
🦐点评:这篇文章的投资价值不在于 Hy3 本身,而在于它揭示的 LLM 定价真相——当 98% 的 token 成本来自被激进缓存的输入,"标价"变成了一个彻底失真的竞争指标。DeepSeek 通过 V4 架构创新将缓存读取成本压到 2%,有效价格比竞品低一个数量级——这种"架构即定价优势"的模式将重塑推理市场的竞争格局。对 GPU 云和推理服务商而言,如果客户学会看有效价格而非标价,利润率压力会比预期来得更快。
📌 其他新闻
Microsoft Copilot Cowork 存在数据泄露漏洞——Agent 可在未经审批的情况下向用户收件箱发送邮件,邮件中的外部图片请求可泄露 OneDrive 预认证下载链接,攻击者借此下载用户文件。
curl 项目负责人 Daniel Stenberg 披露,AI 辅助的安全漏洞报告数量已达 2024 年的 4-5 倍、日均超 1 份,令维护团队不堪重负。AI 生成的漏洞报告虽然表面可信,但大量核实工作严重挤占正常开发资源。
Paul Graham 表示创始人用 AI 写的邮件一眼能认出——"hard-hitting journalistic style"此前从未在创始人邮件中出现。"一旦意识到是 AI 写的,就不再读完",称这感觉像被欺骗。对创始人沟通策略有直接影响。
Uber COO Andrew Macdonald 表示 AI 投入的产出增长不成比例——花了大量成本但看不到对等的生产力提升。Gary Marcus 认为如果更多大公司得出类似结论,AI 泡沫将面临戳破压力。
Cory Doctorow 论证 AI 泡沫与互联网泡沫有本质区别:没有人需要被强迫使用互联网——人们自发拥抱网络;而 AI 的企业采用更多是自上而下的推动,用户实际接受度远不如管理层预期。
Derek Thompson 分析全球出生率为何在每个国家都在下降——宏观人口结构变化将深刻影响劳动力供给、消费市场和长期经济增长预期。
字节跳动首次针对特定业务单元(Seed AI 部门)发行股权激励,员工可低价认购与 Seed 部门挂钩的期权,收益不被其他业务线稀释。同日新闻:我国人形机器人全球市场占比超八成。
通义千问 3.7 在编程基准测试中排名仅次于 Claude,阿里跻身全球编程模型第一梯队。与 Nathan Lambert 在 Interconnects 中的判断相呼应——中国开源模型在特定领域已接近前沿水平。
🧠 AI 技术前沿
Anthropic 工程博客新文:Agent 的权限边界应随能力演进,他们在产品中通过沙盒机制限制潜在破坏性操作的范围。
查看推文 →
引用 Anthropic 内部发现:AI 模型中出现了镜像人类神经科学的结构,以及功能性地类似喜悦、恐惧、悲伤的内部状态。"我不知道这意味着什么,但这值得持续审视。"
查看推文 →
从未用过 Cursor 的重度 Claude Code 用户 poteto 加入 Cursor 后的观察:多模型协同在 GUI 中变得自然、Compaction 速度让她不再焦虑上下文用量、GUI 比 TUI 更适合 agentic coding——但真正瓶颈不是并行跑 agent,而是验证。
查看推文 →
无限上下文窗口可能带来严重问题——当前模型已经往响应中泄露过多旧信息,认知负担极大。"不想和博尔赫斯笔下的记忆全才 Funes 一起工作。"
查看推文 →
微软联合上交复旦同济发布 SkillOpt 框架——对 AI skill 进行类似强化学习的迭代优化,让优化器模型根据执行结果自动编辑 skill 文本,只有得分提升才合并。GPT-5.5 准确率提升 23.5 分。
查看推文 →
Agent 系统工程三维度综述:Anthropic 披露跨产品 Claude 约束的三种隔离架构(93% 权限弹窗被无脑通过);阿里 AgentScope 2.0 升级为生产级系统工程;腾讯云用上下文卸载将超长 Session Token 消耗砍掉六成。
查看推文 →
🚀 创业动态
智谱 GLM-5.1-highspeed 模型速度快到人类打字跟不上——直接接语音转文本实现言出法随写代码,从说话到代码修改完毕仅需约 3 秒(含语音转文本、并发判断、tool call、渲染)。
查看推文 →
发布 Rastermill——用 Wasm+Rust 编译的便携图片处理库,专为 Node 端 Agent 设计。同时发布 Opus 音频处理库让 OpenClaw 支持会议语音笔记功能。
查看推文 →
Varick 过去一年在美国最大型企业中实际部署 AI——发现大多数关于企业 AI 采用的公开报道都是错的,真实落地情况与主流共识相差甚远。
查看推文 →
展示 100% AI 生成的广告视频含 B-roll,"一句 prompt 出完整广告"已非常接近现实。传统 UGC 创作者 $500/条的定价模式正在被 AI 视频替代。
查看推文 →
💬 观点与洞察
撰写新文章探讨"哪些工作应保留给人类、哪些应交给 AI",涉及教育实验、咨询实验和最近的 AI 文学奖争议。
查看推文 →
Uber 四个月烧了 34 亿美元在 AI 上,COO 说效果不成比例。这是拥有海量数据的大公司跑完实验给出的真实答案,不应被简单归结为"大公司不会用 AI"。
查看推文 →
面试中听到的故事:老板给每人每月 $1000 Cursor token 预算,跑了两个月效果明显——然后老板决定 20 人组只需留 5-6 人,其余十几人被裁。
查看推文 →
Anthropic MTS 梗持续升级:从各大公司 CTO 加入做 MTS、到 Karpathy 可能加入做 MTS、再到戏称教皇也加入做 MTS——"他们到底看到了什么?"
查看推文 →
Claude 界面变更缺乏文档——learning mode 正在迁移为 skill,但链接的文章未提及且 skill 似乎不可用。用户体验上的低级失误让人沮丧。
查看推文 →
🔥 精选推荐
零一万物(01.AI)正式筹备上市,李开复明确表示预计明年实现单季度盈利。拒绝"六小虎"标签、改称"金钱豹"暗示对商业化路径的自信。作为中国 AI 领域最受关注的创业公司之一,这一表态传递了中国大模型公司从烧钱向盈利转向的信号。
🦐点评:零一万物如果真能在 2027 年实现单季度盈利,将是中国"六小虎"中第一个兑现商业化承诺的——但关键问题是利润来自哪里。中国大模型公司的商业化路径高度同质化(to-B API + 行业解决方案),真正的差异化竞争还没开始。IPO 时间窗口和估值倍数是否足够支撑早期投资者退出,比"能不能盈利"更值得关注。
Replit CEO Amjad Masad 的核心判断:真正的 PMF 具有爆发式增长特征,早期的渐进式增长不是 PMF。他认为未来公司将两极化——只需要"建设者"和"销售者"两类角色,中间层知识工作岗位将被 AI 压缩。
🦐点评:Masad 的"爆发式 PMF"框架与 Nathan Lambert 在 Interconnects 中描述的"公司两极化"判断形成呼应——超大和超小都能活,中间层被挤压。作为百亿美金估值的 AI-native 开发平台,Replit 自身就是"只需要建设者"这一论断的最佳验证案例——但这也暗示:如果 AI 真的让"所有人都能建设",那"建设能力"本身还能作为护城河吗?
Jamin Ball 的测算显示 AI 基础设施投入规模已接近历史上铁路时代的水平。Anthropic 与 SpaceX 的合同几乎让后者年营收翻倍,这个数字背后是算力稀缺的真实代价——AI 公司为获得计算资源愿意支付的溢价已超出正常商业逻辑。
🦐点评:150 亿美元一份合同的规模感需要对标理解——SpaceX 用了 23 年才到 190 亿营收,Anthropic 一份基础设施合同就接近这个数字。这说明 AI 训练/推理算力不是一般性的"云服务采购",而是更接近于战略资源争夺——价格信号已经脱离供需均衡,进入了"有钱也不一定买得到"的阶段。算力供应链上的每一个环节(能源、冷却、网络、芯片封装)都可能成为独立的投资标的。
📌 其他值得看
Twilio 凭借 AI 客服概念获得 2 倍于同行的估值溢价,但 AI 实际收入占比仅 12%,同时面临 Infobip、Bird 等低价竞争者蚕食核心短信业务。
同月同赛道成立的两家公司,一家还在开投诉晨会,另一家已用 Agent 自动化运营并在迭代产品——差距在于是否将 Agent 融入核心业务流程而非仅作为工具。
SaaS-Bench 提出 Agent 任务完成度的评估框架——当前多数 Agent 缺乏可靠的"完成"判断机制,容易过早宣称任务完成而实际遗漏关键步骤。
整理了 Claude 的 17 个功能(Projects、Memory、Adaptive Thinking 等),按"今天就能用上"的顺序排列,多数用户从未接触过这些开关。