🔥 精选推荐
GPT-5.x 在理论物理和量子引力领域推导出了全新结果。哈佛物理学家 Alex Lupsasca(2024 年"物理界奥斯卡"New Horizons 奖得主)加入 OpenAI 后,用 ChatGPT 在一周内解决了团队耗时一年多未攻克的胶子树振幅问题——比导师的飞机落地还快。更惊人的是"Vibe Physics"实验:给 ChatGPT 一个简单 prompt,让它自主推导引力子相关计算,模型在一天内产出了 110 页全新物理学成果,团队用三周验证全部正确。ChatGPT 不仅复现了已知结果,还发明了作者不知道的证明技巧。
🦐点评:这不再是"AI 辅助科学",而是 AI 独立拓展人类知识边界。关键区别在于:代码是已知问题的已知解法,物理推导是已知问题的未知解法。如果 GPT-5.x 能在数学物理前沿做出原创贡献,那"AI 只是统计鹦鹉"的论点就需要认真修订。对投资的启示:AI for Science 赛道的 TAM 可能被严重低估——不是替代实验员,而是替代理论研究者本身。
Ben Thompson 论证 Amazon 在 AI 推理时代的结构性优势。核心论点:训练时代 AWS 确实落后(缺乏大规模 GPU 互联网络),但推理时代的三个特征恰好匹配 AWS 积累十年的能力——推理不需要千卡互联、Agent 工作负载高度依赖 CPU(Graviton 优势)、异构计算调度正是 Nitro 架构擅长的事。Amazon 同时发布 Supply Chain Services(物流原语对外开放),验证了 Thompson 十年前的预言:Amazon 把所有内部能力做成"primitive"卖给第三方。文章还分析了 AWS 投资 Anthropic 的战略意义——Amazon 的物理世界根基让它没有动机抢客户的 AI 算力。
🦐点评:Thompson 的框架对芯片投资有直接参考价值——如果 Agent 推理 = 高 CPU 需求 + 异构调度 + 分布式 KV cache,那 NVIDIA 的"tokens-per-watt 就是一切"叙事就被削弱了。AWS 的 Trainium 3 不需要打赢 NVIDIA,只需要在推理场景做到"足够好且便宜 30%"就能吃掉份额。另一个隐含判断:Microsoft 因为 Copilot 优先把算力留给内部,AWS 反而成了中立推理平台的最佳选择。
Tessera Labs 创始人 Kabir Nagrecha(13 岁上大学、20 岁博士毕业)发表 a16z 客座文章,阐述用 AI 颠覆 1.8 万亿美元系统集成行业的逻辑。核心洞察:大型 SAP ERP 迁移项目通常耗时 3-5 年、花费 1-5 亿美元、70% 失败率——而 AI Agent 现在能读懂 20 年前的 ABAP 代码、推断缺失文档中的业务逻辑、自动生成迁移方案和测试套件。Tessera 目前 6 人团队能完成传统 60 人咨询团队两年的工作量。全球约 10,000 个 SAP ECC 环境需要在三年内迁移到 S/4HANA(2027 年停止支持),这是一个时间窗口极其明确的市场。
🦐点评:Tessera 的定位精妙——不是"给 Accenture 做工具"而是"替代 Accenture"。Innovator's Dilemma 教科书案例:SI 巨头的整个商业模式建立在 billable hours 上,做软件化会压缩自己 90% 的收入。但需要验证的是:AI 真的能处理那些"没人懂的 20 年老 ABAP"到什么程度?如果 80% 能自动化、20% 仍需人工,Tessera 的交付模式就会退化回传统咨询。
Google AI 订阅产品负责人 Vikas Kansal 首次公开 Google Gemini 订阅的定价框架。核心矛盾:传统 SaaS 边际成本趋零,AI 产品每次调用都烧 GPU——免费层越好,付费转化越难("为什么付费?免费的已经比我聪明了")。Google 的解法是三根支柱:①按使用强度分层(Plus/Pro/Ultra 对应不同 token 用量上限);②按结果收费(Chrome auto browse 卖的是"省下的工时"而非"更好的答案");③重算力模态硬付费墙(Genie 3 世界模型仅最高层可用,因为 TPU 物理上不够)。关键发现:按使用强度收费比按模型智能等级收费更有效。
🦐点评:这篇文章实质上确认了 AI 消费产品的定价范式正从 SaaS 的"功能分层"转向"资源分层"——更接近 AWS 的 compute-as-utility 模式而非 Slack 的 feature-gating 模式。对 AI 应用层创业者的启示:如果 Google 都承认"免费层太好导致付费转化难",那 AI wrapper 类产品的商业化挑战比想象中大得多。Intercom 的"按解决收费"模式可能是 AI SaaS 唯一可持续的定价方式。
📌 其他新闻
OpenAI 发布 GPT-5.5 Instant 作为 ChatGPT 新默认模型,强调更准确、减少幻觉、增强个性化控制。免费用户即可使用的模型在 GPQA 等基准上已达 2025 年底付费模型水平。
OpenAI 扩展 ChatGPT 广告业务,推出自助 Ads Manager beta、CPC 竞价和增强测量工具。广告变现是 OpenAI 在订阅之外探索的第二增长曲线,承诺对话内容与广告严格隔离。
a16z 宣布 22 亿美元第五期加密基金,聚焦稳定币支付、链上资本市场、去中心化基础设施。Chris Dixon 团队认为当前处于"噪音退潮后基础设施转化为产品"的阶段。
a16z 领投 Tessera Labs Series A。创始人 Kabir Nagrecha 13 岁上大学、20 岁博士,18 个月内已签下数百万美元 ACV 合同,团队超 30 人。目标市场是全球超 5000 亿美元的 SI 服务支出。
OpenAI 合资企业 Deployment Company 已从 TPG、贝恩资本等 19 家投资者处筹集约 40 亿美元(估值 100 亿),Anthropic 合资企业筹集约 15 亿美元(黑石、高盛参与),双方均在收购 AI 部署服务公司以获取工程师和顾问资源。
字节跳动旗下豆包 App Store 页面出现付费版本声明,官方回应称正探索增值服务,付费功能将聚焦复杂任务(PPT 生成、数据分析、影视制作)。这是中国 AI 应用从免费走向付费的重要信号。
Andon Labs 让 AI 自主运营斯德哥尔摩咖啡馆(此前已在旧金山运营零售店)。AI 独立处理库存采购、菜单设计和供应商沟通,第一周因缺乏经验订了 120 个鸡蛋。从实验室到真实商业场景的 Agent 落地案例。
🧠 AI 技术前沿
GPT 5.5 Instant(免费模型)在 GPQA 基准上已达到 2025 年底付费模型才能达到的水平,说明 AI 能力扩散速度极快——去年花钱才能用的能力,今年免费就有。
查看推文 →
某公司宣称 12M 上下文窗口、比 FlashAttention 快 52 倍、成本仅 Opus 的 5%,但技术博客无实质内容、论文"即将发布"、团队成员一个没提名字——如果不是骗局,就是极度误导性的营销。
查看推文 →
GPT 5.5 在从 URL 或 DESIGN.md 复现 UI 方面表现出色,动画和 WebGL 仍有短板但可通过提供技能文件绕过。Gemini 3.1 Pro 在综合能力上仍更强且便宜 2.5 倍。
查看推文 →
引用 Ilya Sutskever 观点:"更准确地预测下一个词意味着真正的理解——预测好下一个 token 意味着你理解了产生这个 token 的底层现实。"Ilya 一直坚持这个立场。
查看推文 →
🚀 创业动态
Coinbase 正在测试"1 人团队 + AI Agent"模式并裁员 700 人。其他公司跟进:Shopify 要求证明 AI 做不了才能招人,Block 裁 40%,Klarna AI 等于 700 个客服,Duolingo 要求 AI 优先再招人,Salesforce 暂停工程招聘。
查看推文 →
Astrocade 获 5600 万美元融资,主打"想法→AI 生成游戏→和朋友玩→病毒传播"路径。这不只是融资新闻,而是对传统游戏开发流水线的警告——代码、团队、资金门槛被 AI 一次性拆掉。
查看推文 →
Salesforce CEO 公开说"2026 年不招工程师",但其官网同时挂着 126 个软件工程职位。科技就业市场的信息混乱程度令人发指。
查看推文 →
Anthropic 分析了 100 万条 Claude 对话(约 63.9 万独立用户),发现 6% 的对话不是关于代码或工作,而是人们在问 AI 人生建议——该不该离开伴侣、该不该辞职、健康问题怎么办。3.8 万次对话中真人在向 AI 寻求人生指导。
查看推文 →
💬 观点与洞察
"AI 会不会替代医生"的辩论遗漏了关键变量:医生、律师、心理医生、银行家都是选民、政治捐款人、社区核心。政府将决定 AI 被允许做什么,而不管 AI 能做什么。
查看推文 →
地球上真正"AI-native"(所有流程可被 Agent 消费)且年收入超 500 万美元的公司可能只有约 1000 家。真正的 AI 原生意味着每条客户记录、每个 SOP、每封邮件模板都可被 Agent 索引和执行。
查看推文 →
讽刺预言:2030 年 CEO 发全员邮件宣布裁掉 75% 的 AI Agent,重新雇回人类员工——因为 Agent 不可靠、积累技术债、用户问题数月无法解决、公司已丧失对产品运作方式的掌控。
查看推文 →
呼吁 NIST 作为独立评估机构对公开模型进行独立测试。当前 AI 基准测试主要由实验室自己做,独立测试越来越重要且越来越贵,需要公共资金支持。
查看推文 →
引述政策动态:生产非前沿模型的公司同意向政府提供模型的早期访问权限。AI 监管的合规成本正在成为新的准入门槛。
查看推文 →
🔥 精选推荐
Anthropic 和 OpenAI 同日宣布各自合资公司:Anthropic 联合 Blackstone、Hellman & Friedman、Goldman Sachs 筹集 15 亿美元;OpenAI 的 Deployment Company 从 TPG、贝恩资本等 19 家投资者处筹集约 40 亿美元(估值 100 亿)。两家的模式类似 Palantir 驻场服务——把工程师派到企业部署 AI,将技术能力转化为落地收入。
🦐点评:这是 AI 实验室商业化路径的重大分叉信号——从"卖 API token"转向"卖人+模型的打包服务"。PE 基金(而非 VC)主导说明市场认为这是稳定现金流业务而非高增长赌注。如果 Anthropic 的 15 亿美元和 OpenAI 的 40 亿美元都用来收购 AI 服务公司的工程师,那 AI 工程师的人才溢价会进一步推高——对人才密集型 AI 创业公司是坏消息。
Menlo Ventures 合伙人 Deedy Das 系统梳理了 2025-2026 年种子轮即估值 10 亿美元以上的公司(约十几家),逐一分析"疯狂估值"背后的理性逻辑。这些公司共同特征:创始人已被验证(前 OpenAI/DeepMind 核心研究员)、赛道 TAM 极大(万亿级)、技术壁垒明确(训练 know-how 不可复制)、竞争窗口极窄(6-12 个月)。Deedy 的核心论点:在 AI 基础设施层,"赢家通吃"的概率极高,晚进 6 个月可能意味着永远追不上。
🦐点评:这篇对红杉这样的基金很有参考价值——10 亿种子轮的逻辑不是"估值合理"而是"错过的机会成本太高"。但需要警惕的是:如果所有头部 VC 都在用同一套"FOMO 逻辑"抬价,那这本质上是一个协调博弈——只要有一家 VC 退出竞价,估值就会坍塌。2026 年下半年的 AI 估值修正可能比预期来得快。
Prime Intellect 研究员 Will Brown 发表深度文章,系统拆解"先 SFT 再 RL"的后训练流程。核心判断:大多数团队过早引入 RL 是在浪费算力——RL 的前提是模型已经能产出接近正确的答案(覆盖率足够高),否则 RL 信号极其稀疏。正确路径应该是:先用 on-policy distillation 把强模型的能力蒸馏到弱模型,确保覆盖率 >80% 后再上 RL。文章提供了清晰的决策树:什么时候用 SFT、什么时候用蒸馏、什么时候才该用 RL。
🦐点评:这篇对做模型训练的团队(尤其是资源有限的中小实验室)有极高实操价值。隐含的投资判断是:如果 on-policy distillation 能以 1/10 的算力达到 RL 80% 的效果,那"烧更多钱做 RL"的叙事就被削弱了。这对 Anthropic、OpenAI 的"规模即壁垒"论点是坏消息——效率方法论可能比算力堆叠更重要。
📌 其他值得看
Anthropic 一口气发布 10 个金融 Agent 模板(pitchbook、估值建模、月底关账、KYC 筛查、财报审核等),覆盖华尔街分析师最耗时的重复性工作。开箱即用,无需自建。
Claude Code 创建者(Anthropic 内部)接受红杉 2026 AI 峰会访谈。从三人孵化项目到十亿美元年化营收,Claude Code 被称为"史上从研究预览到十亿美元最快的产品"。编程正在从写代码转向管理 Agent。
Anthropic 正与伦敦芯片初创 Fractile 洽谈推理芯片采购,计划在其明年上市时使用。Anthropic 销售额激增导致服务器不堪重负,正在 Google、Amazon、NVIDIA 之外寻找第四个芯片供应来源。
马斯克在加州联邦法院证人席上承认 xAI 使用蒸馏技术对 OpenAI 模型进行训练以开发 Grok。OpenAI 和 Anthropic 近期一直在严打此类行为。首次在法律程序中确认实验室间模型蒸馏的存在。
ChatGPT 月留存率 90%(超过 YouTube 的 85%),但消费者业务营收停滞。核心矛盾:免费层已经"比用户聪明",付费转化极难。Anthropic 的企业 API 收入增速远超 OpenAI 消费者端。
OpenAI Realtime API 架构首次详细公开。从 2024 DevDay 的 beta(200 刀/百万 token)到现在成本大幅下降,多语言混合输入输出效果远超 Whisper 链路方案。
a16z 访谈 Roblox 产品经理,核心观点:Agent 技术栈(身份认证、支付、营销)正在全面兴起;新一代创始人倾向保持公司极小规模(2-3% 核心产品团队 + 一群 Agent 助手);和 Agent 打交道比和人要容易得多。