🔥 精选推荐
OpenAI 一个通用推理模型(推测为 GPT-5.6)在不到 32 小时、花费不到 $1000 的情况下,推翻了 Erdős 1946 年提出的平面单位距离猜想。模型产出了 125 页推理过程,发现了一族超越方格网格解的新构造。菲尔兹奖得主 Timothy Gowers 称其为"AI 首次真正解决一个著名开放数学问题的清晰例子"。OpenAI 强调这是通用模型而非专用数学系统。同日 Cohere 以 Apache 2.0 开源了 Command A+。
🦐点评:<$1000 推翻 80 年猜想——这个成本数字比结果本身更值得投资人深思。2024 年 LLM 数不清字母,2025 年拿 IMO 金牌,2026 年产出原创数学发现,能力曲线的斜率还在加速。关键是"通用模型"而非专用系统,意味着这种推理能力可以迁移到新药发现、材料科学等领域。AI for Science 的 TAM 正在被重新定义:不再是"辅助研究者",而是"独立产出原创成果"。
Daytona CEO Ivan Burazin 深度访谈:公司从开发者云端 IDE 转型为 AI Agent 沙箱基础设施,实现 74% 月环比增长。单一客户日均运行近 85 万个 sandbox,RL/评估工作负载从零飙升至总用量的约 50%。Daytona 运行在裸金属上并自研调度器,提供有状态、可动态扩展、秒级启动的 Agent 计算环境。Ivan 认为"localhost 之死"终于到来——Agent 不关心你的笔记本电脑,它们需要通过 API 访问的可编程计算机。
🦐点评:85 万日活 sandbox 来自单一客户——这不是增长指标,这是需求爆发的信号。RL/eval 工作负载从 0% 到 50% 揭示了一个新的 AI 基础设施品类正在形成:Agent 计算既不是训练也不是推理,而是第三种算力需求。Daytona 从人类开发者环境转型 Agent 环境的路径比从零做更有优势——300 万开发者的存量是天然的销售入口。要关注的风险是 AWS/GCP 是否会将 sandbox 能力下沉为平台原生功能。
SpaceX 招股书显示公司整体 TAM 估值 $28.5 万亿,其中 93%($26.5 万亿)与 AI 相关。AI 基础设施占 $2.4 万亿,企业应用占 $22.7 万亿。SpaceX 押注轨道数据中心可以训练与 OpenAI、Anthropic 竞争的前沿模型,同时将 token 成本压到足够低以解锁企业市场。但招股书承认,轨道数据中心卫星最早要到 2028 年才开始部署。考虑到 Musk 一贯的时间表偏差,实际时间存在较大不确定性。
🦐点评:$28.5 万亿 TAM 是资本市场叙事而非合理预期,但底层物理逻辑——太空无限电力和免费散热——是真实的。更值得关注的是 IPO 文件中的战略拆分:Starlink 的现有收入提供估值底线,AI 部分则是纯期权。2028 年部署意味着这至少是 3-5 年后的故事,而地面数据中心的效率每年也在提升。真正的投资问题是:当 Musk 名下的 xAI 是最大客户时,SpaceX 的 AI 业务有多少是真正的第三方市场?
Gemini 3.5 Flash 成为 Gemini 应用和 Search AI Mode 的默认模型,3.5 Pro 下月跟进。Gemini Omni 是全新模型家族,支持文本+图片+视频+音频到视频的多模态生成。Gemini Spark 是 Google 版"OpenClaw"——基于 Gemini 3.5 Flash 的 24/7 后台 Agent,可连接 Workspace 和第三方应用。Universal Cart 打通 YouTube、Search、Gemini、Gmail 的跨商家购物车。AI Studio 支持用自然语言构建 Android 应用并发布到 Play Store。
🦐点评:100 项发布中最有战略意义的是 Universal Cart——Google 正在把 Gemini 变成一个商业入口,利用 Search+YouTube+Gmail 的分发优势构建交易闭环。对比 OpenAI 年初收缩 Instant Checkout,Google 做这件事的优势是已有的商家关系和支付基础设施。Spark 是对 OpenClaw 的快速跟进,但 Google 的真正壁垒不是 Agent 能力本身,而是 9 亿 MAU 的分发规模。创业公司的窗口在于 Google"什么都做一点"的策略必然导致每个垂直场景都只做到 70 分。
WSJ 报道 Anthropic Q2 收入将翻倍至 $109 亿,运营利润 $5.59 亿——首个盈利季度。但文章拆解发现:Anthropic 5-6 月开始按 $12.5 亿/月向 SpaceX 购买 Colossus 算力,但初期享有折扣费率,恰好压低了这两个月的成本。Anthropic 自己也承认"全年可能无法保持盈利"。今年 1 月 The Information 报道其推理成本比预期高 23%。此外,Anthropic 尚未遵循上市公司的财务报告要求,使用的非 GAAP 会计方法不透明。
🦐点评:在融资轮进行时精确泄露一个特定季度的"盈利"数字,这本身就是信号——不是商业基本面的信号,而是资本运作的信号。$12.5 亿/月的 SpaceX 算力合同意味着年化 $150 亿的计算支出,如果去掉折扣期的窗口效应,Q2 的"盈利"很可能消失。对投资人来说,真正该问的问题是:Anthropic 的收入增长速度能否持续跑赢算力成本的线性增长?目前的证据指向否。
📌 其他新闻
a16z 深度分析其被投公司 Flock Safety 的成长路径:从 2017 年亚特兰大的一个车牌识别原型,到覆盖 6000+ 美国城市。美国超过一半的谋杀案未破,Flock 通过 ALPR 技术将证据获取成本降到极低。Austin 2025 年因隐私争议终止合同,随后一起连环枪击案中警方公开表示 Flock "本可以帮上忙"。
Parag Agarwal 的新公司 Parallel 试图解决 Agent 时代的核心问题:当 AI Agent 大量消费内容时,原创者如何获得公平回报?这是对内容价值链的根本性重构尝试。
Simon Willison 发布 Datasette Agent 首个版本,将三年的 LLM Python 库开发经验整合为一个可扩展的 AI 数据助手。支持自然语言查询数据库、生成图表、在沙箱中执行代码。
华尔街日报报道 Google 在 I/O 上推出的 Gemini Agent 新形态——能够自主执行个人任务的 AI 助手,标志着 Google 全面进入 Agent 竞争。
DeepSeek 组建 Harness 团队专攻产品化,招聘标准极高。大模型行业战火正从"基座智商"烧向"终端入口"——谁能把模型能力转化为用户可感知的产品体验,谁才能赢得下一阶段。
千问与淘宝全面打通,实现从对话到下单的 AI 购物闭环。OpenAI 年初收缩了 Instant Checkout,而阿里有场景、数据和支付基础设施。ChatGPT、Gemini 也先后接入零售商,AI 重塑电商的路径之争正在展开。
🧠 AI 技术前沿
GPT-5.2 在学术同行评审中达到专家水平:45 位科学家花 469 小时评估了 82 篇论文的人类与 AI 审稿意见,发现 AI 审稿已可与 Nature 官方顶级审稿人竞争。
查看推文 →
算力严重短缺将导致复杂 Agent 工作流极其昂贵,而单轮聊天机器人反而越来越便宜。结果可能是:最富的公司用 AI Agent,其他人只能用聊天机器人——AI 的民主化叙事面临分裂。
查看推文 →
AI 在没有已知问题清单的科学领域中,仍然不擅长发现有趣的研究问题。这一直是培养博士最难的部分——否则你只会找到小问题、无法推进领域的问题或不能泛化的问题。
查看推文 →
Mix-Quant 论文:对 Agent 类 LLM 采用量化 Prefilling + 精确 Decoding 的混合策略,在保持 Agent 任务精度的同时降低推理成本。
查看推文 →
Claude Code 下一版本将新增 /usage 命令,展示 Skills、Agents、MCP 和 Plugins 各自的 token 消耗明细。CLI 先行,Desktop 版随后。
查看推文 →
腾讯新发布的 AI 助手取名"Marvis/马维斯"——Jarvis → Marvis?网友调侃:马化腾的马,还是牛马的马?
查看推文 →
🚀 创业动态
Agent 支付将是下一件大事。当 AI Agent 能够自主完成交易流程,电商、SaaS 采购和企业 IT 的整个工作流都会被重构。
查看推文 →
用 Codex + GPT-5.5 x-high 构建 Swift 应用效果惊人。你可以让它帮你建一个"个人 App Store",列出你想要的应用,它全部帮你做出来。
查看推文 →
Agent 获得记忆和知识库后,在电脑前的时间越来越少。现在大部分"工作"变成了在 Telegram 里发语音——表述想法、界定任务、交给 Agent 执行。
查看推文 →
V3 版 100% AI 生成的 UGC 视频效果惊人:只用 3 个 prompt 和 1 张参考图,20 分钟内完成。如果你的 AI UGC 还像 AI 做的,那你已经落后了。
查看推文 →
trust_mrr 接入第 9 个支付服务商 Whop。Composer 2.5 一次性完成集成。独立开发者的支付基础设施生态持续扩展。
查看推文 →
💬 观点与洞察
没有人对 AI 的未来有好的直觉,这种想象力的匮乏对规划、投资和政策来说是件坏事。有趣的是,AI 自己在想象 AI 的未来时也很老套,所以也帮不上忙。
查看推文 →
互联网让信息传播速度远超前互联网时代,人们更快地发现奢侈品本质上是骗局——95% 的成本花在操纵性的营销和门店上。奢侈品牌的光环正在被信息透明度瓦解。
查看推文 →
最近面试中遇到不少年后被裁的大厂和金融候选人,普遍状态很 down。建议:被裁不是你的问题,是行业和公司的问题。趁此机会审视自己真正想要的方向。
查看推文 →
思想实验:两年后独立付费应用还有市场吗?当内容创作变得容易,内容变成免费的。如果出现应用版 TikTok——人人都能一句话做 app——那么独立应用的商业模式会被彻底颠覆。
查看推文 →
🔥 精选推荐
员工在 Slack 里说一句"帮我开 Cursor",系统自动判断身份、权限、审批规则,调用 workflow 完成操作,到期自动回收权限。Serval 把 IT help desk 从工单系统推向 governed execution layer——请求高频、动作明确、权限重要、结果可验证、ROI 直接。这类场景是 enterprise agent 最早成立的地方。
🦐点评:Serval 选了一个极其聪明的切入点:IT 权限管理是企业里最无聊但最高频的流程,也是 Agent 最容易证明 ROI 的场景。ServiceNow 市值 $2000 亿,靠的就是把这些"无聊流程"标准化——Serval 用 Agent 把标准化直接跳到了自动化。真正的壁垒不在 AI 能力,而在于对企业 IAM(身份和访问管理)政策的深度理解和合规性保证。如果能拿下几个大型客户的安全审计认证,护城河会迅速加深。
三年间 AI 研究员薪资从年薪百万涨到破亿。传言姚顺雨以亿元薪酬入职腾讯,郭达雅以近亿年薪加盟字节。海外部分研究员年薪超过 NBA 顶薪的库里,甚至超过执掌苹果多年的库克。A 股 5400+ 家上市公司中董事长平均年薪仅 133.94 万,一半以上公司全年净利润不到 1 亿。
🦐点评:AI 研究员年薪破亿意味着单个人才的预期产出已经被定价到"能创造一家独角兽"的水平——这是人才市场对 AI 杠杆效应的极端押注。但历史上每次人才泡沫都指向同一个结局:真正稀缺的从来不是"最聪明的人",而是"能把研究变成产品的人"。DeepSeek 组建 Harness 团队和这条新闻放在一起看,信号很清楚——下一阶段的竞争从"抢研究员"转向"抢产品化能力"。
OpenAI 官宣接入 Google SynthID 并推出 AI 图片检测工具,强化内容溯源。当造假成本趋近于零且没有有效识别手段时,信任成本趋近于无穷大。两大竞争对手在内容安全上选择合作,试图用最低成本让 AI 生成图片可被识别。
🦐点评:OpenAI 和 Google 在 AI 图片水印上联手,说明双方都意识到"不可信的生成内容"将成为全行业的系统性风险——这不是竞争问题而是生存问题。对投资人来说,content authentication 正在从"nice to have"变成基础设施需求。但水印技术存在根本性的猫鼠博弈:只要开源模型不强制加水印,商业模型的单边承诺就只是在限制自己的竞争力。
📌 其他值得看
菲尔兹奖得主 Gowers 表示"如果你是数学家,最好先坐下来再往下读"。GPT 同时帮助解决了另一个悬了 40 年的 Nesterov 加速梯度法点收敛问题。AI 做数学的能力已不需要刷 AIME 来证明。
线控转向、高线数激光雷达+大算力芯片、全域 800V 高压架构组成电车"新三大件",取代传统的冰箱彩电大沙发。蔚来、理想、小鹏均有投入,底层能力竞争正取代表层体验竞争。
OpenAI 在新加坡设立美国以外首个"应用 AI 实验室",未来几年技术团队将扩大至 200+ 岗位,聚焦公共服务、金融、医疗和数字基础设施领域的 AI 应用。
疆海科技(出海品牌 Zendure)完成 B 轮融资,大族激光与德联资本战略投资。融资后首个完整季度营收同比增长近 200%,精准卡位欧洲阳台储能千亿级增量市场。
恺英网络的 AI 陪伴游戏 EVE 上线后 Bug 频出、开服延迟,小红书骂声一片,股价被套。但作者体验后发现 AI 角色的聊天水平确实令人惊讶——AI 陪伴产品的问题不在 AI 能力,而在工程稳定性和运营节奏。