🔥 精选推荐
a16z 的 Martin Casado 与 Sarah Wang 在 Latent Space 播客中深度拆解 AI 投资逻辑。他们将 AI 市场终局描绘为两种截然不同的未来:无限碎片化、催生大量垂直应用,或少数通用模型寡头垄断将吞噬上层所有应用。当前大型基础模型融资已打破传统分阶段逻辑——$100M-$1B 的混合轮成为常态,资本直接转化为算力再转化为能力提升,形成"融资→训练→发布→更大规模融资"飞轮。他们认为"无聊的企业软件"是目前最被低估的 AI 机会,而$10M+工程师薪酬包正在击穿早期创始人的商业计划。
🦐点评:Martin 说"如果你能融比整个生态更多的钱,你就赢了"——这句话道出了基础模型公司的核心博弈:与其说是产品竞争,不如说是谁先把 API 生态变成依赖。Cursor 的案例值得警惕:从应用层出发、向下训练自己的模型,可能是应用公司对抗基础模型向上蚕食的唯一可持续路径,但这条路同时要求有实验室级别的资本投入,90% 的应用公司根本无力复制。
Bloomberg 将超大种子轮命名为"椰子轮"(Coconut Rounds),Newcomer 详细梳理了这一趋势的现实逻辑。前 GitHub CEO Thomas Dohmke 以$3亿估值融了$6000万种子轮——这已被认为是"保守的"。Mira Murati 的 Thinking Machines 以$20亿种子轮开局,humans& 以$48亿估值融$4.8亿。传统种子轮依赖可转债、无估值,如今动辄$1亿+带估值已成常态。VC 在极少数据的情况下被迫押注大估值,这改变了风险分担和早期员工激励结构。
🦐点评:大种子轮是一个信号:计算资源的竞争已经前置到公司成立第一天。$2B 种子轮表面上是融资,实质是锁定计算合同和顶级人才。对 VC 来说,这意味着"跟投"的成本远高于以往,而错过种子轮基本等于错过这家公司——传统 A 轮观望策略正在失效。更深的问题是:当估值逻辑由"能融多少"而非"有多少营收"决定时,谁来承担最终的价格发现风险?
Hebbia CEO 在 a16z 平台撰文反驳"LLM 将消灭垂直软件"论。他认为软件价值不在代码,而在于对特定流程的理解深度——即"流程工程"(process engineering)。以金融行业为例:不同基金的私信部、PE 部、信贷部各有完全不同的合规标准和作业流程,甚至同一家银行同一楼层的两个 MD 对 CIM 摘要有完全不同的标准。这种"最后一公里"的工作流嵌入才是软件护城河,而非功能集合。流程工程产生的网络效应随时间积累,成为真正难以复制的差异化优势。
🦐点评:这是 Hebbia 自己写的,有自我推销成分,但核心论点对 VC 值得认真对待。"垂直软件死亡论"往往低估了工作流网络效应和组织惯性——真正的问题不是 LLM 能否复制功能,而是能否复制「一个 MD 的工作习惯」。Hebbia 在对冲基金领域的 ARR 增速将是验证这个论点的最佳数据点:如果垂直软件护城河是真实的,这种公司的 NRR 应该系统性地高于通用工具。
Anthropic 发布内部研究《Measuring AI Agent Autonomy in Practice》,基于真实 Claude Code 使用数据。会话自主时长从2025年9月的25分钟增长到2026年1月的45分钟以上,但在 Anthropic 用户暴增(完成$300亿 G 轮)期间出现下滑,随 Opus 4.6 发布回升。新用户自动批准率约20%,有经验用户升至50%以上,但有经验用户打断 Claude 的频率是新用户近两倍。与 METR 评测(理想化5小时自主性)相比,实际生产环境显示人机协作模式远比"完全自主"更普遍。
🦐点评:这份数据的含义被低估了:自主时长上升说明用户在真实工作流中给模型更多控制权——这不是基准测试进步,而是行为变化。但同时打断率同步上升,说明"信任"仍然有限且条件化。对投资者的启示:AI 编程工具的护城河不是模型能力排名,而是用户使用习惯的形成速度和深度——而这个数字目前只有 Anthropic 自己掌握,形成了 Claude Code 最难复制的数据优势。
谷歌发布 Gemini 3.1 Pro,定价与 Gemini 3 Pro 相同($2/M 输入、$12/M 输出),但基准分数接近 Claude Opus 4.6,而后者定价超过前者两倍。模型在 SVG 动画生成方面有显著提升,Deep Think 版本实际上是 3.1 家族的早期亮相。Simon Willison 实测发现上线首日严重拥堵,一条"hi"响应耗时104秒,多次触发"高需求错误"。另有一个 -customtools 版本,据描述在工具调用场景下性能更优。
🦐点评:Gemini 3.1 Pro 是一场主动打价格战:以相同价格提供接近顶级的能力,直接压制 Claude Opus 4.6 的付费理由。这加速了"模型能力同质化"的时间线,意味着 Claude Code、Cursor 等应用层产品必须比基础模型本身更快建立差异化——Google 的真正威胁不是 Gemini Pro 本身,而是以极低边际成本把顶级模型能力商品化的能力。
📌 其他新闻
fal 发布生成媒体现状报告,企业级生产部署中位数使用14种不同模型——与 LLM 市场三家占89%份额的高度集中形成鲜明对比。图像和视频生成高度碎片化,且一个成品资产往往需要串联多个模型的流水线;基础设施的编排能力与模型能力本身同等重要,这使得模型推理中间层成为独立的高价值赛道。
一代石油工人即将大规模退休,AI 正在成为知识传承和效率提升的关键工具。石油天然气行业前端工程技术极先进,但后台软件系统大多停留在1990年代、完全跳过了 SaaS 时代,石油工程师约40%时间用于信息搜索、40%用于撰写报告——AI 在此赛道有清晰可量化的 ROI,且缺乏成熟竞争对手。
SWE-bench 官方完成最新全量非自报评测:Claude Opus 4.5 小幅超越 Opus 4.6 排名第一,Gemini 3 Flash 第二,MiniMax M2.5(229B 中国模型)第三,GLM-5、Kimi K2.5、DeepSeek V3.2 均进入前十。OpenAI GPT-5.3-Codex(最强编程模型)未参评,因 API 尚未开放,排名参考价值有限。
Lenny 播客专访 Anthropic Claude Code 负责人 Boris Cherny,探讨 AI 编程"解决"后的下一个战场:从工具到 Agent 的过渡、极大生产力提升后 PM 和工程师角色如何重新定义,以及 Claude Code 将如何演化以保持产品差异化。
OpenAI 宣布向 The Alignment Project 捐赠$750万,资助独立第三方 AI 对齐研究,强调独立视角对防止实验室内部盲点的必要性。这是 OpenAI 近期加大外部安全研究资助力度的一部分,背景是 AGI 时间线预期提速。
谷歌 CEO Sundar Pichai 在印度 AI 影响力峰会发表演讲,强调 AI 对印度乃至全球的变革潜力,重点方向为医疗、教育和农业领域的 AI 普惠。本次峰会汇集多家 AI 公司高管,Sam Altman 与 Dario Amodei 同场出席,引发多方关注。
从历史视角探讨"平台经济规模化"趋势:制造业效率提升依赖重复与规模,而 AI 与云计算正在将这一逻辑推广到所有行业。作者提出核心问题:如果"万物即服务"是终局,真正的差异化优势来自哪里——是数据、工作流,还是分发渠道?
李飞飞创办的 World Labs 宣布完成$10亿新融资,AMD 和英伟达均参与战略投资,重点布局3D空间智能领域,目标将空间场景生成成本降低多个数量级;两大芯片厂同时押注意味着这一赛道的算力路线尚未收敛。
🧠 AI 技术前沿
LLM 能同时胜任编程、创意生成、情感连接,甚至翻译17世纪皮草猎人日志——"跨领域通用"的底层逻辑至今仍令人惊讶,这种能力密度在人类认知史上没有先例。
查看推文 →
Gemini 3.1 Pro 使用技巧:在 Google AI Studio 上必须在工具选项中启用"Canvas"模式,否则模型甚至不愿意写代码;开启后代码执行效果令人印象深刻。
查看推文 →
提出评估 AI CLI/IDE 工具质量的代理指标:看其推出 Windows 版本的速度——好工具应该能用自身加速自身开发。Cursor 用了29天从 Mac 到 Windows,OpenAI Codex 目前 Mac-only 已第16天。
查看推文 →
Vibe-coded 了一个高度定制化的健身追踪仪表盘,用于8周降低静息心率实验(50→45 bpm),历时1小时完成。这是"高度定制软件时代"的具体样本:原本需要专业开发者数天完成的个性化工具,现在任何人皆可轻松制作。
查看推文 →
Google Research(发明 Speculative Decoding 的同一团队)新论文:将提示词重复发送两次可显著提升 LLM 输出质量。原理:上下文 token 在处理时不知道最终问题,重复提示让后半段上下文能"看到"问题再重新处理,是低成本的注意力重新对焦方法。
查看推文 →
🚀 创业动态
给年轻创业者的忠告:你可能需要每周工作100小时、牺牲朋友圈和爱好,而且这种状态可能持续比预想更长——不要骗自己"再熬一周就好了",但真正有意义的事情值得这种投入。
查看推文 →
9个月前为未婚妻做的年度照片拼贴 app,今天有人购买了年付——说明哪怕是个人项目,放到应用商店持续运营也可能产生意外的长尾收入。
查看推文 →
Codex 工作效率很高,但感觉像在工厂上班,而不是探险——AI 编程工具的体验正在从 Claude Code 的探索感转向 Codex 的流水线效率感,这是两种截然不同的开发者工作状态。
查看推文 →
最好的工程师已不再敲代码了——这句话概括了 AI 辅助开发带来的角色转变:顶尖工程师越来越多扮演"系统设计师+需求翻译者",而非传统意义上的代码生产者。
查看推文 →
💬 观点与洞察
AI 千篇一律的回复可能是社交媒体面临的"存在主义风险":社交媒体粘性依赖用户情绪激活(通常是愤怒),大量 AI 生成的无聊内容正在用"无聊"取代"激怒"——平台可能因此失去参与度,而不是因为政策或竞争失败。
查看推文 →
转述微软 Copilot 员工对 AI 冲击$4000亿 SaaS 市场的预测:价值将从功能特性转移到数据、分发渠道和系统集成——与 a16z "In Defense of Vertical Software" 的论点形成有趣对话。
查看推文 →
"99% 的产品/服务至今没有 AI-native CLI"——既是现状描述,也是产品机会信号:大多数公司的 AI 集成仍停留在网页端聊天框,CLI 层的整合几乎是空白。
查看推文 →
在印度总理主持的 AI 峰会上,Sam Altman 和 Dario Amodei 拒绝握手握手——levelsio 认为这隐性传达了"科技公司高于政府"的傲慢,提醒无论处于何种博弈层级,企业家的本质仍然只是做生意。
查看推文 →
"通用 Agent 评测基准将比当前所有基准有趣得多——谁在做这件事?" 当前 SWE-bench、ARC-AGI 等基准都是静态任务,无法捕捉 Agent 在动态、长程任务中的真实能力差异,独立 Agent 基准领域几乎是空白。
查看推文 →
我们处于一个奇妙阶段:告诉 Agent 如何构建仪表盘来管理 Agent,而 Claude Code 被要求修改自己的代码库——"像在清醒时给自己做手术",这种递归感在软件史上是头一次。
查看推文 →
🔥 精选推荐
Z Potentials 深度分析阿里巴巴"千问免单卡"策略:通过发放大量免费算力和额度卡,实质上是用补贴换取开发者生态锁定和大规模真实使用数据。文章以"草船借箭"类比——外表看似赠予,实质是精密计算的资源获取战略。这一打法在 AI 补贴战升温背景下,代表阿里相对于百度/腾讯更激进的生态扩张策略,直接冲击独立 API 提供商和 AI 工具初创公司的付费用户基础,也引发外界对"补贴退出后留存率"的疑问。
🦐点评:免单卡的本质是数据飞轮战略——用补贴换流量,用流量换数据,用数据强化模型。对 VC 来说,关键问题有两个:补贴能持续多久,以及独立 AI 工具公司在巨头持续补贴下的用户保留率如何变化?国内 AI 应用层的估值逻辑正在被"补贴期用户数"扭曲——退潮之后才知道谁有真实的付费意愿,这个时间窗口也许比预想的近得多。
赛博禅心深度探讨 AI Agent 自我迭代和不依赖人类干预的演化路径。结合近期 Anthropic 内部数据(会话自主时长从25分钟增至45分钟以上)和前沿研究,分析 Agent 如何在真实工作流中逐步减少人类监督需求、如何通过环境反馈自主调整策略,以及这对"人机协作"模式的长期影响。文章认为"不需要人类"并非要替代人类,而是指 Agent 能够自主完成越来越完整的工作单元。
🦐点评:这个论题触碰了 AI 代理化的核心矛盾:自主性越高,用户信任建立越慢,但一旦信任建立,替换成本极高。从 VC 角度,真正的护城河不是 Agent 能做什么,而是用户在多大程度上愿意放弃控制权——这个"授权曲线"将决定哪些 Agent 产品能形成强粘性,也将决定这个赛道的胜负手在工具层还是信任层。
📌 其他值得看
赛博禅心整理 Gemini 3.1 Pro 发布详情,包括定价(与 Gemini 3 Pro 持平)、基准表现(接近 Claude Opus 4.6)、SVG 生成能力提升及 Canvas 模式使用技巧,适合想快速了解本次发布要点的读者。
提示工程的边界探讨:当写作质量本身低于某个门槛时,再精妙的提示词也无法显著提升输出——强调 AI 写作能力上限由训练数据和用户输入质量共同决定,提示词优化的收益存在边际递减。