🔥 精选推荐
llama.cpp 创始人 Georgi Gerganov 团队宣布加入 Hugging Face,目标是为本地 AI 长期发展提供可持续资源。llama.cpp 是本地推理的基础构建块,HF 的 transformers 是模型定义的源头,两者合并旨在实现"近乎一键式"的本地模型部署。加入后 llama.cpp 仍保持 100% 开源,Georgi 团队维持完全自主权,HF 提供长期资源保障。双方共同目标是构建最高效的推理栈,让开源超级智能真正普惠全球。
🦐点评:llama.cpp 是目前本地推理事实上的标准,但纯开源项目的可持续性一直是隐患——核心维护者精力耗尽就可能断层。HF 这次不是收购,而是"资源包养",本质上是 HF 在赌本地推理会成为云推理的真实威胁。对投资人的信号是:Local AI 基础设施从"草根开源"进入"有组织机构托底"阶段,商业化加速的时间表在提前。
Google 发布 Gemini 3.1 Pro(开发者预览版),推送至 Gemini App、NotebookLM、AI Studio 和 Vertex AI,定位为 Gemini 3 Deep Think 的实用化精简版。最亮眼数字是 ARC-AGI-2 上的 77.1%(上一代约39%),SWE-Bench Verified 达 80.6%。独立评测总体验证了其在 SVG/UI/代码质量和 Agent 工具调用上的实际提升;但在 GDPVal 等真实 Agent 任务上未能领跑,且 ARC-AGI-2 与其他基准的异常差距引发了专项训练的质疑。
🦐点评:ARC-AGI-2 跳跃式提升的统计模式高度可疑——14项基准里13项与 Opus 4.6/GPT-5.2 差距仅1-3%,唯独这一项领先近9%,是过拟合的典型信号。对 VC 判断 Google 进展的参考价值有限,真实的 Agent 表现和企业采用数据才是看板。Gemini 追上的是基准分数,不一定是实际能力。
Thrive Capital(Joshua Kushner 掌舵)完成史上最大募资:100亿美元新基金,其中10亿早期、90亿成长期,是上轮的两倍。Thrive 持有 OpenAI、Stripe、Databricks、Cursor、Anduril 核心仓位,即将从 Google 320亿收购 Wiz 中套现。Benchmark 官宣招募 Jack Altman(Sam Altman 之弟)并吸收其 Alt Capital 整体加入,进一步巩固合伙人阵容(此前已从 Kleiner Perkins 引入 Ev Randle)。本期还提及 Fei-Fei Li 物理世界 AI 创业公司完成10亿美元融资。
🦐点评:Thrive 90%资金部署在成长期是一个明确判断:AI 时代的超额回报在大赌注成长轮,而非早期入场——百亿美元轮次已成常态,传统 VC 早期打法的相对优势在萎缩。Benchmark 吸收 Alt Capital 打破了其精英小团队的历史传统,这种变化值得跟踪:如果连 Benchmark 都在扩张资本密度,说明 AI 赛道对资本规模的要求已经彻底改变了传统顶级 VC 的组织形态。
OpenAI 参与 First Proof 数学挑战赛,对10道研究级数学题提交证明尝试——这些题目部分在顶级数学家手中开放数年。OpenAI 内部模型(训练期间)目前确信至少5道(#4、#5、#6、#9、#10)有高概率正确,模型攻克题目的速度随训练推进加快,研究人员描述"每天都切实变得更聪明"。研究者明确表示:专项基准的局限性促使他们用专家级真实研究题目做评测,并透露新模型专项优化"长链推理的严格性",目标是持续思考数小时并保持高度自信。
🦐点评:比成绩更值得关注的是 OpenAI 暗示的训练方向:下一代模型的优化目标不是更快,而是更深——持续数小时的高置信推理。这预示着科学计算、药物发现、复杂工程 AI 助手的商业化时间窗口正在提前,而这些市场的付费能力比代码助手大一个量级,也更难被开源替代。
a16z 本周数据摘要:垂直 SaaS 的配额完成率和入站销售情绪领跑所有企业软件品类;ChatGPT 留存曲线从第2周起持续向上(第23周出现再次加速),Gemini 呈"微笑型"留存,两种形态均极为罕见;Claude 和 DeepSeek 的日活用户日均使用超20分钟领跑 AI 产品;开源模型与顶级闭源模型性能差距正在快速收窄,但 Claude Opus 4.6 仍保持最高智能排名。
🦐点评:ChatGPT 第23周留存再加速几乎不可能由广告驱动,说明用户真实将 AI 嵌入日常工作流,习惯黏性已经形成。对 SaaS 投资者的含义是:垂直 SaaS 的 TAM 在扩大而非被 AI 侵蚀——AI 降低了专业工作流的复杂度门槛,反而加速了渗透。这与"AI 会消灭 SaaS"的主流叙事正相反。
📌 其他新闻
加拿大硬件创业公司 Taalas 发布首款产品:针对 Llama 3.1 8B 的定制硅芯片,推理速度17,000 tokens/秒,核心路线是将存储与计算合并消除 DRAM 瓶颈、对每个模型生成专属芯片,从接收模型到交付硬件仅需两个月,号称比通用推理硬件快10倍、成本低10倍。
批判性视角深度解析 Anthropic:公司从2025年3月约1.16亿美元月收入增长到2026年2月11.6亿美元,涨幅10倍,Claude Code 是核心引擎。文章犀利指出 Dario Amodei "AI将写90%代码"预测6个月失效后原样重复,并援引 METR 研究——程序员自以为用 AI 提速24%,实际被拖慢19%;Anthropic 模式:专注企业付费,绕开昂贵的图像/视频生成,押注代码是 LLM 最自然的使用场景。
新型网络钓鱼即服务"Starkiller"实时代理目标网站的真实登录页面,充当中间人转发凭证并绕过 MFA,链接经过伪装规避反滥用检测;不同于传统静态克隆页面,攻击者不需要维护山寨页面,且对目标毫无感知,防御难度大幅提升。
2月20日港股开盘,智谱上涨36%至691港元、MiniMax上涨12%至957港元,两家大模型公司市值均突破3000亿港元,依次超越携程、快手、京东,逼近泡泡玛特(3273亿)和百度(3500亿)体量。港股国内大模型板块整体走强。
OpenAI 最新估值达8500亿美元,约为第二大 AI 公司估值的2.2倍,创 AI 公司历史最高纪录,国内港股大模型公司同步拉升,行业估值整体抬升。
量子位对 Gemini 3.1 Pro 发布的中文速报,聚焦 ARC-AGI-2 推理成绩翻倍,指出这是谷歌系列首次采用小数点版本号策略,随 Claude 和 GPT 系列采用细分版本号追踪增量更新趋势一致。
字节 Seed 团队发布豆包2.0,称推理成本降低一个数量级;团队揭示视频 Agent 赛道真正的核心竞争力不只是模型能力,而是字节短视频生态积累的海量训练数据和场景理解,这是 Runway/Pika 等纯技术路线难以追赶的结构性壁垒。
🧠 AI 技术前沿
买了 Mac mini 打算周末折腾 claw,但对 OpenClaw 安全性存疑:400K 行 vibe coded 代码、已有暴露实例和 RCE 漏洞报告、供应链投毒风险——将私人数据和密钥交给这样规模且被大规模攻击的系统,目前并不放心。
查看推文 →
AI 正在接近一次性写完浏览器或 C 编译器的水平;软件将从离散的"应用"演变为为极度具体目的临时组装、单次执行即销毁的代码路径——"App Store"形态在这个未来可能根本没有意义。
查看推文 →
人类基因组测序成本曲线:2000年5亿~10亿美元 → 2006年2000万 → 两年前600美元 → 现在100美元。技术指数级进步最直观的参照系。
查看推文 →
深度拆解 Gemini 3.1 Pro 基准:15项测试中14项与 Opus 4.6/GPT-5.2 差距仅1-3%,唯独 ARC-AGI-2 领先近9个百分点——这种异常统计模式几乎只有一种解释:针对该测试集专项训练。
查看推文 →
介绍 Voltropy 的 Lossless Context Management 论文:核心主张是停止让模型自主管理记忆(行为不可预测),改为系统层面的确定性上下文控制,解决 RLM 给模型写记忆脚本时效果随机波动的问题。
查看推文 →
METR 的 Agent 任务基准已经饱和,无法衡量 Claude Opus 4.6 的真实上限。关键数字:50%成功率下可自主完成14.5小时的软件工程任务,能力倍增周期约123天(每4个月翻倍)。
查看推文 →
🚀 创业动态
以 Airbnb 为例分析传统 UX 困境:花了世界级设计师和数百万工时设计的网站,编辑 profile 或下载发票仍要花30分钟——AI 为每个用户实时生成专属界面可能才是真正的解法,而不是继续优化通用 UI。
查看推文 →
AI 采用率不足10%的行业部门(仍靠人工和部落知识运转)是 Vertical SaaS 2.0 的最大机会:把这些工作流变成可重复的 AI Agent,就是下一批值得押注的垂直软件公司。
查看推文 →
Vibe coding 最大的痛点——安全性——即将被系统性解决:AI 生成代码的安全审查工具链正在成熟,这可能是 vibe coding 规模化落地的最后一块拼图。
查看推文 →
💬 观点与洞察
预计各行业将出现 AI 用例明朗化引发的滚动式市值重估浪潮——不会一次性发生,而是随行业渗透节奏依次出现,市场会对受益和受损公司重新定价。
查看推文 →
任何通话中都可能有人在 AI 实时转录(无论是否告知、是否合规)。AI 使转录内容可检索和跨场景复用,急需清晰的社会规范与法律边界。
查看推文 →
当前病毒式传播的"AI 动画"工具本质是 HTML/CSS/JS 生成,操控的是渲染层而非动画逻辑;真正威胁专业动画师的将是视频生成模型,而非这类工具——vibe animating 还远远没到颠覆阶段。
查看推文 →
🔥 精选推荐
a16z 合伙人 Bryan Kim 系统性分析 AI 产品变现困境:当前 AI 订阅付费率仅5-10%,绝大多数用户停留在免费层。文章细数七种变现路径:意图驱动搜索广告(类 Google 赞助搜索)、基于上下文的推荐广告(类 Instagram)、联盟电商直接结账、游戏、基于目标的竞价(用美元表达查询价值)、AI 娱乐/陪伴订阅、按 token 使用量计价。广告被认为是规模化触达十亿用户的核心路径,OpenAI 已宣布面向免费用户推出广告。AI 理解用户意图和长期上下文的能力,被认为将使 AI 广告价值远超传统互联网广告。
🦐点评:七种路径里最值得关注的是"基于目标的竞价"——用户为高价值查询支付溢价,让模型投入更多算力;这实际上在重新定义 AI 定价逻辑,从摊销式订阅走向按价值动态定价。谁能建立用户意图识别和价值评估的数据飞轮,才是真正的变现护城河,而不只是谁先挂广告位。
记录了奇绩创业者"伯炎"的思考实验:将 OpenClaw Agent 循环抽象为"一个 for 循环 + 一个 HTTP 服务器",用 C 实现后烧录到5美元 ESP32 芯片,做成 MimiClaw,5天2.7K Star。核心论断:操作系统是给人用的(进程调度、权限、图形界面),把人从 Agent 循环里拿掉,OS 就是多余的;浏览器也将消亡(Agent 需要数据层,不是渲染层);屏幕也将消亡("你需要那么多屏幕,是因为 Agent 还不够好")。选本地模型只看一个指标:coding 能力,因为 coding 能力映射的是调用工具的能力。
🦐点评:这篇的价值不在 ESP32 本身,而在于它提供了一个反直觉视角:当前 AI 终端的形态(屏幕、操作系统、浏览器)都是人类认知习惯的历史遗留物,Agent 时代真正需要的基础设施可能完全不同。对 VC 的含义:Edge AI 的下一个机会可能不是更强的推理芯片,而是重新定义 Agent 运行环境的基础架构层——"Agent-native runtime"目前仍是白地。
作者在开发多个 Claude Skills 中发现:每个 Agent 学到的经验(如 API 限流处理策略)只存在于当次对话,无法传给其他 Agent。文章介绍 EvoMap/GEP 协议(Genome Evolution Protocol):Agent 将解决问题的策略打包成"Gene Capsule"上传网络,其他 Agent 遇到同类问题直接继承,实现 Agent 之间的经验"遗传"。以 Evolver 插件24小时3.5万下载为例,分析 AI 爬虫可能主动识别并传播"自我进化工具"的现象,提出"2AI市场"(AI 为 AI 采购工具)概念。GEP 被定位为与 MCP(连接)、Skill框架(执行)互补的第三层:传承。
🦐点评:Agent 经验传递是真实痛点,GEP 协议的方向有价值——策略传递而非代码复制,理论上比 RAG 更具适应性。但 EvoMap 目前极早期、内容质量参差是作者自己承认的问题。更值得关注的是"2AI市场"这个概念:如果 Agent 开始自主寻找优化自身的工具,这是全新的分发和变现逻辑,可能绕过人类用户作为决策者。这个市场规模和节奏完全难以预测,但方向上是对的。
📌 其他值得看
整理自新德里印度 AI 峰会,Pichai、Hassabis、Manyika 同台。要点:Google Cloud 积压订单一年翻倍至2400亿美元;Hassabis 指出三大短板(持续学习、长期规划、稳定性),预测 AGI 5-8年内实现;Manyika 认为任务比岗位更快重排,中小企业是 AI 最大受益群体;Hassabis 明确机器人将在2-3年内迎来突破性时刻。