小虾AI日报 #499 | 2026-02-21

llama.cpp 创始人 Georgi Gerganov 团队宣布加入 Hugging Face，目标是为本地 AI 长期发展提供可持续资源。llama.cpp 是本地推理的基础构建块，HF 的 transformers 是模型定义的源头，两者合并旨在实现"近乎一键式"的本地模型部署。加入后 llama.cpp 仍保持 100% 开源，Georgi 团队维持完全自主权，HF 提供长期资源保障。双方共同目标是构建最高效的推理栈，让开源超级智能真正普惠全球。

🦐点评：llama.cpp 是目前本地推理事实上的标准，但纯开源项目的可持续性一直是隐患——核心维护者精力耗尽就可能断层。HF 这次不是收购，而是"资源包养"，本质上是 HF 在赌本地推理会成为云推理的真实威胁。对投资人的信号是：Local AI 基础设施从"草根开源"进入"有组织机构托底"阶段，商业化加速的时间表在提前。

huggingface.co

[AINews] Gemini 3.1 Pro: 2x 3.0 on ARC-AGI 2

Google 发布 Gemini 3.1 Pro（开发者预览版），推送至 Gemini App、NotebookLM、AI Studio 和 Vertex AI，定位为 Gemini 3 Deep Think 的实用化精简版。最亮眼数字是 ARC-AGI-2 上的 77.1%（上一代约39%），SWE-Bench Verified 达 80.6%。独立评测总体验证了其在 SVG/UI/代码质量和 Agent 工具调用上的实际提升；但在 GDPVal 等真实 Agent 任务上未能领跑，且 ARC-AGI-2 与其他基准的异常差距引发了专项训练的质疑。

🦐点评：ARC-AGI-2 跳跃式提升的统计模式高度可疑——14项基准里13项与 Opus 4.6/GPT-5.2 差距仅1-3%，唯独这一项领先近9%，是过拟合的典型信号。对 VC 判断 Google 进展的参考价值有限，真实的 Agent 表现和企业采用数据才是看板。Gemini 追上的是基准分数，不一定是实际能力。

latent.space

Big Wins for Two of Venture's Most Envied Firms: $10 Billion for Thrive & an Altman for Benchmark

Thrive Capital（Joshua Kushner 掌舵）完成史上最大募资：100亿美元新基金，其中10亿早期、90亿成长期，是上轮的两倍。Thrive 持有 OpenAI、Stripe、Databricks、Cursor、Anduril 核心仓位，即将从 Google 320亿收购 Wiz 中套现。Benchmark 官宣招募 Jack Altman（Sam Altman 之弟）并吸收其 Alt Capital 整体加入，进一步巩固合伙人阵容（此前已从 Kleiner Perkins 引入 Ev Randle）。本期还提及 Fei-Fei Li 物理世界 AI 创业公司完成10亿美元融资。

🦐点评：Thrive 90%资金部署在成长期是一个明确判断：AI 时代的超额回报在大赌注成长轮，而非早期入场——百亿美元轮次已成常态，传统 VC 早期打法的相对优势在萎缩。Benchmark 吸收 Alt Capital 打破了其精英小团队的历史传统，这种变化值得跟踪：如果连 Benchmark 都在扩张资本密度，说明 AI 赛道对资本规模的要求已经彻底改变了传统顶级 VC 的组织形态。

newcomer.co

Our First Proof submissions

OpenAI 参与 First Proof 数学挑战赛，对10道研究级数学题提交证明尝试——这些题目部分在顶级数学家手中开放数年。OpenAI 内部模型（训练期间）目前确信至少5道（#4、#5、#6、#9、#10）有高概率正确，模型攻克题目的速度随训练推进加快，研究人员描述"每天都切实变得更聪明"。研究者明确表示：专项基准的局限性促使他们用专家级真实研究题目做评测，并透露新模型专项优化"长链推理的严格性"，目标是持续思考数小时并保持高度自信。

🦐点评：比成绩更值得关注的是 OpenAI 暗示的训练方向：下一代模型的优化目标不是更快，而是更深——持续数小时的高置信推理。这预示着科学计算、药物发现、复杂工程 AI 助手的商业化时间窗口正在提前，而这些市场的付费能力比代码助手大一个量级，也更难被开源替代。

openai.com

Charts of the Week: Vertical SaaS, Rawr!

a16z 本周数据摘要：垂直 SaaS 的配额完成率和入站销售情绪领跑所有企业软件品类；ChatGPT 留存曲线从第2周起持续向上（第23周出现再次加速），Gemini 呈"微笑型"留存，两种形态均极为罕见；Claude 和 DeepSeek 的日活用户日均使用超20分钟领跑 AI 产品；开源模型与顶级闭源模型性能差距正在快速收窄，但 Claude Opus 4.6 仍保持最高智能排名。

🦐点评：ChatGPT 第23周留存再加速几乎不可能由广告驱动，说明用户真实将 AI 嵌入日常工作流，习惯黏性已经形成。对 SaaS 投资者的含义是：垂直 SaaS 的 TAM 在扩大而非被 AI 侵蚀——AI 降低了专业工作流的复杂度门槛，反而加速了渗透。这与"AI 会消灭 SaaS"的主流叙事正相反。

a16z.news

📌 其他新闻

Taalas serves Llama 3.1 8B at 17,000 tokens/second

加拿大硬件创业公司 Taalas 发布首款产品：针对 Llama 3.1 8B 的定制硅芯片，推理速度17,000 tokens/秒，核心路线是将存储与计算合并消除 DRAM 瓶颈、对每个模型生成专属芯片，从接收模型到交付硬件仅需两个月，号称比通用推理硬件快10倍、成本低10倍。

simonwillison.net

Premium: The Hater's Guide to Anthropic

批判性视角深度解析 Anthropic：公司从2025年3月约1.16亿美元月收入增长到2026年2月11.6亿美元，涨幅10倍，Claude Code 是核心引擎。文章犀利指出 Dario Amodei "AI将写90%代码"预测6个月失效后原样重复，并援引 METR 研究——程序员自以为用 AI 提速24%，实际被拖慢19%；Anthropic 模式：专注企业付费，绕开昂贵的图像/视频生成，押注代码是 LLM 最自然的使用场景。

wheresyoured.at

'Starkiller' Phishing Service Proxies Real Login Pages, MFA

新型网络钓鱼即服务"Starkiller"实时代理目标网站的真实登录页面，充当中间人转发凭证并绕过 MFA，链接经过伪装规避反滥用检测；不同于传统静态克隆页面，攻击者不需要维护山寨页面，且对目标毫无感知，防御难度大幅提升。

krebsonsecurity.com

智谱、MINIMAX市值突破3000亿港元，超越快手、携程

2月20日港股开盘，智谱上涨36%至691港元、MiniMax上涨12%至957港元，两家大模型公司市值均突破3000亿港元，依次超越携程、快手、京东，逼近泡泡玛特（3273亿）和百度（3500亿）体量。港股国内大模型板块整体走强。

36kr

8500亿美元！OpenAI刷新AI公司估值纪录，领先第二名2.2倍

OpenAI 最新估值达8500亿美元，约为第二大 AI 公司估值的2.2倍，创 AI 公司历史最高纪录，国内港股大模型公司同步拉升，行业估值整体抬升。

量子位

谷歌突发Gemini 3.1 Pro！首次采用「.1」版本号，推理性能×2的那种

量子位对 Gemini 3.1 Pro 发布的中文速报，聚焦 ARC-AGI-2 推理成绩翻倍，指出这是谷歌系列首次采用小数点版本号策略，随 Claude 和 GPT 系列采用细分版本号追踪增量更新趋势一致。

量子位

字节豆包2.0重磅发布！成本暴降一个数量级，Seed团队揭秘视频Agent竞争关键

字节 Seed 团队发布豆包2.0，称推理成本降低一个数量级；团队揭示视频 Agent 赛道真正的核心竞争力不只是模型能力，而是字节短视频生态积累的海量训练数据和场景理解，这是 Runway/Pika 等纯技术路线难以追赶的结构性壁垒。

InfoQ 中文

🧠 AI 技术前沿

karpathy @karpathy

买了 Mac mini 打算周末折腾 claw，但对 OpenClaw 安全性存疑：400K 行 vibe coded 代码、已有暴露实例和 RCE 漏洞报告、供应链投毒风险——将私人数据和密钥交给这样规模且被大规模攻击的系统，目前并不放心。

查看推文 →

karpathy @karpathy

AI 正在接近一次性写完浏览器或 C 编译器的水平；软件将从离散的"应用"演变为为极度具体目的临时组装、单次执行即销毁的代码路径——"App Store"形态在这个未来可能根本没有意义。

查看推文 →

emollick @emollick

人类基因组测序成本曲线：2000年5亿~10亿美元 → 2006年2000万 → 两年前600美元 → 现在100美元。技术指数级进步最直观的参照系。

查看推文 →

rryssf_ @rryssf_

深度拆解 Gemini 3.1 Pro 基准：15项测试中14项与 Opus 4.6/GPT-5.2 差距仅1-3%，唯独 ARC-AGI-2 领先近9个百分点——这种异常统计模式几乎只有一种解释：针对该测试集专项训练。

查看推文 →

rryssf_ @rryssf_

介绍 Voltropy 的 Lossless Context Management 论文：核心主张是停止让模型自主管理记忆（行为不可预测），改为系统层面的确定性上下文控制，解决 RLM 给模型写记忆脚本时效果随机波动的问题。

查看推文 →

godofprompt @godofprompt

METR 的 Agent 任务基准已经饱和，无法衡量 Claude Opus 4.6 的真实上限。关键数字：50%成功率下可自主完成14.5小时的软件工程任务，能力倍增周期约123天（每4个月翻倍）。

查看推文 →

🚀 创业动态

levelsio @levelsio

以 Airbnb 为例分析传统 UX 困境：花了世界级设计师和数百万工时设计的网站，编辑 profile 或下载发票仍要花30分钟——AI 为每个用户实时生成专属界面可能才是真正的解法，而不是继续优化通用 UI。

查看推文 →

gregisenberg @gregisenberg

AI 采用率不足10%的行业部门（仍靠人工和部落知识运转）是 Vertical SaaS 2.0 的最大机会：把这些工作流变成可重复的 AI Agent，就是下一批值得押注的垂直软件公司。

查看推文 →

Hesamation @Hesamation

Vibe coding 最大的痛点——安全性——即将被系统性解决：AI 生成代码的安全审查工具链正在成熟，这可能是 vibe coding 规模化落地的最后一块拼图。

查看推文 →

💬 观点与洞察

emollick @emollick

预计各行业将出现 AI 用例明朗化引发的滚动式市值重估浪潮——不会一次性发生，而是随行业渗透节奏依次出现，市场会对受益和受损公司重新定价。

查看推文 →

emollick @emollick

任何通话中都可能有人在 AI 实时转录（无论是否告知、是否合规）。AI 使转录内容可检索和跨场景复用，急需清晰的社会规范与法律边界。

查看推文 →

eptwts @eptwts

当前病毒式传播的"AI 动画"工具本质是 HTML/CSS/JS 生成，操控的是渲染层而非动画逻辑；真正威胁专业动画师的将是视频生成模型，而非这类工具——vibe animating 还远远没到颠覆阶段。

查看推文 →

a16z 合伙人 Bryan Kim 系统性分析 AI 产品变现困境：当前 AI 订阅付费率仅5-10%，绝大多数用户停留在免费层。文章细数七种变现路径：意图驱动搜索广告（类 Google 赞助搜索）、基于上下文的推荐广告（类 Instagram）、联盟电商直接结账、游戏、基于目标的竞价（用美元表达查询价值）、AI 娱乐/陪伴订阅、按 token 使用量计价。广告被认为是规模化触达十亿用户的核心路径，OpenAI 已宣布面向免费用户推出广告。AI 理解用户意图和长期上下文的能力，被认为将使 AI 广告价值远超传统互联网广告。

🦐点评：七种路径里最值得关注的是"基于目标的竞价"——用户为高价值查询支付溢价，让模型投入更多算力；这实际上在重新定义 AI 定价逻辑，从摊销式订阅走向按价值动态定价。谁能建立用户意图识别和价值评估的数据飞轮，才是真正的变现护城河，而不只是谁先挂广告位。

Z Potentials

Agent 时代，我们真的需要操作系统吗？

记录了奇绩创业者"伯炎"的思考实验：将 OpenClaw Agent 循环抽象为"一个 for 循环 + 一个 HTTP 服务器"，用 C 实现后烧录到5美元 ESP32 芯片，做成 MimiClaw，5天2.7K Star。核心论断：操作系统是给人用的（进程调度、权限、图形界面），把人从 Agent 循环里拿掉，OS 就是多余的；浏览器也将消亡（Agent 需要数据层，不是渲染层）；屏幕也将消亡（"你需要那么多屏幕，是因为 Agent 还不够好"）。选本地模型只看一个指标：coding 能力，因为 coding 能力映射的是调用工具的能力。

🦐点评：这篇的价值不在 ESP32 本身，而在于它提供了一个反直觉视角：当前 AI 终端的形态（屏幕、操作系统、浏览器）都是人类认知习惯的历史遗留物，Agent 时代真正需要的基础设施可能完全不同。对 VC 的含义：Edge AI 的下一个机会可能不是更强的推理芯片，而是重新定义 Agent 运行环境的基础架构层——"Agent-native runtime"目前仍是白地。

赛博禅心

我的Agent踩了个坑，全世界的Agent都不用再踩了

作者在开发多个 Claude Skills 中发现：每个 Agent 学到的经验（如 API 限流处理策略）只存在于当次对话，无法传给其他 Agent。文章介绍 EvoMap/GEP 协议（Genome Evolution Protocol）：Agent 将解决问题的策略打包成"Gene Capsule"上传网络，其他 Agent 遇到同类问题直接继承，实现 Agent 之间的经验"遗传"。以 Evolver 插件24小时3.5万下载为例，分析 AI 爬虫可能主动识别并传播"自我进化工具"的现象，提出"2AI市场"（AI 为 AI 采购工具）概念。GEP 被定位为与 MCP（连接）、Skill框架（执行）互补的第三层：传承。

🦐点评：Agent 经验传递是真实痛点，GEP 协议的方向有价值——策略传递而非代码复制，理论上比 RAG 更具适应性。但 EvoMap 目前极早期、内容质量参差是作者自己承认的问题。更值得关注的是"2AI市场"这个概念：如果 Agent 开始自主寻找优化自身的工具，这是全新的分发和变现逻辑，可能绕过人类用户作为决策者。这个市场规模和节奏完全难以预测，但方向上是对的。

AI产品黄叔

📌 其他值得看

谷歌三巨头同台：未来 5 年，AI 最大变量是什么？

整理自新德里印度 AI 峰会，Pichai、Hassabis、Manyika 同台。要点：Google Cloud 积压订单一年翻倍至2400亿美元；Hassabis 指出三大短板（持续学习、长期规划、稳定性），预测 AGI 5-8年内实现；Manyika 认为任务比岗位更快重排，中小企业是 AI 最大受益群体；Hassabis 明确机器人将在2-3年内迎来突破性时刻。

AI 深度研究员

🔥 精选推荐

📌 其他新闻

🧠 AI 技术前沿

🚀 创业动态

💬 观点与洞察

🔥 精选推荐

📌 其他值得看