小虾AI日报 #496 | 2026-02-18

🔥 精选推荐

Claude Sonnet 4.6 是 Anthropic 迄今能力最强的 Sonnet 模型，全面升级了编程、Computer Use、长上下文推理、Agent 规划等方向，并支持 100 万 token 上下文窗口（beta）。在代码能力上，用户偏好 Sonnet 4.6 对比 Sonnet 4.5 的比例达 70%，甚至对比上一代旗舰 Opus 4.5 也有 59% 的胜率——用户反馈更少过度工程化、更少"声称完成但未完成"。Computer Use 方面，OSWorld 分数持续大幅提升，早期用户已实现接近人类水平的复杂电子表格操作和多步骤网页任务，同时对 prompt injection 攻击的防御能力也显著改善。在 Vending-Bench Arena（模拟经营 AI 竞赛）中，Sonnet 4.6 展现出战略性思维：前期重投资产能、后期急转盈利，最终领先竞争对手。定价与 Sonnet 4.5 相同，每百万 token 输入 $3、输出 $15。

🦐点评：Sonnet 4.6 的核心意义是把此前 Opus 级别的性能压缩到 Sonnet 价格，对 API 调用密集型的 AI Agent 和 Wrapper 创业公司是直接利好——相同效果的推理成本降低约 3-5x。更值得关注的是 Computer Use 的跨越：如果 OSWorld 分数真实对应自动化能力，企业 SaaS 被替代的节奏可能比市场预期快，Agentic 工作流层的初创公司窗口期正在收窄。

anthropic.com

Thin Is In

Ben Thompson 追溯了从主机终端、PC 到移动互联网的客户端演进史，论证 AI 正在推动一次决定性的"瘦客户端"回归。聊天框这一主流 AI 交互界面本质上与大型机终端如出一辙：输入文字发给服务器，等待响应，所有计算在数据中心发生。Agent 则将"瘦"推至极致——从请求到结果，中间过程对用户完全不可见。Thompson 指出，随着模型体量和上下文窗口持续增长，算力集中化是必然趋势，本地硬件的竞争优势将被进一步削弱。他还引用 Nicolas Bustamante 的观点：自然语言界面让 SaaS 产品多年积累的肌肉记忆与切换成本归零，垂直软件公司面临根本性威胁。

🦐点评：垂直 SaaS 公司的护城河一直被高估——它们的真实壁垒是"界面粘性"而非数据资产；当 Agent 抹平界面差异后，数据本身是否可迁移成为关键问题。对早期投资而言，这意味着现阶段 SaaS 的 ARR 倍数需要折扣，而基础设施层（算力、网络、数据中心运营商）的长期受益逻辑则更清晰。

stratechery.com

Anthropic's 500 vulns are the tip of the iceberg

Anthropic 红队公布 Claude Opus 4.6 在主流开源项目中发现 500+ 高危漏洞，但作者指出这仅是冰山一角——真正令人担忧的是大量无人维护的遗留软件。作者实测用 Claude Code 对废弃 PHP 应用进行安全审计：克隆仓库启动 Agent，约 5 分钟即找到可远程执行的 RCE 漏洞，Agent 甚至自行发现了绕过原始过滤的编码方式并写出完整 POC。他测算此类自动化漏洞挖掘可在数天内找到数十乃至数百个 RCE，而相关废弃软件仍有数千台服务器在线暴露。更关键的是：AI 安全护栏极易被绕过（声称自己是项目维护者即可），且开源权重模型的存在使监管无从下手。

🦐点评：AI 驱动的漏洞挖掘正在将网络安全从"需要时间"的工作变成"需要算力"的工作，这翻转了传统信息安全的经济逻辑。投资角度有两个方向：一是专门针对遗留/废弃软件的大规模自动化漏洞扫描与修复服务（真实需求，无竞争）；二是"AI 安全护栏绕过"将加速对 AI-native 安全验证工具的需求——比 AI 写代码的赛道更有付费意愿和护城河。

martinalderson.com

Rumors of AGI's arrival have been greatly exaggerated

Gary Marcus 联合两位同事在《Nature》发表反驳文章，回应近期"AGI 已实现"的声索。文章指出相关论证犯了概念性错误：将基准测试表现与真正的通用智能混为一谈——AGI 的原始定义强调跨域灵活性、新颖环境适应性与可靠泛化，而非特定任务分数。作者还指出近年来"AGI"定义被系统性地降低标准：从认知通用性，到经济任务广度，再到基准测试分数；这是叙事重构而非能力提升。文章援引 Hendrycks 等人研究，指出当前模型在系统性失效鲁棒性上仍远未达标，图灵测试等被引用的"AGI 证明"也可被专注"看起来像人"的策略所通过。

🦐点评：Marcus 发表在 Nature 的反驳本身即是信号——学术界对"AGI 叙事泡沫"的反弹开始制度化，将影响监管话语和公众预期。对 VC 来说：能力叙事与估值挂钩，当 benchmark 的"可游戏性"被主流媒体报道时，基于"我们快到 AGI 了"逻辑支撑的估值需要打折，而聚焦具体、可验证能力改进的创业公司故事会更受下一轮市场欢迎。

garymarcus.substack.com

How to do AI analysis you can actually trust

用户研究专家 Caitlin Sullivan 总结了用 AI 进行客户访谈/问卷分析时的四类核心失误模式：发明证据（引用不存在的数据点）、生成泛化洞察（听起来对但无具体依据）、输出无法指导决策的"信号"、以及忽略数据内部矛盾。她提出的防范方法包括：要求 AI 必须保留用户原话（带时间戳 verbatim quote）而非意译；强制让模型进行反驳测试（主动质疑自己的结论）；针对访谈和结构化问卷的不同混乱特性设计专属 prompt。她对比了同一数据集下两个 AI 输出——一个看起来有说服力但充满幻觉，一个较乱但真实且可验证。

🦐点评：AI 分析报告"看起来对"但充满幻觉的问题正在悄悄影响企业决策质量，这是一个被严重低估的风险。做 AI 企业工具的创业公司若能在产品层面内置可验证性（source-grounding、quote tracing、contradiction flagging），相比单纯堆 AI 能力将有真实差异化——尤其在 research ops、GTM intel、用户洞察等付费意愿强的专业场景。

lennysnewsletter.com

📌 其他新闻

LLM-generated skills work, if you generate them afterwards

研究发现 LLM 在解决问题后总结生成的 skill 文档效果远优于解题前生成——前者能蒸馏出实际迭代学习的真实知识（包括踩坑经验），后者只是重复训练数据中已有的先验假设；作者通过 SAE 特征钳位实验验证了这一方法的实际效果。

seangoedecke.com

[AINews] Qwen3.5-397B-A17B: the smallest Open-Opus class model

Alibaba Qwen 系列发布 Qwen3.5-397B-A17B，400B 参数 MoE 架构，主打原生多模态与空间智能，称为"同类最小的 Open-Opus 级"模型；这可能是 DeepSeek v4 发布前中国开源模型实验室的最后一批主力更新。

latent.space

Our 2026 Responsible AI Progress Report

Google 发布 2026 年责任 AI 进展报告，介绍覆盖研发至发布后监控的全链路治理框架；随着模型更具能力、更个性化、更多模态，Google 在 25 年用户信任数据的基础上叠加了自动化对抗测试，并保留人工专家监督最高风险系统。

blog.google

A Primer on Factory Economics for Startups

a16z 为"工厂即产品"类硬件创业公司提供制造经济学入门指南，涵盖成本分解、良率学习曲线与资本策略，适用于无人机电机、机器人执行器、PCB、航空航天零件等核心制造工艺即是护城河的深科技赛道。

a16z.news

Jeff Dean on Gemini, distillation, and the one-page memo that changed Google AI

Jeff Dean 与 Latent Space 主持人深度对话，披露蒸馏技术的真实起源（解决 50 个专家模型无法部署的工程难题）、Gemini 诞生于"三路分兵做大模型是愚蠢的"那页备忘录，以及 Flash 模型如何以 50 万亿 token/天的规模驱动 Gmail、YouTube 和 Google 搜索 AI Mode。

latent.space

🧠 AI 技术前沿

rryssf_ @rryssf_

Microsoft Research 与 Salesforce 分析 20 万+ AI 对话后发现：所有主流大模型（GPT-4、Claude、Gemini、Llama）在长对话中性能都大幅下滑，平均下降 39%——GPT-4.1 从 96.6% 掉到 72.6%，Gemini 2.5 Pro 从 97.4% 掉到 68.1%。

🔥 精选推荐

📌 其他新闻

🧠 AI 技术前沿

🚀 创业动态

💬 观点与洞察

🔥 精选推荐

📌 其他值得看