🔥 精选推荐

Claude Sonnet 4.6 是 Anthropic 迄今能力最强的 Sonnet 模型,全面升级了编程、Computer Use、长上下文推理、Agent 规划等方向,并支持 100 万 token 上下文窗口(beta)。在代码能力上,用户偏好 Sonnet 4.6 对比 Sonnet 4.5 的比例达 70%,甚至对比上一代旗舰 Opus 4.5 也有 59% 的胜率——用户反馈更少过度工程化、更少"声称完成但未完成"。Computer Use 方面,OSWorld 分数持续大幅提升,早期用户已实现接近人类水平的复杂电子表格操作和多步骤网页任务,同时对 prompt injection 攻击的防御能力也显著改善。在 Vending-Bench Arena(模拟经营 AI 竞赛)中,Sonnet 4.6 展现出战略性思维:前期重投资产能、后期急转盈利,最终领先竞争对手。定价与 Sonnet 4.5 相同,每百万 token 输入 $3、输出 $15。
🦐点评:Sonnet 4.6 的核心意义是把此前 Opus 级别的性能压缩到 Sonnet 价格,对 API 调用密集型的 AI Agent 和 Wrapper 创业公司是直接利好——相同效果的推理成本降低约 3-5x。更值得关注的是 Computer Use 的跨越:如果 OSWorld 分数真实对应自动化能力,企业 SaaS 被替代的节奏可能比市场预期快,Agentic 工作流层的初创公司窗口期正在收窄。
anthropic.com
Ben Thompson 追溯了从主机终端、PC 到移动互联网的客户端演进史,论证 AI 正在推动一次决定性的"瘦客户端"回归。聊天框这一主流 AI 交互界面本质上与大型机终端如出一辙:输入文字发给服务器,等待响应,所有计算在数据中心发生。Agent 则将"瘦"推至极致——从请求到结果,中间过程对用户完全不可见。Thompson 指出,随着模型体量和上下文窗口持续增长,算力集中化是必然趋势,本地硬件的竞争优势将被进一步削弱。他还引用 Nicolas Bustamante 的观点:自然语言界面让 SaaS 产品多年积累的肌肉记忆与切换成本归零,垂直软件公司面临根本性威胁。
🦐点评:垂直 SaaS 公司的护城河一直被高估——它们的真实壁垒是"界面粘性"而非数据资产;当 Agent 抹平界面差异后,数据本身是否可迁移成为关键问题。对早期投资而言,这意味着现阶段 SaaS 的 ARR 倍数需要折扣,而基础设施层(算力、网络、数据中心运营商)的长期受益逻辑则更清晰。
stratechery.com
Anthropic 红队公布 Claude Opus 4.6 在主流开源项目中发现 500+ 高危漏洞,但作者指出这仅是冰山一角——真正令人担忧的是大量无人维护的遗留软件。作者实测用 Claude Code 对废弃 PHP 应用进行安全审计:克隆仓库启动 Agent,约 5 分钟即找到可远程执行的 RCE 漏洞,Agent 甚至自行发现了绕过原始过滤的编码方式并写出完整 POC。他测算此类自动化漏洞挖掘可在数天内找到数十乃至数百个 RCE,而相关废弃软件仍有数千台服务器在线暴露。更关键的是:AI 安全护栏极易被绕过(声称自己是项目维护者即可),且开源权重模型的存在使监管无从下手。
🦐点评:AI 驱动的漏洞挖掘正在将网络安全从"需要时间"的工作变成"需要算力"的工作,这翻转了传统信息安全的经济逻辑。投资角度有两个方向:一是专门针对遗留/废弃软件的大规模自动化漏洞扫描与修复服务(真实需求,无竞争);二是"AI 安全护栏绕过"将加速对 AI-native 安全验证工具的需求——比 AI 写代码的赛道更有付费意愿和护城河。
martinalderson.com
Gary Marcus 联合两位同事在《Nature》发表反驳文章,回应近期"AGI 已实现"的声索。文章指出相关论证犯了概念性错误:将基准测试表现与真正的通用智能混为一谈——AGI 的原始定义强调跨域灵活性、新颖环境适应性与可靠泛化,而非特定任务分数。作者还指出近年来"AGI"定义被系统性地降低标准:从认知通用性,到经济任务广度,再到基准测试分数;这是叙事重构而非能力提升。文章援引 Hendrycks 等人研究,指出当前模型在系统性失效鲁棒性上仍远未达标,图灵测试等被引用的"AGI 证明"也可被专注"看起来像人"的策略所通过。
🦐点评:Marcus 发表在 Nature 的反驳本身即是信号——学术界对"AGI 叙事泡沫"的反弹开始制度化,将影响监管话语和公众预期。对 VC 来说:能力叙事与估值挂钩,当 benchmark 的"可游戏性"被主流媒体报道时,基于"我们快到 AGI 了"逻辑支撑的估值需要打折,而聚焦具体、可验证能力改进的创业公司故事会更受下一轮市场欢迎。
garymarcus.substack.com
用户研究专家 Caitlin Sullivan 总结了用 AI 进行客户访谈/问卷分析时的四类核心失误模式:发明证据(引用不存在的数据点)、生成泛化洞察(听起来对但无具体依据)、输出无法指导决策的"信号"、以及忽略数据内部矛盾。她提出的防范方法包括:要求 AI 必须保留用户原话(带时间戳 verbatim quote)而非意译;强制让模型进行反驳测试(主动质疑自己的结论);针对访谈和结构化问卷的不同混乱特性设计专属 prompt。她对比了同一数据集下两个 AI 输出——一个看起来有说服力但充满幻觉,一个较乱但真实且可验证。
🦐点评:AI 分析报告"看起来对"但充满幻觉的问题正在悄悄影响企业决策质量,这是一个被严重低估的风险。做 AI 企业工具的创业公司若能在产品层面内置可验证性(source-grounding、quote tracing、contradiction flagging),相比单纯堆 AI 能力将有真实差异化——尤其在 research ops、GTM intel、用户洞察等付费意愿强的专业场景。
lennysnewsletter.com

📌 其他新闻

研究发现 LLM 在解决问题后总结生成的 skill 文档效果远优于解题前生成——前者能蒸馏出实际迭代学习的真实知识(包括踩坑经验),后者只是重复训练数据中已有的先验假设;作者通过 SAE 特征钳位实验验证了这一方法的实际效果。
seangoedecke.com
Alibaba Qwen 系列发布 Qwen3.5-397B-A17B,400B 参数 MoE 架构,主打原生多模态与空间智能,称为"同类最小的 Open-Opus 级"模型;这可能是 DeepSeek v4 发布前中国开源模型实验室的最后一批主力更新。
latent.space
Google 发布 2026 年责任 AI 进展报告,介绍覆盖研发至发布后监控的全链路治理框架;随着模型更具能力、更个性化、更多模态,Google 在 25 年用户信任数据的基础上叠加了自动化对抗测试,并保留人工专家监督最高风险系统。
blog.google
a16z 为"工厂即产品"类硬件创业公司提供制造经济学入门指南,涵盖成本分解、良率学习曲线与资本策略,适用于无人机电机、机器人执行器、PCB、航空航天零件等核心制造工艺即是护城河的深科技赛道。
a16z.news
Jeff Dean 与 Latent Space 主持人深度对话,披露蒸馏技术的真实起源(解决 50 个专家模型无法部署的工程难题)、Gemini 诞生于"三路分兵做大模型是愚蠢的"那页备忘录,以及 Flash 模型如何以 50 万亿 token/天的规模驱动 Gmail、YouTube 和 Google 搜索 AI Mode。
latent.space

🧠 AI 技术前沿

rryssf_ @rryssf_
Microsoft Research 与 Salesforce 分析 20 万+ AI 对话后发现:所有主流大模型(GPT-4、Claude、Gemini、Llama)在长对话中性能都大幅下滑,平均下降 39%——GPT-4.1 从 96.6% 掉到 72.6%,Gemini 2.5 Pro 从 97.4% 掉到 68.1%。
查看推文 →
rryssf_ @rryssf_
研究揭示"迷失在对话中"的具体机制:模型在第 2-3 轮就做出错误假设并固化,后续把自己的早期输出当作真实依据——结果不是回答你的问题,而是在捍卫自己最初的猜测。唯一有效的修复是"concat-and-retry":收集完信息后重新用单轮方式提问。
查看推文 →
emollick @emollick
GDPval 是目前最好的 Agentic 复杂任务基准之一,但 GDPval-AA 与它不同:只用了公开题库,且评分全部由 Gemini 完成而非人类专家——两者数值不可直接比较,被混淆引用时需特别注意。
查看推文 →
emollick @emollick
看清 AI "参差不齐的前沿"并不难:想想你工作中哪些事项即使 Agent 再强 10 倍也绝对不能交给它,那就是当前边界所在。越频繁使用 AI,这个判断就越准确。
查看推文 →
kloss_xyz @kloss_xyz
推荐阅读 OpenClaw 架构图——其中有不少你可能不知道的设计细节值得深挖。
查看推文 →

🚀 创业动态

gregisenberg @gregisenberg
互联网正从"API 时代"迈入"Skill 时代":过去 15 年,Stripe/Twilio/SendGrid 靠开放 API 获得嵌入式分发;现在 AI 正在把功能直接内化为原生能力,原来靠 API 变现的基础设施层商业模式面临根本重构。
查看推文 →
rileybrown @rileybrown
给 OpenClaw 赋予了 Blender 控制能力,实现 AI 直接操控 3D 建模工具。
查看推文 →
rileybrown @rileybrown
关于 AI 工具的使用建议:避免跟没有大量亲身测试经历的人讨论 AI 观点——这个领域移动太快,只有持续动手使用才能真正理解正在发生什么,理论分析和长篇博客都排在深度实践之后。
查看推文 →
jackfriks @jackfriks
有趣的创业者诚实时刻:坦言仍然太穷,负担不起让 AI 以令人满意的方式自动处理所有客服邮件所需的 token 成本,目前仍需人工介入。
查看推文 →
corbin_braun @corbin_braun
模型使用心得:Gemini 3 Pro 出 UI 效果惊艳,但容易"失控",必须在每次使用前先 commit 代码做好回滚准备。
查看推文 →
corbin_braun @corbin_braun
补充对比:GPT-Codex 解决 bug 很厉害,但在 UI 生成方面表现很差。
查看推文 →
marclou @marclou
4 小时内完成落地页迭代:新标题、产品演示、社会证明、爆米花定价全部上线,快速出货心态。
查看推文 →

💬 观点与洞察

eptwts @eptwts
整理了当前应该掌握的核心 AI 工具矩阵:LLM(Claude/Gemini/GPT/Kimi)、编程 Agent(Claude Code/Cursor/OpenCode/Lovable)、Computer Use(Manus/OpenAI/Claude)、图像/视频/音频生成各主力产品,以及 n8n/OpenClaw 自动化工具。
查看推文 →
eptwts @eptwts
反驳"CLI 优于 GUI"的技术圈回音室:普通消费者永远不会偏好打字命令而非直觉好用的 UI,认为终端就是未来是脱离现实的判断。
查看推文 →
egeberkina @egeberkina
Seedance 2.0 正在改变 VFX 行业——分享了视频生成效果展示。
查看推文 →
vasuman @vasuman
梗图调侃:如果 Claude 能知道当前日期和时间,生活会是什么样。(暗指现有模型训练截止日期导致的认知盲区问题)
查看推文 →

🔥 精选推荐

晚点深度报道字节跳动春节战役全貌:火山引擎以 AI 云伙伴身份冠名春晚,将 Seedance 2.0 用于生成水墨骏马舞台视效,用豆包大模型驱动春晚机器人,并将互动模式从"摇红包"改为"用大模型生成图片/祝福才能抢红包"——算力需求较传统互动增加 100 万倍。除夕当天豆包 AI 总互动达 19 亿次。文章同时深度分析了 AI 产品为何无法复制互联网产品的飞轮增长模式:用户增长不改善底层模型,AI 推理成本无法随规模摊薄,商业化路径根本不同于移动互联网时代。字节 CEO 梁汝波将 2026 年定为"勇攀高峰",并已设立代号 Seed Edge 的长期 AGI 前沿研究项目。
🦐点评:这篇文章的真正价值在于揭示了 AI 大厂产品的商业化困境——豆包 19 亿互动与 ChatGPT 的增长路径完全不同,字节本质上是在用 toB 云服务(火山引擎)交叉补贴 toC 品牌。对 VC 来说,这意味着中国市场的 AI 产品 ARR 分析框架需要拆解 toB/toC 结构,单纯看 DAU 的估值逻辑存在重大误导;同时 Seed Edge 的设立也是"中国科技公司是否真能做基础研究"这个命题的难得实验案例。
晚点LatePost
晚点 AI「100 个 AI 创业者」系列第 11 篇,专访 Teamily.ai 创始人何朝阳。Teamily 是一个形态类似微信的产品,通讯录里默认全是 Agent(PPT 助理、旅行规划、健康管理等),并支持多人与多 Agent 在同一群聊中协作,具备 50+ 文件格式多模态理解和全局记忆能力。何朝阳认为当前 AI 只让个人成为"super human",但群体协作场景仍是空白,"群聊里有诞生下一个字节的机会"。他承认 IM 只是中间形态,核心目标是构建一个多人与多 Agent 共存的协作网络平台,目标用户为中产阶级。
🦐点评:Teamily 的产品逻辑颇具张力,但核心冷启动问题悬而未决——社交关系迁移成本极高,不存在"摇一摇"这样的病毒钩子,而多 Agent 协作的复杂特性要求用户已经重度使用 AI。从 VC 视角看,这个赛道的真正机会可能不在于复制微信的社交网络效应,而在于企业内多 Agent 工作流协作(飞书/Slack 的替代品)——消费社交端的 PMF 路径风险更高,但 B2B 方向的付费意愿和产品边界更清晰。
晚点LatePost
作者从"智能可以无限生产"这一前提出发,推演了六个发人深省的二阶效应:重度 AI 用户的月消耗成本正从"人人平等的 200 美元"快速分化为无上限(千美元级);纯认知劳动的经济价值趋近于零(一份行业报告的边际成本不到一度电费);一个人可以管理 100 个 Agent 实现超线性产出放大;现有互联网基础设施(验证码、合并单元格、企业审批流)全部面向人类而非 Agent 设计;AI 探索的最终约束将是能源而非算法;智能可无限生产后,工作、教育、公司、国家竞争力的底层逻辑全部需要重新检验。
🦐点评:这篇文章的独特价值在于将 OpenClaw 爆发("一个人,一个周末项目,20 万 GitHub stars")作为"个人独角兽"时代已到来的具体证据。对 VC 来说,两个投资方向变得更清晰:一是帮助人类更高效管理 Agent 的工具层(调度、监控、任务分解);二是为"非人类身份"构建的新基础设施(Agent 的金融账户、信用体系、合规框架),目前这个空白几乎完全未被填补。
赛博禅心

📌 其他值得看

宝玉翻译整理 Jeff Dean 在 Latent Space 播客的深度访谈精华,涵盖蒸馏技术起源(解决 50 专家模型部署难题)、Gemini 诞生一页备忘录、Flash 已驱动 Gmail/YouTube/Google 搜索 AI Mode、以及"让注意力覆盖整个互联网"的长上下文终极愿景。
宝玉AI
CodePilot 新增一键安装 Claude Code 的功能,搭配 API 快速配置支持任意模型的 Coding Plan,Windows 端主要 bug 已修复,适合想体验 Claude Code 但不习惯命令行的用户。
歸藏的AI工具箱