🔥 精选推荐
CB Insights Q4'25 调查 59 位企业高管发现:80% 将 AI Agent 采用列为优先级,但 40% 无法追踪或不了解其 ROI。这一矛盾催生了 Agent 基础设施层三大新兴市场:可观测性与评估工具(91 个生成式 AI 市场中交易量排名第一)、记忆管理(84% 厂商成立于 2022 年后)、AI 成本管理软件(将 Agent 活动与业务结果关联)。企业目前仍以效率指标为主衡量 Agent KPI,收入影响衡量占比仅 25%,说明 Agent 从 POC 到规模化部署之间存在明显的可见性鸿沟。
🦐点评:ROI 不透明是 Agent 规模化部署的最大阻力,而不是技术本身。这三个子赛道(可观测性、记忆、成本归因)目前均处于 Commercial Maturity ≤ 3 的早期,但企业侧采购预算已在形成——这是一个有数据支撑的入场时机信号,逻辑类似当年 DevOps 工具链崛起时监控可观测性赛道的机会。
Anthropic 发布 Claude Sonnet 4.6,全面升级编程、计算机使用、长上下文推理、Agent 规划、知识工作等能力,支持 100 万 token 上下文窗口(Beta)。对标 Opus 4.6,在部分评测中超越 Sonnet 4.5 版 Opus,但 GDPval-AA 指标上 token 消耗约为 4.5 的 4.5 倍,意味着 Agent 场景综合成本可能高于 Opus。Cursor、Windsurf、Microsoft Foundry、Perplexity 等已第一时间接入。Claude Cowork(Computer Use 产品化)早期采用情况据称优于 OpenAI Operator。
🦐点评:Anthropic 在知识工作 App 层(Excel/PowerPoint 集成、行业数据连接、Claude Cowork)几乎没有竞争对手,这个差异化护城河比模型本身更值得关注。Sonnet 4.6 的 token 消耗增加 4.5 倍意味着 API 客户实际账单涨价,会拖慢其在 Agent 应用层的渗透,但对 Anthropic 的收入单价是好事。
IBM Research 与 UC Berkeley 联合将 MAST(多智能体系统故障分类框架)应用于企业 IT 自动化基准 IT-Bench,分析 310 条 SRE 执行追踪记录。核心发现:前沿模型(Gemini-3-Flash)失败模式干净,每条追踪平均仅 2.6 个故障点,属于孤立瓶颈;大型开源模型(GPT-OSS-120B)存在级联失败,每条追踪平均 5.3 个故障点——单次早期推理错误会毒化整个上下文链路。"致命性"失败主要是不可恢复的行动选择和推理路径错误。MAST 框架将 Agent 失败从黑箱转变为可诊断的结构性问题。
🦐点评:这项研究揭示了一个被 benchmark 数字掩盖的真相:开源大模型在企业 IT 场景的可靠性缺口比表面大得多(2.6 vs 5.3 个错误/追踪,差距 2 倍)。这既解释了企业宁愿付贵价用闭源前沿模型的逻辑,也为 Agent 可靠性工具(故障诊断、轨迹分析)的商业化铺了路——能把 MAST 类框架做成 SaaS 的团队,面对的是有真实企业痛点的市场。
a16z 领投 Heron Power Series B。创始人 Drew Baglino 曾任特斯拉 CTO,团队核心技术源自特斯拉时代发明的电力电子技术,主张用软件定义电网(Software-Defined Grid)改造美国电力交付基础设施。背景是 AI 数据中心用电需求激增与老化电网之间的矛盾——变压器积压订单长达数年。Heron 的目标是让电网更快建设、更具韧性、成本更低,并消除"赢得 AI 竞赛"与"普通居民电费负担"之间的两难。
🦐点评:这已经不是清洁能源投资叙事,而是 AI 的 critical path 投资。软件定义电网的壁垒在于同时需要跨越硬件制造、监管审批和效用公司利益博弈三重障碍,Baglino 的特斯拉经验在前两项有显著优势。a16z 能源基础设施赛道的持续重注,也在用行动表态:下一个 10 年的 AI infra 卡点不是算力,是电。
Google 在 Gemini App 中集成 DeepMind Lyria 3 模型,推出音乐生成功能(Beta)。用户输入文字描述或上传图片/视频,即可生成高质量 30 秒曲目(含自动生成歌词),支持风格、人声、节奏自定义。功能已覆盖所有 Gemini 版本用户,并由 Nano Banana 生成配套封面艺术。至此,Gemini App 打通图像、视频、音乐多模态创意内容生成闭环。
🦐点评:Suno、Udio 等音乐 AI 初创公司的独立生存空间正在被平台型玩家挤压。Gemini 的差异化不是音乐质量,而是分发:数亿用户直接可用,冷启动问题不存在。这个赛道可能正在进入"平台收割、垂直被整合"阶段,单纯靠音乐生成能力融资的团队需要重新想清楚差异化在哪里。
📌 其他新闻
Google 在印度举办 AI Impact Summit 2026,宣布与印度政府及企业的系列 AI 合作与投资计划,覆盖教育、医疗、农业等垂直场景,推进"AI for everyone"普惠议题;同期公布 AI Impact Summit 合作伙伴及投资集合。
Simon Willison 转述 Paul Ford《纽约时报》评论:AI 颠覆已经到来,Ford 描述了自己被卷入 AI 生产力转变的矛盾心情——"所有我爱的人都恨这东西"——同时摘录了若干关于 AI 作为"认知外包工具"重塑软件开发习惯的洞察。
Gradio 推出 gr.HTML 组件,支持用 Python 一次性生成任意交互式 Web 应用(LLM 自动生成完整 HTML/JS/CSS),无需前端知识,大幅降低 ML 研究者构建可交互 demo 的门槛。
智能涌现独家:月之暗面超7亿美元融资新增凯辉基金(该基金首次投资大模型公司),并以超100亿美元估值开启下一轮;港股智谱(约280亿美元估值)、MiniMax(约330亿美元估值)市值相较上市初期翻4-5倍,带动一二级市场 FOMO,欧洲背景资金罕见出手。月之暗面两个月内估值翻超2.2倍。
腾讯正式公布元宝 DAU 超5000万、MAU 1.14亿;春节期间抽奖36亿次,AI 任务完成超10亿次;21天迭代更新159项功能。大厂 AI 应用规模化拉新进入砸钱换 DAU 阶段。
千问3.5(Qwen3.5)除夕开源发布后全球产业链快速跟进:英伟达、AMD、苹果、华为昇腾均 Day 0 适配。总参3970亿激活170亿,性能超越上代万亿参数模型 Qwen3-Max,显存降60%,推理吞吐提升19倍,API 价格仅0.8元/百万 Token。
揭秘2026年春晚四家机器人公司30天内完成百台级"大熊猫"机器人群控表演技术细节,涉及端到端大模型控制、多机协同校正等关键挑战;银河通用"银河星脑"大模型支持实时动作控制。
xAI 发布新一代模型,通过"50米外洗车店"地理常识测试,回答风格高度贴合马斯克本人偏好;联合创始人出走未影响发布节奏,Grok 竞争力持续迭代。
Steve Blank 分享担任 VP Marketing 时关于外部顾问激励机制错位的教训:PR 公司、律所等外部供应商的利益未必与创始人一致,创始人必须主动定义"他们真正在为谁工作",对初创公司建立外部团队关系有实操参考价值。
🧠 AI 技术前沿
中国开源大模型(如 Kimi K2)benchmark 数字接近前沿,但在真实工作任务中与闭源顶级模型的差距比评测显示的大得多——coding 之外的"通用智慧"尤为明显。
查看推文 →
优化单一模型是高风险赌注:过去三周内最佳模型在 Claude、ChatGPT、Kimi、Minimax 之间轮换,真正的竞争优势在于把逻辑放在架构里而非模型里——构建"模型无关"系统,每次新模型发布系统自动变更好,而无需修改 prompt。
查看推文 →
Skills(技能)不是保存在 markdown 文件里的 prompt 模板,真正的 skill 可以独立调用工具、引用知识库、触发其他 skills、孵化拥有各自技能集的子 agent——一个 prompt 可以触发多层 agent 协同流水线。
查看推文 →
互联 markdown 上下文仓库(skills vault)是 Agent 的重要基础设施,Skills + CLI 将取代 90% 的 MCP,成为新标准。
查看推文 →
分享用于生成完整 n8n 工作流的 prompt 模板框架:以"企业级集成专家+500强失败项目调试经历"为角色设定,强调 workflow 失败 90% 来自模糊需求和缺失上下文——可直接复用。
查看推文 →
🚀 创业动态
手把手拆解用 OpenClaw 打造"24/7 数字员工"和现金流资产的路径:启动多机 workspace(主 agent + 子 agent)→ 锁定一个行业的一个无聊工作流 → 用 Claude Code 构建 Python 管道 → 逐步实现全自动化,建议从分销、房产、保险、律所等传统行业切入。
查看推文 →
用 VibecodeApp 在30分钟内构建了与 OpenClaw 交互的 iOS app,验证了"自然语言→移动端 AI 界面"的极低门槛。
查看推文 →
演示 OpenClaw 接入 Blender 实现 3D 创作控制,表示后续还有 Cinema 4D、After Effects、Figma 集成视频放出——创意工具的 AI Agent 接管浪潮正在提速。
查看推文 →
独立开发者用了一年、手动退款超100次,终于为自己的 SaaS 产品添加了自动退款按钮——记录了一个典型的"小团队优先发货、后补基础设施"的真实创业节奏。
查看推文 →
OpenClaw 相关工具赞助 TrustMRR(MRR 追踪平台)已达每月 $4,497,首个 VC 基金赞助商也已加入——说明 OpenClaw 生态的商业化变现路径正在成形。
查看推文 →
💬 观点与洞察
更新了"现在该用哪款 AI"指南,变化最大的一版——AI 已不只是 chatbot,理解模型、App、接口(harness)三层区别变得至关重要;Anthropic 在知识工作 App 层几乎没有挑战者令人意外。
查看推文 →
Anthropic 在企业知识工作应用层几乎独占:Claude Cowork、Claude for PowerPoint/Excel、行业专属 skills 和数据集成——令人惊讶的是竞争对手几乎没有跟进。
查看推文 →
嘲讽"品味是唯一护城河"论调——在 AI 大幅压低执行成本之后,"品味"被过度鼓吹成一切问题的答案,但能落地的产品判断力远比这个玄乎的词要具体。
查看推文 →
讽刺 VC 心态转变:"我对10亿美元的生意不再感兴趣了,门槛现在是1000亿"——这位 VC 只是用 Lovable 做了一次 demo。
查看推文 →
评论 Anthropic 本周的某次失误:类比加密圈在2021年将六位数收益全部回吐后转型成"预测市场专家"——暗示这是一次严重的公关/产品事故,后续可能影响品牌形象。
查看推文 →
在线商业的未来正在分叉:一是用户对"全 AI Agent 运营"产生超强警惕;二是用户逐渐麻木并接受 AI 运营成为新常态——哪条路先走出来,决定 AI-native 公司的生死。
查看推文 →
🔥 精选推荐
赛博禅心对 Claude Sonnet 4.6 发布进行了详细中文解析:新版 Sonnet 在编程、长上下文理解、Agent 规划和知识工作等方面全面超越 4.5,性能逼近 Opus 4.6。1M token 上下文窗口以 Beta 形式开放,Claude Cowork(Computer Use 的产品化版本)也同步更新。文章对比了各项 benchmark 指标,并梳理了 API 接入平台的快速跟进情况。Anthropic 定价策略和 token 消耗问题也有专门讨论。
🦐点评:这篇文章的价值在于对中文读者友好的结构化梳理,特别是对 Anthropic 产品矩阵(Cowork、Excel/PPT 集成、行业数据连接)的完整呈现——这块护城河在英文报道中常被低估,对判断 Anthropic vs OpenAI 竞争格局很有参考价值。
Figma MCP 最新版本支持将 Claude Code 生成的网页反向转回 Figma 格式——即任意网页内容可直接转成 Figma 设计稿并粘贴进编辑器。作者分享了 vibe coding 场景下的实际用法:用 Claude Code 写完代码后自动备份一份 Figma 设计稿,再在设计稿上标注意图,再反馈给 Claude Code——解决了"没有设计稿无法清晰表达交互意图"的痛点。安装命令:claude mcp add --transport http figma-remote-mcp https://mcp.figma.com/mcp
🦐点评:代码⇌设计的双向工作流打通,意味着 vibe coding 场景的迭代效率大幅提升。更值得关注的是 Figma 主动拥抱 MCP 协议——这说明设计工具平台正在把"AI 可控"列为核心产品能力,而不是被动等待被替代。
📌 其他值得看
宝玉翻译解析 Claude Code 产品设计理念:人们倾向于用 AI 工具辅助他们已有的工作流,而非切换到全新范式——Claude Code 的设计策略由此出发,嵌入开发者已有的 IDE 和终端环境,而非让用户迁移到新工具。
宝玉翻译报道:一位高中辍学生通过 ChatGPT 自学 AI 研究,最终入职 OpenAI 担任研究科学家;文章记录了其学习路径、关键节点和自我驱动机制,对 AI 时代技能获取路径有参考意义。
宝玉分享利用 Claude Code Hook 机制 + Skill 组合,实现 git commit 后自动触发 AI 生成变更描述的工作流配置;包含具体配置代码和调试要点,可直接复用。