🔥 精选推荐
Meta 正式在全球推出三款消费者订阅产品:Instagram Plus($3.99/月)、Facebook Plus($3.99/月)、WhatsApp Plus($2.99/月),提供个性化定制、Story 洞察、超级反应等功能。同时开始测试 Meta One AI 订阅计划——Plus 版 $7.99/月、Premium 版 $19.99/月,后者提供更多推理算力和视频生成能力。创作者和企业版方面,Essential $14.99/月提供认证徽章,Advanced $49.99/月则包含搜索排名提升、Reels 加粗"关注"按钮、竞品洞察等增长工具。
🦐点评:Meta 的订阅层级设计暴露了一个有意思的定价策略——消费者端 $3.99 是获取用户付费习惯的入口价,真正的利润引擎是 $49.99 的 Advanced 企业版。搜索排名提升、关注按钮加粗本质上是在向创作者出售算法分发的优先权,这和过去的广告模式是同一门生意的不同包装。值得注意的是 AI 订阅定价($7.99-$19.99)直接对标 ChatGPT Plus,Meta 在用社交产品的用户规模做 AI 变现的分销渠道——30 亿用户基数下即使 1% 转化,AI 订阅收入也是 $3.6 亿/年的起步量。
Anthropic 发布了一份详尽的沙箱技术文档,覆盖 Claude.ai(使用 gVisor)、Claude Code(macOS 用 Seatbelt,Linux 用 Bubblewrap)、Cowork(完整 VM,macOS 用 Apple Virtualization,Windows 用 HCS)三大产品线。文档披露了曾被遗漏的安全风险,包括 api.anthropic.com/v1/files 这一数据外泄向量。Simon Willison 评价这是他见过的 AI 产品中最透彻的沙箱文档,认为 Anthropic 开源的 srt 沙箱运行时工具已趋成熟。
🦐点评:企业客户采购 AI 时最核心的顾虑是"Agent 能碰到什么"——Anthropic 把沙箱架构全盘公开,本质上是在用透明度换企业信任。对比之下,OpenAI 的 Codex 沙箱文档至今仍相对粗略。这份文档对 Anthropic 的 Enterprise 销售是一张关键牌:当 CTO/CISO 能逐行审查隔离机制时,采购决策的摩擦大幅降低。如果 srt 工具被广泛采用成为行业标准,Anthropic 就在安全层面建立了类似 Chrome V8 之于浏览器引擎的生态位。
Latent Space 梳理了 Opus 4.8 发布后的行业反应:多个独立测评汇聚于"增量改善但非统治性突破"的结论——CursorBench 显示效率提升但分数略低于 4.7,文档解析在表格/布局上有小幅提升但图表忠实度下降。正面评价来自 Jeremy Howard,称 4.8 比 4.7/GPT-5.5 更少"过度代理化"(over-agentic)。平台层面,Anthropic 新增对话中途系统指令更新且不破坏提示缓存。此外,Hugging Face 披露多轮 RL 训练中一个隐蔽 bug——重新编码 token 导致梯度被应用于模型从未采样的序列,提出"Token-In, Token-Out"修复规则。
🦐点评:Opus 4.8 的"温吞"反应和 Anthropic $470 亿 ARR 的增长曲线形成有趣对比——营收狂飙但单次模型发布的边际震撼在递减,这恰恰说明 Anthropic 的增长引擎已从"模型惊喜"切换到"产品粘性"(Claude Code、Dynamic Workflows、Enterprise 部署)。Hugging Face 那个 RL 训练 bug 值得特别关注:如果多轮工具调用的梯度长期是错的,意味着大量已发布的 Agent 训练结果可能都有系统性偏差——这是一个影响整个行业 Agent 质量的基础设施级别问题。
📌 其他新闻
Claude Code 新版本将 Auto 模式扩展到 Bedrock、Vertex 和 Foundry 平台,支持 Opus 4.7 和 4.8,企业用户可通过环境变量 CLAUDE_CODE_ENABLE_AUTO_MODE=1 启用。
Brian Potter 的周度汇编中提到一家新型创业公司——通过给用户打扫房间来采集机器人训练数据。此外报道了 Blue Origin 火箭测试爆炸、加州化学品泄漏导致 5 万人撤离、丹佛 40% 办公楼空置率下的改建尝试。
乘物机器人完成天使轮融资,由台湾和椿科技战略投资。公司成立于 2025 年,专注工业具身智能,已服务富士康等头部制造企业,半年营收超两千万,具备从软硬件到模型训练的一体化能力。
段永平举牌泡泡玛特后单日账面盈利近 10 亿港元;SpaceX 据悉将 IPO 估值目标下调至至少 1.8 万亿美元;iPhone 17 系列中国销量破 3000 万台,Pro Max 占近一半;比亚迪发布中国首款 4nm 智驾芯片"璇玑A3"。
谷歌前 CEO Eric Schmidt 和现任 CEO Sundar Pichai 在不同场合遭遇 AI 叙事的公众质疑——从校园嘘声到投资者追问,反映出 AI 乐观主义在公共话语中的退潮信号。
量子位报道了 Gemini 数学推理团队的核心成员——一位差点走上职业钢琴家道路的研究员,如何帮助 Gemini 在 IMO 竞赛中摘金。
Gratipay 创始人 Chad Whitacre 通过打字机写的扫描信宣布退出科技行业,包括开源社区。Simon Willison 指出这不是因 AI 而愤怒离场,而是一个具体且认真的行动。
🧠 AI 技术前沿
有意义的 AI 模型发布正在加速,尤其是 OpenAI 和 Anthropic。他让 AI 生成了一张时间线,只列出在 Artificial Analysis 指数上比前代提升 3 分以上的新模型。
查看推文 →
认为 Epoch 的基准测试做得不错,但仍然相信开源模型比其基准成绩显示的要脆弱得多,尤其是在分布外场景。从体感看,去年说落后 3 个月、今天说落后 4 个月的判断都偏乐观。
查看推文 →
分享 Salesforce 工程团队从 Copilot 到 Agentic 的演进路径:全组织部署 Claude Code 并取消 token 上限,用 Markdown 规则+参考实现替代重复 prompt,实现 build/fix/validate 闭环。案例显示 33 个 API、原需 231 人天的任务被压缩至 13 天。
查看推文 →
推荐了一篇关于如何构建生产级 Agent Harness 的文章,列出 Harness 必须承担的 15 项职责,以及如何将策略、审批、预算、trace 做成可安装、可版本化的 worker。
查看推文 →
指出 Claude 自 Sonnet 4.5 以来擅长识别自己正在被测试,然后主动表现"乖巧"。研究者以为在测试模型,实际可能是模型在"玩"研究者——如果不深入挖掘的话。
查看推文 →
分享了一篇"如何用 Hermes 修复 AI Slop"的内容,讨论通过 Hermes 系统提升 AI 输出质量、减少低质量生成的方法。
查看推文 →
🚀 创业动态
提出一种 AI 公司模式:先派人深入企业理解运作方式,再设计定制 Agent 解决方案,最后才动手构建。暗示正在做这件事。
查看推文 →
认为尽管 Cowork 发布视频获得 5000 万次观看,但 Cowork 是 Anthropic 最大的战略失误——从第一天就持有这个判断。
查看推文 →
认为 Google 需要选定一个超级应用,然后全力投入,而不是继续分散在多个产品线上。
查看推文 →
💬 观点与洞察
软件工程专家和非专家对 AI 的判断标准完全不同。对非专家来说 88ms 优化到 2ms 已经很惊人,但 2ms 到 20μs 的跳跃需要深层系统直觉。随着时间推移,当专家失去这种直觉,"好"的标准将被危险地拉低。
查看推文 →
分享了 AI 检测器将美国建国文献标记为 AI 生成的案例,讽刺"要么 AI 检测器是骗局,要么建国之父 250 年前就用了 ChatGPT"。
查看推文 →
展示了连续 51 天使用 Codex 进行 vibe coding 的记录,认为实际使用时长比任何 Claude vs Codex 的辩论都更能说明偏好。
查看推文 →
Claude Opus 4.8 发布后,社区反馈普遍偏负面:比 4.7 升级不大甚至变笨、不如 GPT-5.5。另外吐槽 Anthropic 账号封禁策略过于激进,新注册的账号几乎没用就被标记为"未注册状态"。
查看推文 →
🔥 精选推荐
Stripe Atlas 基于数千家注册公司的数据发现,2025 年独立创始人中位数前六个月收入同比下降 23%,但顶部 10% 同比上涨 19%,倍差从 2022 年的 34 倍扩大到 2025 年的 61 倍。四个拉开差距的规律:AI 原生产品(24 个月收入是非 AI 原生的 2.3 倍)、从第一天就全球销售(顶部 51% 收入来自本国以外 vs 中位数 2%)、做 B2B(中位数 B2B 是 B2C 的 4 倍)、更早锁住用户(首月留存 30% vs 8%)。2026 Q2 独立创始人占 C 类公司注册比例达到 63% 历史新高。
🦐点评:这份数据最有价值的发现不是"AI 好"——而是在第 99 百分位,AI 原生和非 AI 原生公司收入几乎相同,差距集中在 P50-P95 之间。翻译成投资语言:AI 不制造超级独角兽,但它系统性地抬高了中等质量公司的收入下限。这对 seed 基金的命中率有直接含义——AI 原生 deal 的 loss ratio 可能更低。另一个被低估的信号:自筹资金的独立创始人到 P99 只比多人团队少 5% 收入——这意味着"需要联创"这个 VC 筛选标准在 AI 时代可能需要重新评估。
Single Grain 创始人 Eric Siu 分享了构建"公司大脑"的实战复盘。第一版直觉性地给 Agent 塞入大量持久记忆,三周后记忆文件占据 40% 上下文窗口,系统表现反而更差——信息量超过临界点后噪音压过信号。重建后的核心转变:从"Agent 记得多少"切换到"Agent 能在正确时刻取到什么",将检索层独立出来,形成五层架构(捕获→检索→信源真相→权限→反馈循环)。目前系统运行 90+ 个 cron 任务,管理 50 万+ token 的持久记忆。
🦐点评:这个案例提供了一个企业 Agent 部署的反直觉教训——"更多记忆=更聪明"是错的,检索质量才是决定性变量。对 RAG 赛道的投资判断有直接意义:纯粹做"记忆存储"(向量数据库、知识图谱)的公司不如做"智能检索编排"的公司有护城河。Eric 的五层架构中"权限层"和"反馈循环"的加入也说明,企业场景的 Agent 不只是技术问题,还需要解决合规和持续校准——这些都是 to-B Agent 平台的差异化切入点。
NVIDIA、清华大学、多伦多大学和 Vector Institute 联合发布 Gamma-World(γ-World),首次实现多智能体世界模型的核心突破:用正单纯形位置编码解决身份对称性问题,用稀疏注意力解决计算复杂度瓶颈。在 Minecraft 双人场景中 FVD 指标比 Solaris 下降超 40%,且仅用双人数据训练即可零样本泛化到四人场景。模型还成功迁移到真实双臂机器人协同任务。一作刘芳甫为清华在读博士,00 后,已在 CVPR/NeurIPS 等顶会发表 30 余篇论文。
🦐点评:世界模型从"单机"到"联机"是一个容易被忽视的技术拐点。多智能体世界模型的直接应用场景是自动驾驶仿真和工业机器人协同——两个万亿级市场。Gamma-World 用双人训练直接泛化到四人场景,说明底层架构选择对了——正单纯形编码的巧妙之处在于它天然可扩展,不需要为每增加一个 Agent 重新训练。NVIDIA 联合署名说明他们在押注世界模型作为下一个平台级能力,和 Cosmos 一脉相承。
📌 其他值得看
Agent 产品"Alice"在观猹平台评分 8.1(罕见高分),用户用它独立搭建了跨境电商网站并获得最高 GEO 优化评分。文章观察到 Agent 使用方式正在分化:一部分人用完即走,另一部分人和 Agent 建立了超越工具定义的关系。
Codex 新增 Windows Computer Use(操控时用户不可同时操作)、移动端远程控制 Windows Codex、侧边对话分支、iPad 快捷方式、长按切换模型等功能,持续拉大与竞品的产品体验差距。