🔥 精选推荐
周五全球科技股蒸发约半万亿美元市值。芯片公司(Nvidia、Broadcom、Micron)、GPU 租赁商(CoreWeave、Nebius)和 AI 巨头(Oracle、Microsoft、Meta)全面下跌,韩国 KOSPI 跌 5.5%,SK Hynix 暴跌 9.9%。SpaceX 以每月 $9.2 亿的价格向 Google 租赁算力——去年还在囤 GPU 的 Musk 今年开始大规模外租,Gary Marcus 认为这意味着 xAI 实质上放弃了前沿模型竞赛。Trump 政府正在讨论入股 OpenAI 等 AI 公司,Marcus 将此解读为"变相救助"。更深层的信号是:连 Google 和 Meta 这样现金流充裕的公司都在通过增发股权来为 AI 投资融资——"整个 AI 基建就是一个黑洞"。
🦐点评:SpaceX 从 GPU 囤积者变成算力二房东是本周最耐人寻味的信号——如果 scale 真的是"all you need",Musk 不会把弹药分给竞争对手。叠加 Trump 政府入股 AI 公司的试探,市场正在对"AI 基建无限投入 → 无限回报"的叙事进行第一次真正的压力测试。对 VC 来说,这不是"AI 泡沫要破"的故事,而是资金成本上升后,哪些公司能证明单位经济模型、哪些公司只是在用估值讲故事的分水岭。
Latent Space 周报三个核心主线:(1) 递归自我改进(RSI)从概念进入组织化阶段——Sakana AI 在东京成立专门的 RSI Lab,主张在有限算力下构建自我改进系统,不依赖超大规模集群。(2) Agent 评估从短任务转向经济价值衡量——Agents' Last Exam(ALE)覆盖 1000+ 个映射到美国职业分类的任务,最难级别通过率仅 2.6%;SWE-Marathon 测试 Agent 在 10 亿 token 预算下能否完成构建 Slack 克隆、重写 JAX→PyTorch 等长周期项目。(3) 可靠性研究更新——Princeton 加入 GPT 5.5、Gemini 3.1 Pro、Claude Opus 4.7 后结论不变:前沿模型的可靠性并未显著优于前代。
🦐点评:Sakana AI 的 RSI Lab 是一个值得追踪的信号——如果自我改进真的可以在有限算力下实现,那"算力即护城河"的投资逻辑就要重新审视。但更冷静的数据来自 ALE 和 SWE-Marathon:最难任务 2.6% 通过率说明 Agent 离替代知识工作者还有数量级的距离,这和当前市场对"Agent 替代人类"的预期形成尖锐矛盾。
Gary Marcus 拆解引发广泛误读的 Anthropic 博客:媒体标题纷纷写"Anthropic 呼吁暂停 AI 开发",但仔细阅读原文会发现 Anthropic 并不真正想要暂停。他们想要的是让公众讨论一个他们自己不打算执行的"选项",同时以"最不谨慎的参与者"为由继续加速推进。Marcus 认为这是一个"零成本的修辞策略"——在 IPO 前精心设计的公关操作。
🦐点评:Anthropic 同时对投资人讲"能力在指数增长"、对监管讲"太危险需要放慢"——这两个叙事本质上都在服务 IPO 定价。Marcus 的拆解提醒 VC 一件事:当一家公司的安全叙事和商业叙事完美互补时,两者的可信度都要打折扣。关键判断是:如果 Anthropic 真的认为 AI 足够危险需要暂停,他们自己会停吗?显然不会。
Simon Willison 发布 micropython-wasm 库,用 WebAssembly 封装 MicroPython 实现 Python 代码沙箱执行。解决了 AI Agent 领域的一个关键基础设施问题:如何安全地让 LLM 执行用户提供的代码?该方案支持内存和 CPU 限制、严格的文件系统隔离、无网络访问,且可通过 PyPI 直接安装。Willison 坦承这是"vibe-coded"的 alpha 版本,不建议用于生产安全环境,但已应用于 Datasette Agent 插件。
🦐点评:Agent 执行任意代码是从"聊天机器人"到"自主软件工程师"的关键跳跃,而安全沙箱是这个跳跃的前提。Willison 的方案用 WASM 实现了零依赖、跨平台的代码隔离——这比 Docker/VM 方案轻量一个数量级。如果 Agent 框架(Claude Code、Cursor、Codex)要支持用户自定义插件,这类轻量沙箱技术会成为必选项。
📌 其他新闻
新增 fallbackModel 配置,支持最多三个备用模型在主模型过载时依次尝试;deny 规则新增 glob 模式支持。连续三个版本密集发布(v2.1.166-168),以 bug 修复和稳定性改进为主。
HuggingFace Build Small Hackathon 的后续实验:五个不同小模型 Agent 参与金融市场模拟,验证了"异构性即产品"的设计理念——不同模型的决策偏差反而增加了模拟的真实性。
Aicpb.com 数据显示豆包推出订阅后 5 月 MAU 减少 610 万。另外 Anthropic 发布博客警告 AI"自我改进"风险,SpaceX 据悉将日本 IPO 融资目标提高至 25 亿美元。
图灵奖得主 Geoffrey Hinton 最新表态认为 AI 已经具备某种形式的意识,呼吁人类接受"自己不再是唯一智能生命体"。这一立场较其此前的谨慎措辞又进了一步。
特锐德推出算力中心高压供电预制舱"算电岛",采用碳化硅技术实现 98.5% 供电效率,Token 用电成本降低约 30%,建设周期压缩至 150 天,综合造价下降 20%。
港股上市鞋企千百度宣布转型 AI 数据服务,形成"鞋履+人工智能数据"双主业格局。传统行业公司借 AI 概念转型的又一案例。
🧠 AI 技术前沿
Claude Mythos 预计能一次性生成完整全栈移动应用并提交 App Store,但 API 价格是 Opus 的 5 倍,单次应用生成成本约 $120-$400。关注 Claude Code/Desktop 上的实际使用量。
查看推文 →
Gemini Pro 系列迭代速度远不及 Claude 和 GPT(上次发布的 3.1 Pro 还是 2 月),性能差距持续拉大。Gemini 3.5 Flash 虽好,但不足以弥补 Pro 级别的空白。
查看推文 →
Anthropic 发布的 Agent 架构图很有参考价值——Agent Teams 和 Workflows 都是非常新且强大的模式(也非常消耗 token)。但实际使用中 AI 自身会混合使用多种方法,分类界限并不清晰。
查看推文 →
Linus Torvalds 在 Open Source Summit 2026 上的表态:AI 是革命,但不是编程的终结。"当有人说 99% 的代码是 AI 写的,我会愤怒。同样 100% 的代码也是编译器写的,但没人这么说。"
查看推文 →
解读 Anthropic 5 月白皮书:企业部署自主 AI Agent 时必须将零信任原则延伸到 Agent 架构本身。核心判断——未来优势不取决于谁用了最先进的 AI,而取决于谁的基础安全足够扎实。
查看推文 →
BestBlogs 早报聚焦智能体工程底层:Emergent 6 个月内达到 1 亿美元 ARR,底层是多智能体编排与自研容器架构;Chrome DevTools 为 MCP 构建 Agent 接口的设计经验。
查看推文 →
Google 在 Antigravity(Agent 框架)上明显没有发力——即使 Gemini 4 达到 Mythos 水平,如果 Agent 框架拉胯也没人在意。
查看推文 →
🚀 创业动态
美国政府希望美国公民能持有 AI 公司股份,购买 Jensen 的 GPU 已被视为国家利益。
查看推文 →
一条 100% AI 生成的 UGC 视频成本仅 $0.50——AI 视频已覆盖 UGC、动画广告、播客、街采、剧情广告等全场景,成本趋近于零。
查看推文 →
发布"全网最全"Hermes Desktop 教程,涵盖 sessions、profiles、artifacts、成本节省等。认为 Hermes 桌面端已超越 OpenClaw,成为 PC 上最好的 AI Agent 使用方式。
查看推文 →
Trust 平台完成第 98 次小型创业项目收购——一个目录网站以 $550 成交。微型 SaaS 收购市场持续活跃。
查看推文 →
💬 观点与洞察
AI 写作质量亟需提升:当软件中的报告和菜单充斥"Claudisms"和"ChatGPTish"措辞时,体验极其痛苦。AI 不是只写代码——大量软件中的文字输出也需要摆脱模板味。
查看推文 →
很多创始人在找不到客户时选择 pivot 想法,但找不到客户的原因很少是想法本身的问题。
查看推文 →
"Gen Z 必须学会用 AI 思考"——与此同时,千禧一代经理看着 Claude Code 生成 dashboard 就像发现了火一样。他们对 AI 心理依赖完全没有免疫力。
查看推文 →
OpenAI 发现了一个误封账号的 bug,如果你的 ChatGPT 前两天被误封可以检查是否已恢复。虚惊一场,好在没有变成系统性封号。
查看推文 →
直播中评审密钥通过 URL 栏暴露,导致所有评分被取消重置。教训:URL 中的 key/hash 方便 MVP 但长期是安全隐患,已改为自动剥离 key 并设置 cookie。
查看推文 →
🔥 精选推荐
连续创业者 Hiten Shah 一篇高传播文章的中文解读,核心论点:两家公司用同一个前沿模型、接同样的数据,结果差距来自一个常被忽略的资产——skill(把公司最好的人的判断力打包成 agent 可调用的方法)。文章把这套逻辑放进一条历史脉络里:Unix 命令让操作可复用、库让代码可复用、API 让服务可复用,而 skill 让"判断力"可复用。关键转变是执行者——以前流程文档只有人能读懂照做,现在 agent 能直接加载并执行。最有价值的 skill 一定是私有的:你的客户升级流程、销售资质判断框架、产品评审标准,这些是竞争对手下载不走的。落地门槛很低(Anthropic 的实现就是一个文件夹 + 一个 SKILL.md),难的是让真正有判断力的人愿意坐下来把"在哪里需要停下来判断"说清楚。
🦐点评:这篇值得记的不是"skill 概念"本身,而是它把投资人看 AI 应用公司的视角往前推了一步——当模型趋向通用、人人能用同款,真正的分化只能来自喂给模型的私有判断。这跟前阵子那篇 Good AI PM 是同一个底层判断:模型是商品,沉淀下来的领域判断才是资产。对看 AI 应用层标的的直接用处是一条尽调问题:这家公司有没有把核心员工的判断系统性打包下来,还是只是接了个模型套层壳。前者有复利,后者随时被平替。
CVPR 现场报道。多数机器人 Demo 需要限定场景、固定物体、精心布光甚至提前录轨迹,而苏度科技的展台没有遥控、没有隔离带,让一群专业研究员现场随机刁难它——名牌、形态不规则的袋子、随机摆放的陌生物体、甚至小颗粒药丸。机器人 R1 在背景干扰极强的现场稳定完成抓放。现场研究者评价"这些东西大概率都不在训练集里,单从抓放看几乎没有多少模型能做到这个水平"。技术路线上,苏度的体系延续自 SaPien / ManiSkill 仿真平台,能力主要建立在大规模仿真训练而非海量真人遥操作数据上;硬件也很克制——全身 10 个摄像头的简单方案,反而更考验模型智能。
🦐点评:这条的信号在"无脚本现场测试"这个动作本身——具身智能领域 Demo 注水严重,敢让研究员当场随机刁难的公司不多,泛化能力是这轮具身成熟度最直接的标尺。仿真训练路线 vs 遥操作数据路线是当前一个关键分叉:如果苏度真能靠仿真做到强泛化且不依赖海量真人采集,成本结构会比堆遥操作数据的玩家好一截。但仅凭一次现场展示不够,要看的是规模化部署后的成功率和长尾场景表现——这跟许华哲那篇说的"机器人日活"是同一个验证逻辑。