🔥 精选推荐
Ben Thompson 认为 Nvidia 的 RTX Spark PC 芯片令人失望——它把大量晶圆面积花在 GPU 核心上,但在 Agent 时代真正关键的 CPU 性能上不如 M5 Max,本质上仍是 2023 年聊天机器人时代的产品思路。相比之下,微软的 Project Solara 更值得关注:这是一个基于 Android 的全新设备平台,将云作为中枢、多种设备作为终端节点,专为 Agent 而非传统 App 设计。微软同时发布的 MAI-Thinking-1 等 7 款自研模型虽然性能一般,但搭配企业定制化的强化学习环境(RLE),定位是让企业用自己的数据训练专属模型——"你不是在租共享智能,你训出来的模型就是你的护城河"。
🦐点评:Thompson 对 Nvidia AI PC 的批评击中要害——Agent 时代的本地设备核心需求是 CPU 性能和快速联网调用云端推理,而不是塞一块算力不如数据中心的 GPU。Project Solara 如果落地,意味着"手机为中心"的设备范式可能被"云为中心 + 设备星座"取代——这对所有围绕 iOS/Android 生态做 Agent 的创业公司都是一个战略假设级别的风险。
a16z 投资的 Lassie 已在全美 49 个州的 700 多家诊所运行自主 Agent 系统,平均每家每月替代约 30 小时行政工作,最高达 190 小时。创始团队亲自在牙科诊所和消化科诊所全职工作数月,发现美国 50 万家诊所普遍每年花 $200K 在行政人员上,而这些工作——保险理赔录入、账单生成、数据搬运——过去的软件只是"重新排列了点击位置",从未真正消除。AI Agent 第一次让软件可以理解上下文、跨系统操作并直接完成工作本身。
🦐点评:Lassie 证明了一件很多 VC 怀疑但不敢下注的事——SMB 市场可以用 AI Agent 做到足够高的自动化率,从而绕过"获客成本高、留存差"这个传统 SMB SaaS 死穴。每家诊所 $200K 的行政支出即是价格锚点也是 ACV 天花板,这决定了定价不能太软件化而要走"人力替代"逻辑。真正的壁垒在于"亲自在诊所打螺丝"积累的领域知识——这类 know-how 不在互联网上,大模型拿不到。
Uber 限制所有员工每人每月每个 AI 编程工具不超过 $1,500 的 token 支出。以每人 2 个工具计算,年度上限约 $36,000,相当于 Uber 软件工程师中位数薪酬包($330K)的 11%。Simon Willison 指出这是对四个月花光全年 AI 预算后的理性政策回应,远比那些鼓励员工争相刷 token 的"tokenmaxxing 排行榜"更明智。他本人每月在 Anthropic 和 OpenAI 各花约 $1,000,在这个限额下仍有富余。
🦐点评:$1,500/月/工具这个数字是目前最有参考价值的企业 AI 编程工具 ROI 锚点。Uber 愿意为每个工程师的 AI 工具花到薪资的 11% 说明价值是真实的,但从四个月烧完全年预算到主动设限也说明——Agent 编程工具的用量增长远超所有人的预算模型。对 Cursor、Anthropic、OpenAI 来说,这意味着 B2B 定价从"按 seat"转向"按 token + 硬限额"几乎不可避免。
OpenAI 为 GPT-Rosalind 增加了四项新能力:增强的生物推理(蛋白质设计与药物发现)、药物化学专业知识、基因组学分析和实验工作流管理。这是 OpenAI 在垂直领域模型上的重要推进,将通用大模型的能力深度适配到生命科学研究场景,目标用户是药企研发团队和学术实验室。
🦐点评:GPT-Rosalind 的定位暴露了 OpenAI 在 B2B 上的一个关键策略转变——从"通用模型 + API"走向"垂直模型 + 工作流"。生命科学是制药巨头愿意为 AI 付高价的少数领域之一,但 Rosalind 也面临 BioNeMo、AlphaFold 等已建立数据壁垒的竞争者。关键问题是:如果垂直模型的优势来自微调数据而非架构,OpenAI 能否在没有一手实验数据的情况下胜出?
📌 其他新闻
微软 Build 大会全面回顾,重点拆解 MAI-Thinking-1(35B 推理模型,从零训练不蒸馏)和 MAI-Code-1-Flash(5B 编码模型,专为 Copilot 优化)等 7 款自研模型的技术细节和战略意图。
a16z 提出世界模型的功能性分类框架:渲染器、模拟器、规划器,以及连接它们的循环。为理解物理 AI(机器人、自动驾驶、游戏)赛道的技术路线提供了投资分析框架。
a16z 领投 Town 的 A 轮融资。Town 的具体方向未在摘要中详细披露,但获得 a16z 领投本身是一个值得跟踪的早期信号。
Wasmer 使用 Codex + GPT-5.5 构建了边缘端 Node.js 运行时,开发速度提升 10-20 倍,原本需要数月的项目几周内交付。这是 Codex 在基础设施开发领域的一个高质量案例。
OpenAI 发布美国前沿 AI 联邦治理框架蓝图,涵盖安全、韧性和国家安全三大支柱。对理解未来 AI 监管走向有参考价值。
深圳具身智能公司星尘智能完成超 10 亿元 B 轮融资,估值突破百亿元。具身智能赛道持续吸引大额资本,该轮融资规模在中国机器人领域属于头部水平。
Lenny 实测 Google Gemini Omni 的虚拟化身功能——扫描二维码、克隆面部、15 分钟内生成 AI 替身视频。消费端 AI 化身正在从概念走向可用产品。
🧠 AI 技术前沿
超级预测者 5 月初预测 METR 80% 任务时长年底才能达到 3-4 小时,结果 Claude Mythos 5 月底就实现了。AI 能力增长持续超出最专业预测者的预期。
查看推文 →
Anthropic 研究了 832 个恶意账号的活动,将其映射到安全社区长期使用的威胁行为数据库(ATT&CK),评估现有防御技术对 AI 驱动网络攻击的效果。
查看推文 →
Windsurf 正式更名为 Devin Desktop。Cognition 收购 Windsurf 一年后将 IDE + 自主 Agent 两条产品线合并:Devin Desktop(桌面)、Devin Cloud(云端)、Devin CLI(终端)、Devin Review(代码审查)四位一体。
查看推文 →
Claude Code 动态工作流(Dynamic Workflows)可从一条 prompt 生成 JavaScript 编排脚本,并行启动数十到上千个子 Agent。Bun 创始人用此功能 11 天内将 75 万行 Zig 代码移植到 Rust,测试通过率 99.8%。
查看推文 →
OpenAI Codex 发布角色插件(Role-specific Plugins)、Sites 预览和 Annotations 标注三项新功能。首批 6 个插件覆盖 62 个应用、110 个技能,涵盖数据分析、创意制作、销售等角色。
查看推文 →
Claude Code 工程负责人 Fiona Fung 分享 AI-native 团队管理经验:写代码、写测试、重构已不再是主要瓶颈,新的限制变成了验证、代码评审、安全和专业判断。规划从半年路线图转向短周期即时规划。
查看推文 →
🚀 创业动态
OpenClaw npm 下载量创历史新高,加上 Docker、GitHub、企业内部部署和各种 fork,实际周下载量达 1000-2000 万次。
查看推文 →
预测今年将出现比 App Store 历史总和更多的、由单人用 AI 构建的百万美元消费应用。例子是一个"用吉他代替滑动操作的水果忍者"——怪异、小众、有趣。
查看推文 →
Agentic Engineering 2026 年 6 月版实战方法论总结:从 80% 编码 20% 规划变为人做 Signal(方向与品味),Agent 做 Volume(产出量)。核心循环是 Research → Plan → Work,用 plan.md + 语音取代 IDE 作为中心。
查看推文 →
BestBlogs 早报三个重点:微软纳德拉 Build 大会深度访谈提出"Frontier Intelligence Platform"战略;月之暗面 Kimi Work Beta 上线,92% 代码由 AI 完成;腾讯研究院 3 万字报告拆解超级个体,核心公式为组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦。
查看推文 →
💬 观点与洞察
大多数人——包括非常成功的人——对 LLM 工作原理没有准确的心智模型。常见错误认知包括:AI 只是从已知来源复制、只能产出平均水平的答案、无法生成新想法。
查看推文 →
有些员工在用公司 token 跑个人项目——这是新时代的"偷办公用品"。讽刺的是,偷 token 的人几乎总是公司里最懂 AI Agent 的人。
查看推文 →
AI 最终将能为任何人构建任何东西,通过可复用的"积木块"实现。很多现在需要独立平台的功能将被转化为 Agent 可调用的微服务积木,用户甚至不知道它们的存在。
查看推文 →
每次纠结该不该买东西,就去问一个加载了自己完整财务数据的 Claude。结果发现自己一直卡在不该省钱的地方——AI 比自己更了解自己的消费能力边界。
查看推文 →
某个故事(疑指大额云计算支出报道)过于离谱,唯一说得通的解释是云服务商用自家算力做内部记账。即便如此,仍然从多个维度看不合理。
查看推文 →
🔥 精选推荐
Anthropic 秘密提交 IPO 文件,可能最早今年秋季上市,抢在 OpenAI 之前登陆华尔街。上周 Anthropic 刚完成 650 亿美元融资,估值达 9650 亿美元(含投资额),首次超越 OpenAI。预计 Q2 营收将达 109 亿美元,较上季度翻倍以上,有望实现首个盈利季度。截至 6 月底年化收入将突破 500 亿美元,而去年 7 月仅为 40 亿美元。高盛、摩根大通和摩根士丹利预计将在 Anthropic 和 OpenAI 的 IPO 中担任关键角色。
🦐点评:一年内年化收入从 40 亿到 500 亿,这个增速在科技史上只有极少数公司做到过。Anthropic 选择在 OpenAI 之前提交 IPO 文件不只是时间赛跑——先上市意味着先定义估值锚点。如果 Anthropic 以万亿级估值成功 IPO,它会给整个 AI 赛道设定一个新的估值天花板,反过来也会推高 OpenAI 的定价预期。对二级市场来说,一级市场 9650 亿估值能否在公开市场站住脚是最关键的问号。
Harvey 5 月处理了 12 万亿 token,五个月增长 12 倍。联合创始人 Gabe Pereyra 解释了不用 OpenAI/Anthropic 托管平台而自建 Agent 基础设施的三个原因:一是多模型灵活性——需要随时切换最优模型,不能被锁定在单一供应商;二是零数据留存(ZDR)——法律行业要求数据永不落盘,与托管平台的状态持久化在架构上互斥;三是成本——自建后成本下降 3-5 倍。Harvey 自建的 LAB 基准测试显示开源模型(GLM-5.1 达 86.2%)已逼近闭源模型(Claude Sonnet 4.6 为 86.9%),差距仅 0.7 个百分点。
🦐点评:12 万亿 token/月和 3-5 倍成本差,这两个数字加在一起就是自建基础设施的全部论证。但更深层的含义是:当开源模型在垂直任务上逼近闭源(差距 0.7%),企业 AI 的价值重心正在从"模型能力"转移到"运行时控制权"——谁拥有路由层、谁控制数据流、谁决定哪个模型跑哪个任务。对大模型公司来说,API 毛利率承压几乎不可避免。
YC 主席 Garry Tan 一个月写出 54 万行 Rails 代码,事后反思这是一座"富士康工厂"——262K 行应用代码配 276K 行测试、127 个后台任务、33 个 cron job,本质上是用代码监管一个比代码更聪明的系统。他提出经济学已经翻转:模型越来越便宜且越来越聪明,应该用 Markdown 指令 + 最少代码替代传统应用架构。他的方法论 GStack 三个月获得 10.5 万 GitHub Star,核心原语是"技能包"(Skill Pack)——可版本化、可测试、可复用的 Agent 能力单元。
🦐点评:Garry Tan 这篇文章的核心不是"少写代码"——而是"工程师价值函数的变量已经变了"。当 token 成本每季度下降,代码的边际价值在缩小,但判断力和品味的价值在增大。GStack 10.5 万星不是因为它是最好的工具,而是因为它是 YC 主席亲自踩完坑后的方法论背书。对开发者工具赛道来说,这意味着 Agent Harness(OpenClaw、GStack)正在变成开发者基础设施的新品类——谁拥有最佳实践的定义权,谁就拥有生态。
红杉合伙人 Sonya Huang 对话 Suno CEO Mikey Shulman。核心判断:任意一天 90% 的 Suno 用户都在创作而非消费,创作本身就是娱乐——这是对"AI Spotify"叙事的根本否定。技术上,Suno 放弃了传统音乐的 12 音离散化方法,直接对 48kHz 连续声波建模;选择 autoregression 而非 diffusion 以支持完整歌曲(3-3.5 分钟)而非片段。Suno 年化收入已达约 3 亿美元,与 Warner 达成和解与合作,下一步重点是社交化(异步协作创作)和个人声音注入。
🦐点评:90% 用户是创作者而非听众——这个数字如果持续成立,Suno 就不是音乐工具而是一个新品类的娱乐平台,对标的不是 Spotify 而是 Roblox。$3 亿 ARR 的消费 AI 公司在当前市场极其稀缺,但关键挑战在于:当创作门槛降为零,作品的稀缺性消失,用户留存靠什么驱动?Suno 押注"社交 + 个人声音"说明他们也意识到纯工具逻辑走不远,必须建社交网络效应。
📌 其他值得看
Arm CEO 表示自研 AGI CPU 芯片(136 核、300W)的 150 亿美元销售目标可能提前实现,Meta 为首个客户,台积电代工。从授权 IP 到自研芯片是 Arm 的重大战略转型。
月之暗面发布桌面端 Kimi Work,支持 300 个 Agent 并行、WebBridge 浏览器操控和同花顺/天眼查等金融数据源。实测能抓取微信公众号后台数据——Claude、Codex 和 Atlas 浏览器均无法读取的页面。
扣子 3.0 上线,核心亮点是支持手机端远程遥控本地 Claude Code 和 Codex CLI 工作。解决了国内开发者在移动端使用海外 AI 编程工具的网络稳定性痛点。
Kimi Work 利用 Agent 集群并发完成金融研报调研(七八万字)和 PPT 生成(40+ 页),半小时完成全流程。搭配藏师 PPT Skill,生成质量较高,支持 WebBridge 自动修复有问题的页面。