🔥 精选推荐
OpenAI 发布 GPT-5.5 和 GPT-5.5 Pro,目前在 ChatGPT 和 Codex 中可用,API 即将开放。GPT-5.5 定价 $5/$30(输入/输出每百万 token),Pro 版本 $34/$180——是当前最贵的商用大模型。Pro 版本在 Terminal-Bench 2.0 上达到 82.7%,在复杂编码、科学研究和多步骤命令行工作流上显著领先。早期测试者 Ethan Mollick 报告该模型独立完成了社会科学研究并开发了一款 RPG 游戏,认为 GPT-5.5 Pro 是"当前解决困难问题的最强模型"。模型更 token 高效,但 Pro 版本输出 token 价格 $180/M 是一个明确的高端定位信号。
🦐点评:GPT-5.5 Pro 的 $180/M 输出定价瞄准的是"钱能买到的最强智能"这个市场——不是给普通开发者,而是给愿意为关键决策付费的企业。目前只开放 ChatGPT 和 Codex、不开放 API,说明 OpenAI 要先把高价值用户锁在自己的生态里。Terminal-Bench 2.0 的 82.7% 衡量的是 Agent 核心能力——多步骤任务的连贯执行力。当模型在复杂任务中不再"忘记自己在干嘛",Agent 的可靠性瓶颈就从模型智能转向 harness 工程——这对 Cursor、Claude Code 类工具是利好,对纯模型训练公司是挤压。
Latent Space 周报捕捉了 AI 工程领域的核心议题:"tasteful tokenmaxxing"——如何让团队更多使用 AI,同时避免产出大量低质量 vibe coding 代码。AIE Miami 大会上,CTO、VP、创始人们的核心讨论集中在 token 使用的深度 vs. 广度:Shopify CTO Mikhail Parakhin 认为应追求纵深(更多轮 autoresearch 循环),而非横向发散(启动 50 个并行 LLM 请求赌结果)。Context Engineering 概念提出者 Dex Horthy 公开收回了六个月前极度推崇 vibe coding 的观点,转而建议"请阅读代码"。Google Cloud Next 同日发布 TPU v8,算力数字惊人但更多是巩固既有硬件优势。
🦐点评:当 AI 领域最前沿的工程领袖开始公开反思"用 AI 越多越好"的叙事时,市场正在从 adoption 进入 ROI 追问阶段。Shopify CTO 的"深度优于广度"判断对 AI 工具公司有直接含义:未来赢家不是让用户消耗最多 token 的平台,而是每花一个 token 产生最多价值的平台。这解释了为什么 Cursor、Claude Code 这类强调上下文工程的工具估值飙升,而简单的自动补全类产品正在商品化。"Tasteful"这个词本身就是一个信号——AI 使用正在从蛮力走向精细化。
Stratechery 年度 Google Cloud CEO Thomas Kurian 深度访谈。核心框架:AI 正从问答式聊天升级为能自动化端到端业务流程的 Agent 平台——Google 发布 Gemini Enterprise 和 Agent Platform 正是对准这个转型。Kurian 强调三大支柱:世界级 Agent 平台、世界级基础设施(TPU v8)、以及让 Agent 理解企业数据的能力。Pichai 透露 Google 资本支出的一半投向 Cloud,且 Cloud 与 Google 内部使用完全相同的基础设施栈。安全层面,Wiz 收购后的整合将 AI 与网络安全能力合并。
🦐点评:Kurian 把"Google Cloud 和 Google 内部跑同一套基础设施"反复强调了三遍——这是在回应市场对 Google Cloud 是"二等公民"的长期质疑。更值得关注的是他对 Agent 的定位:不是聊天机器人的升级版,而是能自动化整条业务流程的系统。如果 Google 的 30 亿存量用户(Gmail + Docs + Sheets)被 Workspace Intelligence 激活,Agent 的分发优势将远超 Anthropic 和 OpenAI 的直销模式。但 enterprise 落地速度是最大变量——Google 在 B2B 执行力上的历史记录并不出色。
a16z 领投 Glif 种子轮。Glif 定位为"创意领域的 Claude Code"——一个 AI 创意超级 Agent,内置几乎所有主流生成模型(图像/视频/音频/音乐/语音),用户只需描述想要什么,Glif 负责选工具和执行。核心差异化是 Skills 系统:从数百万次创意 AI 运行中提炼出的"经验配方",让 Agent 像 Steven Spielberg 导演一样工作。解决的痛点是:一个营销人员制作短视频可能需要同时使用六七个 AI 工具,各有各的界面和提示风格,创意生产的瓶颈已从才华和预算转向工具碎片化。
🦐点评:a16z 在 GPT-Image-2 发布次日投资 Glif 不是巧合——当单个模型质量差距快速收敛时,编排层才是真正的价值捕获点。Glif 的 Skills 系统本质上是创意领域的 context engineering,与 Claude Code 的 Skills 一脉相承。风险在于:如果底层模型厂商自己做类似的多模型编排,Glif 的中间层可能被挤压。但 a16z 显然赌的是创意工作流比编程更碎片化——没有哪个模型厂商能同时做好图像、视频、音乐和语音的最优编排。
Lenny's Podcast 对 Anthropic Claude Code 产品负责人 Cat Wu 的深度访谈。Anthropic 的产品发布节奏已从"数月"压缩到"数周甚至数天",关键方法论包括:在模型能力尚未到位时就提前构建产品(新模型一出就能立即上线),建立 launch room 流程快速协调跨团队发布,以及一个反直觉的 PM 技能——让模型自省自己的错误来发现改进方向。Cat Wu 面试了数百位想进入 AI 的 PM,发现能脱颖而出的人都有一个共同特质:"just do things"——速度压过策略。
🦐点评:Cat Wu 描述的"在模型能力到位之前就构建产品"是值得所有 AI 创业者复制的策略——因为模型进化速度远快于产品迭代速度,提前投入意味着你在竞对还在等新模型时就已准备好了。更深层的信号是:Anthropic 的 PM 角色正在向"模型能力翻译官"演变——理解模型能做什么、不能做什么、很快能做什么,这个判断力本身成为核心竞争力。传统 PM 技能树(用户研究、需求文档、roadmap)正在被 AI intuition 快速替代。
📌 其他新闻
产品经理 Clara Vaux 两周实测 GPT-5.5 Pro 的完整报告。Pro 版输出 token 定价 $180/M 是最贵商用模型,但在复杂编码任务(如入侵测试计算机)上完成了此前所有模型都做不到的操作——更智能也更 token 高效,用更少的 token 做更多的事。
a16z 投资 Petual,用 AI 重构企业审计合规。美国上市公司每年花超 300 亿美元在内部审计上,SOX 合规测试 80 亿美元,审计师 60% 工时花在 SOX、三分之二用于从非结构化文件中手工逐一寻找证据。极度标准化且痛苦的流程是 AI 自动化的理想靶场。
Bloomberg 报道一群未授权用户通过 Discord 群组连续数周访问了 Anthropic 号称"极其危险"的 Claude Mythos 模型。Anthropic 以安全为核心品牌叙事,此次泄漏凸显前沿模型访问控制的脆弱性。
Latent Space 与 Unsupervised Learning 联合播客,讨论 AI 工程最新趋势:Skills 可能是 Agent 的最小可行打包格式,infra 公司每年都要自我重塑而应用公司更容易存活,"Agent Lab"模式正在兴起——从前沿模型 API 出发快速构建垂直 Agent。
Nilay Patel 在 The Verge 发表深度评论,警告"软件大脑"思维——把所有问题都扔给 AI 解决。民调显示大量用户讨厌 AI 被强行整合进日常产品,AI 反弹情绪在消费者层面持续升温,对急于在产品中嵌入 AI 的公司是一记冷水。
🧠 AI 技术前沿
Emollick 提前两周测试 GPT-5.5 后发表完整评测:模型独立完成了社会科学研究、开发了一款 RPG 游戏。认为 GPT-5.5 Pro"目前是解决困难问题的最强模型",但仍存在参差不齐的表现。
查看推文 →
在新模型发布的喧嚣中提醒:不需要每次新模型发布都切换服务商或宣布赢家。Opus 4.7 同样优秀,尤其是自适应思考能力提升之后。
查看推文 →
GPT-5.5 技术要点梳理:Terminal-Bench 2.0 达 82.7%,能处理多步命令行工作流不丢失方向。Agent 失败的根本原因不是模型不聪明,而是上下文压缩、指令遗漏和思路断裂。API(gpt-5.5 和 gpt-5.5-pro)即将开放。
查看推文 →
Codex 用户可以使用 GPT-5.5,在 agentic 和网络安全任务上是当前最强的 SOTA 模型。
查看推文 →
"仍然是自回归的。仍然没有世界模型。仍然不能规划。仍然不是 AGI。不过 benchmark 确实很酷。"对 GPT-5.5 的冷静反思。
查看推文 →
🚀 创业动态
"两家公司内部都能用自己最强的模型。也许唯一真正重要的 benchmark,就是这些公司自己在构建的工具。"认为 OpenAI 和 Anthropic 的产品力才是真正的实力证明,而非跑分。
查看推文 →
Vibejam 游戏开发大赛第 21 天,已收到 296 款游戏,还剩最后一周。Cursor 和 Bolt 赞助,最高奖金 $25,000。AI 辅助独立游戏开发生态正在自发形成。
查看推文 →
用 GPT 5.5 做实验:仅几个 prompt 就用 Three.js 实现了 25 列火车、山丘地形、视角切换、速度调节和碰撞检测系统。AI 编程在实时 3D 场景的能力显著提升。
查看推文 →
💬 观点与洞察
过去半年的变化:与每家大公司交流时,至少有几位高管真正理解 AI——他们大量实验(出人意料地多人在用 OpenClaw),对指数曲线有直觉感知。下一个挑战是将个人理解转化为组织能力。
查看推文 →
需要培养感知上下文窗口"真实容量"的直觉。模型宣传 1M token 窗口,但远在标称容量之前就开始退化——Claude Code 在 20-30% 时输出质量就会明显下降。这种直觉只能靠大量实践积累,文档学不会。
查看推文 →
自 Sonnet 3.7 以来,Anthropic 是唯一真正理解如何发挥模型能力的公司——擅长构建面向性能而非仅仅"看起来有前途"的功能。但 OpenAI 正在逼近,GPT Images 2.0 和 Codex 就是证明。
查看推文 →
"现实是:没有公司在乎你能以 100% 质量手工写代码,如果另一个人能以 80% 质量做到 5 倍速度。重要的是你能多快烧掉 token。"AI 时代的生产力重新定义。
查看推文 →
大多数反 AI 人群坚持说 AI 输出全是"垃圾"来赢得争论。但好的 prompt 下,AI 产出的图像、视频和代码已几乎无法与高质量人类作品区分。否认 AI 的强大并不能加强你的立场,反而暴露你不会用 AI。
查看推文 →
🔥 精选推荐
Anthropic 发布博客系统梳理了 Agent 连接生产系统的三条路径。核心问题:每接一个新服务就要从头写认证逻辑、工具描述和错误处理——连三五个服务后复杂度指数膨胀。这不是代码质量问题,而是架构缺陷——没有公共抽象层,服务数量线性增长就导致复杂度指数膨胀。Anthropic 的结论指向 MCP(Model Context Protocol)作为 Agent 连接外部系统的统一标准。文章来自 Claude Platform 团队,以实际生产经验为基础。
🦐点评:Anthropic 在自家产品上先验证架构再输出方法论——这是"卖铲子"生意的教科书操作。但更深层的信号是:Agent 从 demo 到生产的最大瓶颈不是模型能力,而是集成工程。如果 MCP 真的成为 Agent-to-service 的标准协议,它对 AI 应用生态的意义可能类似 HTTP 之于 Web——谁早期建立生态位,谁就拥有网络效应。值得跟踪 MCP 的第三方工具接入数量作为先行指标。
📌 其他值得看
OpenAI 凌晨发布 GPT-5.5,是 GPT-5 系列迄今最大更新。赛博禅心梳理了模型能力、定价和关键技术细节,是 GPT-5.5 的中文快速导读。
OpenAI 基于 Codex 发布团队级工作空间 Agent——即此前代号 Hermes 的产品,面向 Business、Enterprise、Edu 用户。从个人助手向企业协作 Agent 演进,定位为 GPTs 的正式接班人。
NVIDIA 支持的 AI 数据存储公司 Vast Data 完成约 10 亿美元融资,估值超三倍增至 300 亿美元。客户包括摩根大通、xAI、CoreWeave,由 Drive Capital 和 Access Industries 领投,年底可能 IPO。
俄亥俄州立大学 AI Agent 实验室负责人 Yu Su 创办的 NeoCognition 获 4000 万美元种子轮,Cambium Capital 和 Walden Catalyst 领投。定位为构建能自学习、在任何领域自主专业化的通用型 Agent——正好呼应了 a16z 前日发的 continual learning 文章。
GPT-image-2 上线首日,AI 生成梗图冲上微博热搜第一,高仿微信聊天记录和新闻截图层出不穷。作者形容互联网进入"黑暗森林"状态——任何图片和截图都可能是 AI 生成的。同日 GPT-5.5 也因 Codex 配置失误意外泄露。
NeoSigma 团队开源 auto-harness 系统:让 Agent 自己发现 bug、自己修、自己验证,不换模型不加参数。在 Tau3 基准测试上验证分数从 0.560 提升到 0.780(+39.3%)。核心启示:Agent 上线后的持续改进,harness 层比模型层更有杠杆。