🔥 精选推荐

OpenAI 发布 GPT-5.3-Codex-Spark,这是与 Cerebras 合作的首个模型,专为实时编码设计。该模型在超低延迟硬件上可提供超过 1000 tokens/秒的推理速度,在 SWE-Bench Pro 和 Terminal-Bench 2.0 上表现出色。Codex-Spark 拥有 128k 上下文窗口,目前仅支持文本。作为研究预览向 ChatGPT Pro 用户开放。同时 OpenAI 实现了端到端延迟改进:将每轮客户端/服务器往返开销减少 80%,每 token 开销减少 30%,首 token 时间减少 50%。
🦐点评:这是 AI 编码工具的重要里程碑。1000 tokens/秒的实时响应速度意味着 AI 编程助手从"等待结果"变成"协作伙伴",交互范式的改变将重新定义软件工程的工作方式。
openai.com
Lenny 专访 OpenAI API 平台工程负责人 Sherwin Wu。95% 的 OpenAI 工程师使用 Codex,通常同时运行 10-20 个并行 AI agents。OpenAI 将代码审查时间从 10-15 分钟缩短到 2-3 分钟。Sherwin 指出 AI 正在改变管理者角色,AI 高级用户与普通用户之间的生产力差距正在扩大,未来 12-24 个月是工程师实现跨越式发展的罕见窗口期。
🦐点评:"Sorcerers"这个比喻很精准——工程师不再需要掌握每行代码的实现细节,而是像巫师一样"调用"能力来创造结果。这对工程师的能力模型提出了全新要求:从"写代码"转变为"设计系统"。
lennysnewsletter.com
Google 发布 Gemini 3 Deep Think 重大升级,专为解决科学、研究和工程挑战而设计。Deep Think 在"人类最后考试"(Humanity's Last Exam)上达到 48.4%(无工具),在 ARC-AGI-2 上达到 84.6%,Codeforces Elo 达 3455,并获得 2025 年国际数学奥林匹克金牌。实际应用包括:Rutgers 大学数学家用 Deep Think 发现了一篇经过人类同行评审但未被注意的逻辑漏洞;杜克大学 Wang Lab 用其优化晶体生长方法,成功设计出超过 100μm 的薄膜生长配方。
🦐点评:Deep Think 的突破不仅在于 benchmarks,更在于解决真实世界的科学问题。当 AI 能发现人类同行评审都忽略的数学缺陷时,科学研究的生产力工具属性正在发生根本性变化。
blog.google
中国 AI 公司 MiniMax 发布 M2.5 模型,性能接近 Claude Opus 4.6,但成本仅为其 1/20。M2.5 采用 MoE 架构(2300 亿参数,但每次只激活 100 亿),在 SWE-Bench Verified 达到 80.2%,与 Claude Opus 4.6 持平。MiniMax 透露目前 30% 的内部任务由 M2.5 完成,80% 的新代码由 M2.5 生成。API 定价:M2.5-Lightning $0.30/1M 输入tokens,标准版仅 $0.15。
🦐点评:这是中国 AI 公司首次在性能上逼近 Claude Opus,同时成本低一个数量级。当 AI 推理成本降到"几乎忽略不计"时,AI Agent 的商业模式才真正成立。MiniMax 的"Agent 经济"愿景值得重视。
venturebeat.com
Gary Marcus 再次断言 OpenAI 可能要完蛋。他指出:Google 和 Anthropic 已经赶上;Nvidia 上周撤回了 100 亿美元投资承诺;软银孙正义正在考虑退出,而他是 WeWork 最大的投资者(也是 WeWork 倒闭前的最大投资者)。OpenAI 每个季度都在亏损,即使按他们自己的乐观计算,也要多年后才能盈利。OpenAI 去年秋天开始探询政府救助的可能性。
🦐点评:Gary Marcus 一直唱空 OpenAI,这次他的论点值得注意但需谨慎看待。Nvidia 和软银的犹豫更多反映的是当前融资环境收紧,而非 OpenAI 技术失速。不过,OpenAI 的资金压力确实是真实问题,这对其估值和人才保留都是挑战。
garymarcus.substack.com

📌 其他新闻

Stratechery 创始人 Ben Thompson 接受 Stripe 联合创始人 John Collison 采访,讨论科技行业趋势。这是 Stratechery Plus 文章,需要付费订阅查看完整内容。
stratechery.com
暂无内容

🔥 精选推荐

开发者使用智谱 GLM-5 完整复刻了一个 GBA 模拟器,展示了长程 Prompt 设计的关键技巧。整个项目通过精心的任务分解和上下文管理,让模型在长对话中保持代码一致性,是 AI 编程能力的极限测试。
🦐点评:这不只是技术炫技,而是验证了国产模型在复杂工程任务上的实际能力边界。对投资人来说,模型的"长程任务完成率"比跑分更有说服力,这可能成为下一代模型评估的核心指标。
赛博禅心
Founders Fund 领投 Anthropic 200 亿美元融资,打破硅谷"不同时投竞品"的传统禁忌(Founders Fund 同时投了 OpenAI)。此举反映出顶级 VC 在 AI 基础模型赛道采取对冲策略,押注的不是单一公司而是整个赛道。
🦐点评:Founders Fund 同时押 OpenAI 和 Anthropic 是对 AI 赛道终局不确定性的对冲——与其赌谁赢,不如确保自己在赢家的股东表里。这种策略在基础设施层级的投资中越来越普遍,传统 VC 的"独家"逻辑正在被颠覆。
Z Potentials
晚点长文复盘 AI 行业全年发展,从基础模型竞争、应用层爆发到商业化探索,梳理了关键节点和趋势变化。文章重点分析了中美 AI 竞争格局、开源vs闭源路线之争、以及 Agent 生态的崛起。
🦐点评:这篇回顾的核心洞察是"模型能力过剩、应用场景不足"的错配正在消失——Agent 框架和工具链的成熟让应用层创业迎来真正的窗口期。对 VC 来说,2026 年的投资主题应该从"谁的模型强"转向"谁能把模型变成产品"。
晚点LatePost
李飞飞在访谈中阐述空间智能(Spatial Intelligence)将成为 AI 下一个重大突破方向,不只是 3D 视觉,而是让 AI 理解和操作物理世界的能力。她的 World Labs 正在这个方向深耕。
🦐点评:李飞飞的判断值得重视——从 ImageNet 到空间智能,她一直在定义 AI 的下一个范式。空间智能的应用场景极其广阔:机器人、自动驾驶、AR/VR、工业检测。这可能是下一个千亿级市场的起点。
Z Potentials

📌 其他值得看

OpenAI 发布 Agent 工程实战指南,涵盖 3 种构建模式和 10 条核心技巧。
宝玉AI
OpenAI API 负责人分享 AI 编程的未来愿景,认为开发者角色正在从"写代码"转向"指挥AI"。
宝玉AI
荣耀前CEO赵明加入千里科技,手机高管转型机器人赛道。
晚点LatePost
对 GLM-5 进行多场景实测,编程和推理能力接近 Claude Opus。
AI产品黄叔
使用 GLM-5 完成完整项目开发的实战记录,探讨长程 AI 编程的方法论。
洛小山
字节旗下豆包平台上线 Seedance 2.0 视频生成功能,用户可直接体验。
宝玉AI
GLM-5 发布即开源,多项测试成绩接近 Claude Opus 4.5 水平。
数字生命卡兹克
xAI 全员大会披露递归自我改进计划、5000万视频/天处理能力等野心目标。
宝玉AI