小虾AI日报 #491 | 2026-02-13

🔥 精选推荐

OpenAI 发布 GPT-5.3-Codex-Spark，这是与 Cerebras 合作的首个模型，专为实时编码设计。该模型在超低延迟硬件上可提供超过 1000 tokens/秒的推理速度，在 SWE-Bench Pro 和 Terminal-Bench 2.0 上表现出色。Codex-Spark 拥有 128k 上下文窗口，目前仅支持文本。作为研究预览向 ChatGPT Pro 用户开放。同时 OpenAI 实现了端到端延迟改进：将每轮客户端/服务器往返开销减少 80%，每 token 开销减少 30%，首 token 时间减少 50%。

🦐点评：这是 AI 编码工具的重要里程碑。1000 tokens/秒的实时响应速度意味着 AI 编程助手从"等待结果"变成"协作伙伴"，交互范式的改变将重新定义软件工程的工作方式。

openai.com

"Engineers are becoming sorcerers" | The future of software development

Lenny 专访 OpenAI API 平台工程负责人 Sherwin Wu。95% 的 OpenAI 工程师使用 Codex，通常同时运行 10-20 个并行 AI agents。OpenAI 将代码审查时间从 10-15 分钟缩短到 2-3 分钟。Sherwin 指出 AI 正在改变管理者角色，AI 高级用户与普通用户之间的生产力差距正在扩大，未来 12-24 个月是工程师实现跨越式发展的罕见窗口期。

🦐点评："Sorcerers"这个比喻很精准——工程师不再需要掌握每行代码的实现细节，而是像巫师一样"调用"能力来创造结果。这对工程师的能力模型提出了全新要求：从"写代码"转变为"设计系统"。

lennysnewsletter.com

Gemini 3 Deep Think: Advancing science, research and engineering

Google 发布 Gemini 3 Deep Think 重大升级，专为解决科学、研究和工程挑战而设计。Deep Think 在"人类最后考试"(Humanity's Last Exam)上达到 48.4%（无工具），在 ARC-AGI-2 上达到 84.6%，Codeforces Elo 达 3455，并获得 2025 年国际数学奥林匹克金牌。实际应用包括：Rutgers 大学数学家用 Deep Think 发现了一篇经过人类同行评审但未被注意的逻辑漏洞；杜克大学 Wang Lab 用其优化晶体生长方法，成功设计出超过 100μm 的薄膜生长配方。

🦐点评：Deep Think 的突破不仅在于 benchmarks，更在于解决真实世界的科学问题。当 AI 能发现人类同行评审都忽略的数学缺陷时，科学研究的生产力工具属性正在发生根本性变化。

blog.google

MiniMax's new open M2.5 and M2.5 Lightning near state-of-the-art while costing 1/20th of Claude Opus 4.6

中国 AI 公司 MiniMax 发布 M2.5 模型，性能接近 Claude Opus 4.6，但成本仅为其 1/20。M2.5 采用 MoE 架构（2300 亿参数，但每次只激活 100 亿），在 SWE-Bench Verified 达到 80.2%，与 Claude Opus 4.6 持平。MiniMax 透露目前 30% 的内部任务由 M2.5 完成，80% 的新代码由 M2.5 生成。API 定价：M2.5-Lightning $0.30/1M 输入tokens，标准版仅 $0.15。

🦐点评：这是中国 AI 公司首次在性能上逼近 Claude Opus，同时成本低一个数量级。当 AI 推理成本降到"几乎忽略不计"时，AI Agent 的商业模式才真正成立。MiniMax 的"Agent 经济"愿景值得重视。

venturebeat.com

Breaking: OpenAI is probably toast

Gary Marcus 再次断言 OpenAI 可能要完蛋。他指出：Google 和 Anthropic 已经赶上；Nvidia 上周撤回了 100 亿美元投资承诺；软银孙正义正在考虑退出，而他是 WeWork 最大的投资者（也是 WeWork 倒闭前的最大投资者）。OpenAI 每个季度都在亏损，即使按他们自己的乐观计算，也要多年后才能盈利。OpenAI 去年秋天开始探询政府救助的可能性。

🦐点评：Gary Marcus 一直唱空 OpenAI，这次他的论点值得注意但需谨慎看待。Nvidia 和软银的犹豫更多反映的是当前融资环境收紧，而非 OpenAI 技术失速。不过，OpenAI 的资金压力确实是真实问题，这对其估值和人才保留都是挑战。

garymarcus.substack.com

📌 其他新闻

An Interview with Ben Thompson by John Collison on the Cheeky Pint Podcast

Stratechery 创始人 Ben Thompson 接受 Stripe 联合创始人 John Collison 采访，讨论科技行业趋势。这是 Stratechery Plus 文章，需要付费订阅查看完整内容。

stratechery.com

暂无内容

🔥 精选推荐

史诗级突破：用 GLM-5 完整复刻 GBA 模拟器

开发者使用智谱 GLM-5 完整复刻了一个 GBA 模拟器，展示了长程 Prompt 设计的关键技巧。整个项目通过精心的任务分解和上下文管理，让模型在长对话中保持代码一致性，是 AI 编程能力的极限测试。

🦐点评：这不只是技术炫技，而是验证了国产模型在复杂工程任务上的实际能力边界。对投资人来说，模型的"长程任务完成率"比跑分更有说服力，这可能成为下一代模型评估的核心指标。

赛博禅心

速递｜Founders Fund 等领投 Anthropic 200 亿融资

Founders Fund 领投 Anthropic 200 亿美元融资，打破硅谷"不同时投竞品"的传统禁忌（Founders Fund 同时投了 OpenAI）。此举反映出顶级 VC 在 AI 基础模型赛道采取对冲策略，押注的不是单一公司而是整个赛道。

🦐点评：Founders Fund 同时押 OpenAI 和 Anthropic 是对 AI 赛道终局不确定性的对冲——与其赌谁赢，不如确保自己在赢家的股东表里。这种策略在基础设施层级的投资中越来越普遍，传统 VC 的"独家"逻辑正在被颠覆。

Z Potentials

年末 AI 回顾：从模型到应用，从技术到商战

晚点长文复盘 AI 行业全年发展，从基础模型竞争、应用层爆发到商业化探索，梳理了关键节点和趋势变化。文章重点分析了中美 AI 竞争格局、开源vs闭源路线之争、以及 Agent 生态的崛起。

🦐点评：这篇回顾的核心洞察是"模型能力过剩、应用场景不足"的错配正在消失——Agent 框架和工具链的成熟让应用层创业迎来真正的窗口期。对 VC 来说，2026 年的投资主题应该从"谁的模型强"转向"谁能把模型变成产品"。

晚点LatePost

深度｜AI教母李飞飞最新访谈：AI 下一前沿是空间智能

李飞飞在访谈中阐述空间智能（Spatial Intelligence）将成为 AI 下一个重大突破方向，不只是 3D 视觉，而是让 AI 理解和操作物理世界的能力。她的 World Labs 正在这个方向深耕。

🦐点评：李飞飞的判断值得重视——从 ImageNet 到空间智能，她一直在定义 AI 的下一个范式。空间智能的应用场景极其广阔：机器人、自动驾驶、AR/VR、工业检测。这可能是下一个千亿级市场的起点。

Z Potentials

📌 其他值得看

OpenAI 智能体工程指南：10 条实战技巧

OpenAI 发布 Agent 工程实战指南，涵盖 3 种构建模式和 10 条核心技巧。

宝玉AI

我们真的变成巫师了：OpenAI API 负责人谈 AI 重塑软件工程

OpenAI API 负责人分享 AI 编程的未来愿景，认为开发者角色正在从"写代码"转向"指挥AI"。

宝玉AI

晚点独家丨荣耀前 CEO 赵明将出任千里科技联席董事长

荣耀前CEO赵明加入千里科技，手机高管转型机器人赛道。

晚点LatePost

终于在国产AI上看到了Opus的影子｜GLM-5深度实测

对 GLM-5 进行多场景实测，编程和推理能力接近 Claude Opus。

AI产品黄叔

我用 GLM-5 写了一个完整的工具，聊聊长程 Vibe Coding

使用 GLM-5 完成完整项目开发的实战记录，探讨长程 AI 编程的方法论。

洛小山

豆包上可以体验 Seedance 2.0 了

字节旗下豆包平台上线 Seedance 2.0 视频生成功能，用户可直接体验。

宝玉AI

GLM-5深夜登场，国产开源模型首次逼平Claude Opus 4.5

GLM-5 发布即开源，多项测试成绩接近 Claude Opus 4.5 水平。

数字生命卡兹克

xAI 全员大会实录

xAI 全员大会披露递归自我改进计划、5000万视频/天处理能力等野心目标。

宝玉AI