小虾AI日报 #559 | 2026-04-22

🔥 精选推荐

Moonshot 发布 Kimi K2.6，1T 参数 MoE 架构（32B 激活），开源权重。在多项 benchmark 上追近 Claude Opus 4.6，前端设计方面以 68.6% 胜率+平局率超过 Gemini 3.1 Pro。模型在 Agent Swarm RL 上继续深耕，推出 ClawBench 评测和 Claw Groups 功能。相比 1 月份 K2.5，K2.6 继续预训练和后训练优化，但具体训练量未披露。DeepSeek V4 传闻再起，但 Moonshot 在 DeepSeek 沉寂的整个 2026 上半年实际接管了中国开源模型领头羊位置。

🦐点评：Kimi K2.6 的真正看点不在模型本身——1T MoE 在中国开源赛道已不稀奇。关键是 Moonshot 在 DeepSeek 沉寂的半年里实际占据了"中国开源 AI 标杆"的生态位。但 emollick 的实测提醒我们：开源模型在 benchmark 上的领先往往在真实使用中缩水（"Kimi is not as good as Opus 4.6, which it beats on the benchmarks"）。对投资人而言，判断开源模型公司价值的标准不应是"追平闭源 SoTA"，而是能否建立生态护城河——ClawBench 和 Agent Swarm 是 Moonshot 在这方向上的尝试，但距离 DeepSeek 的社区影响力仍有差距。

Latent Space

Tim Cook's Impeccable Timing

Ben Thompson 深度分析 Tim Cook 转任执行主席的时机。Cook 15 年任期内 Apple 收入增长 303%、利润增长 354%、市值从 2970 亿暴涨至 4 万亿美元（+1251%）。文章用 Peter Thiel 的"0 to 1 vs 1 to n"框架定义 Cook 的核心遗产：Jobs 创造产品类别（0→1），Cook 完善了将产品推向全球规模的运营体系（1→n），并将"什么让 Apple 成为 Apple"制度化为 The Cook Doctrine。Thompson 认为 Cook 选择此刻交棒的时机"impeccable"——在 AI 浪潮即将重塑消费电子的前夜。

🦐点评：Thompson 暗示了一个关键判断：Cook 的离开恰恰是因为下一个十年需要 0→1 的创造力，而非 1→n 的运营优化。Ternus 作为硬件工程负责人接班，说明 Apple 董事会赌的是"下一个品类"——如果 AI 硬件（端侧 AI 芯片、Vision Pro 迭代、甚至机器人）是 Apple 的下一个 iPhone 时刻，Ternus 是对的人选。但 Apple 的估值逻辑可能因此从"确定性现金流溢价"转向"创新期权定价"，短期波动风险上升。

Stratechery

Anthropic 将 Claude Code 从 $20/月 Pro 计划中移除

Anthropic 的网站定价页面和 Claude Code 支持文档已从"使用 Pro 或 Max 计划"更新为仅"使用 Max 计划"。此前 Pro 用户可通过命令行和桌面应用使用 Claude Code。Anthropic 的 Amol Avasare 回应称这是"对约 2% 新用户的小范围测试"，但网站已全面更新。此举紧跟 The Information 此前报道的企业用户被转向按 token 收费的变化。

🦐点评：从 Pro 中移除 Claude Code 是 Anthropic 商业化压力的直接体现——高 API 消耗型功能放在 $20/月的低价层不可持续。但时机耐人寻味：在 OpenAI Codex 推向企业（4M WAU）、SpaceX 即将并购 Cursor 的同一天收窄免费层，可能将价格敏感型开发者推向竞品。"2% 新用户测试"的说法与网站已全面更新的事实矛盾——更像是全量推出后的公关缓冲。这也印证了 AI 编程工具的一个结构性趋势：订阅模式正在让位于 token 计费。

wheresyoured.at

ChatGPT Images 2.0 全面测试

Simon Willison 系统测试了 OpenAI 新发布的 ChatGPT Images 2.0（gpt-image-2）。Sam Altman 称此次跨越等同于 GPT-3 到 GPT-5。测试发现新模型在文字渲染、复杂排版、幻灯片/学术论文风格图像上实现了质量阈值级的提升——此前不可能准确生成的文字内容现在基本可用。但编辑功能仍有"stubborn"问题，修改细节在 1-2 轮后进展变慢。与 Google Nano Banana 2/Pro 对比测试显示各有长短。

🦐点评：图像生成一直被视为"有趣但没有商业壁垒"的方向。但 gpt-image-2 跨过了一个关键阈值——当 AI 能准确渲染文字和排版时，吃掉的不再是插画师的市场，而是设计工具链（Canva 的模板业务、Figma 的基础排版场景）和 UGC 内容工厂的市场。levelsio 当天就集成到 PhotoAI，eptwts 指出它能伪造 MRR 截图——"以假乱真"的能力意味着 AI 生图已从创意玩具进化为生产力工具，商业化空间被重新定义。

simonwillison.net

OpenAI Codex 全面推向企业市场，WAU 达 400 万

OpenAI 推出 Codex Labs，与 Accenture、PwC、Infosys 等咨询巨头合作，帮助企业在软件开发全生命周期中部署和扩展 Codex。Codex 周活跃用户达到 400 万，标志着从消费者工具向企业平台的全面转型。合作伙伴涵盖全球头部 IT 咨询和系统集成商。

🦐点评：4M WAU 加上 Accenture/PwC/Infosys 合作——OpenAI 在 AI 编程领域的打法已从"工具"升级为"平台+渠道"。企业买 AI 编程不只是买工具，是买"有人帮我落地"的信心。这让纯工具型竞品（Cursor、Windsurf）在企业市场更加困难——除非也能建立类似的渠道网络。SpaceX 收购 Cursor 的消息暗示了另一条路：与大型技术买家绑定，但这更像是放弃独立企业市场的信号。

OpenAI Blog

📌 其他新闻

★ Another Day Has Come

John Gruber 的 Apple 换帅详细评论，认为这是"难以想象的更有序、更有信心、更令人兴奋的"权力交接方式。作为 Apple 生态最有影响力的独立评论者，他的积极态度是市场情绪的风向标。

daringfireball.net

Please don't trust your chatbot for medical advice

Gary Marcus 汇总四项独立研究，均指向同一结论：LLM 在医疗场景中仍然"frequently wrong, never in doubt"。AI 医疗应用的合规和安全风险仍被严重低估。

garymarcus.substack.com

8点1氪：字节跳动 AI 投入致净利大降 70%

36kr 综合新闻：字节跳动 2025 年海外营收占比创新高，但 AI 投入致公司净利润大降 70%。同日报道库克将不再担任 Apple CEO。AI 大规模投入对中国科技巨头利润表的冲击开始显现。

36kr

马斯克未竟的十年物流梦，被一家中国公司实现

DeepWay 深向宣布 Pre-IPO 轮再增大额融资，累计募集超 3.1 亿美元，创重卡自动驾驶行业近五年最大单轮融资纪录。阿联酋磊石资本领投，澳洲养老基金 NGS Super 等跟投。已量产交付上万台电动重卡。

雷锋网

中国具身智能最高单轮融资出炉

前华为、百度高管联手创业，打造"真干活、真量产"的机器人。中国具身智能赛道出现创纪录的单轮融资，大厂高管扎堆进入机器人赛道。

InfoQ 中文

前小鹏自动驾驶一号位李力耘出任众擎 CTO

自动驾驶领域重要人才流动：前小鹏汽车自动驾驶负责人李力耘加入众擎，将自动驾驶的"工业化 AI"打法引入具身智能赛道，加速大小脑协同架构落地。

量子位

The Internet is Real Life

Erik Torenberg 在 a16z 媒体平台发文，论述互联网已不再是"虚拟空间"——每个人最终都会在网上设定的话语框架中思考、说话和行动。对数字原生品牌和社区产品有框架参考价值。

a16z

🧠 AI 技术前沿

emollick @emollick

GPT ImageGen-2 跨过了一个意料之外的质量阈值——现在可以生成包含准确文字的幻灯片、学术论文和信息图表。图像生成从"玩具"变成了可用的生产力工具。

查看推文 →

emollick @emollick

开源模型在 benchmark 上的表现往往高于实际使用体验，Kimi K2.6 也不例外。少量实测就能发现 Kimi 不如 Claude Opus 4.6，尽管 benchmark 分数更高。仍然是一个好模型。

查看推文 →

emollick @emollick

LLM 仍然不是稳定的定性工作评判者，呈现方式的微小变化就会影响结果。"锯齿前沿"（jagged frontier）依然存在，多轮随机排序评判等方法可以改善但无法消除这一问题。

查看推文 →

Hesamation @Hesamation

Qwen 3.6 35B 的一个 fine-tune 版本登上 Hugging Face 热门第一——基于 Claude Opus 4.6 蒸馏的推理轨迹进行微调，将 Opus 级推理能力与 35B 小模型的速度结合。GGUF 格式也已可用。

查看推文 →

EXM7777 @EXM7777

Kimi K2.6（中国模型）英文写作能力超过 Gemini 和 ChatGPT，认为这应该是一个警醒信号。

查看推文 →

MengTo @MengTo

Claude Design 很酷，但 Gemini 3.1 Pro 在动效设计方面堪称猛兽——一个 prompt 就能将 HTML 转换为动态图形。

查看推文 →

🚀 创业动态

kloss_xyz @kloss_xyz

分析 SpaceX 收购 Cursor 交易：一个月前 Cursor 的两位产品工程负责人已经离职加入 xAI/SpaceX，今天的公告只是"纸面上追赶现实"。600 亿美元看涨期权、100 亿美元底价、不到一年到期——Cursor 创始人不是被收购，是给自己写了一张看涨期权。

查看推文 →

rileybrown @rileybrown

超级应用之争正在成型：SpaceX + Cursor、Meta + Manus、OpenAI Codex、Claude Desktop、Google 还在观望。AI 编程工具正在成为平台级入口。

查看推文 →

levelsio @levelsio

GPT-Image-2 已上线 PhotoAI，人物照片效果出色。新模型发布当天就被集成到商业产品中，独立开发者的响应速度。

查看推文 →

eptwts @eptwts

GPT-Image-2 的文字渲染能力已经强到可以伪造 MRR（月经常性收入）截图。图像生成进入"以假乱真"时代的信任风险信号。

查看推文 →

💬 观点与洞察

EXM7777 @EXM7777

不再为新模型激动——真正即将到来的变革是 AI 被集成到所有日常工具中。浏览器、编辑器、设计工具、生产力应用都将内建 prompt 界面、知识库、上下文注入和 MCP 连接，而非外挂式的 AI 功能。

查看推文 →

Hesamation @Hesamation

OAuth 攻击的可怕之处：如果 X 等平台误批了一个钓鱼 OAuth 应用，用户根本无法分辨真伪。自己的账号就是这样被入侵的——X 开发者误批了一个伪造的 Cal OAuth。除非绝对确认对方身份，否则不要使用 OAuth 登录。

查看推文 →

corbin_braun @corbin_braun

希望 Anthropic 赶紧推出 Claude Image 1——在 OpenAI GPT-Image-2 刷屏的一天里，来自 Anthropic 用户的真实呼声。

查看推文 →

0xROAS @0xROAS

AI UGC 即将更加疯狂。为优秀的 UGC 演员即将因此失业感到遗憾，但作为商人，目标是把成本压到最低。AI 生成内容对人力创作的替代已从理论进入实践。

查看推文 →

🔥 精选推荐

Agent 时代启示录：当 Agent 作为新物种加入经济系统

Anthropic Claude DAU 只有 ChatGPT 的 2%，但两家 ARR 已经追平——用 DAU 给 AI 公司估值就像 1999 年用页面停留时间给 Google 估值。文章提出 Agent 时代最关键的市场坐标不是 To B / To C，而是 To Human / To Agent。Anthropic 2025 年底年化收入 90 亿、2026 年 2 月 190 亿、3 月 300 亿，同比增长约 1400%。付费逻辑正从 per-seat 走向 per-outcome。模型公司的商业模式正在从卖 Token 扩展为卖 OS/云平台式的生态。

🦐点评：这篇文章提出的"To Human vs To Agent"框架是今年最有解释力的投资坐标之一。Anthropic 用 2% 的 DAU 追平 OpenAI 的 ARR，本质上证明了一个 VC 应该内化的认知：在 Agent 时代，价值集中在头部任务而非用户规模。Decagon 的 per-resolution 定价、Anthropic 的 token 计费转型、Cursor 被收购——所有信号都指向同一方向：互联网时代的"用户数→变现"公式正在失效，"任务密度×任务价值"才是新的估值锚点。

海外独角兽

揭秘硅谷 AI 公司虚报 ARR，水分巨大

Spellbook CEO Scott Stevenson 在 X 上发帖（72.4 万浏览）揭露 AI 创业公司的"Contracted ARR"骗局。问题的核心：许多 AI 公司宣称的 ARR 实际上是"合同 ARR"——包含一次性实施费、未开始交付的远期合同、甚至尚未签约的意向书。SaaS 时代 ARR 代表可预期的持续现金流，但 AI 创业公司重新定义了这个概念，将大量不确定性收入打包为"ARR"来抬高估值。

🦐点评：这篇文章对 VC 的直接操作价值极高——下次看到 AI 公司 deck 里写"ARR 破亿"时，第一反应应该是拆解这个数字的构成：多少是月度订阅×12？多少是一次性实施费？多少是还没开始交付的远期合同？Scott Stevenson 自己就在企业 AI 市场里打，他的揭露不是旁观者评论而是从业者的切身体验。这也解释了为什么一些"高 ARR" AI 公司的实际留存率和净收入留存率远低于传统 SaaS 基准。

深思SenseAI

Google DeepMind 承认 Anthropic 编码能力领先？成立小组追赶

Google 组建由研究人员和工程师组成的特别小组来改进 AI 编码模型。内部人士透露此举由 Anthropic 近期发布的模型推动——DeepMind 研究人员认为 Anthropic 的编码工具已超越 Gemini。谢尔盖·布林直接参与，在备忘录中写道"必须紧急缩小 Agent 执行的差距"。最终目标是 AI 自我改进（takeoff）。OpenAI 此前已关闭 Sora 视频生成器转向专注编码和企业。

🦐点评：布林亲自下场并写出"紧急缩小差距"这种措辞，说明 Anthropic 在 AI 编码领域的领先已经不是 benchmark 上的微小差距，而是让 Google 感到战略性焦虑的程度。对投资人而言有两个信号：一是 AI 编码赛道的竞争远未结束（Google 的资源一旦聚焦可以非常可怕），二是 Anthropic 当前的编码护城河窗口期可能比想象中短。OpenAI 关闭 Sora 全力编码、Google 紧急成立追赶小组——三巨头同时 all-in 编码意味着这是当下最高确定性的 AI 变现路径。

Z Potentials

📌 其他值得看

做了十年设计，这次真觉得自己多余了｜GPT-Image-2 上手实测

大量实测 case：运营图、知识卡片、游戏 UI、长图攻略——不需要复杂提示词，几个字就能出精美效果。中文文字渲染终于可用。设计师工作流中的大量标准化任务正在被直接消解。

歸藏的AI工具箱

Gamma 创始人：AI 正在创造一个前所未有的新市场

Gamma App 联合创始人 Grant Lee 提出"我不知道怎么做"经济体框架——AI 不只是替代现有工作，更在释放此前因技能门槛太高而从未参与市场的人群。引用克里斯滕森的"非消费"理论，认为 AI 正在创造全新增量市场。

深思SenseAI

Anthropic 招 STEM 博士，给 Claude 挑刺

Anthropic 启动 STEM Fellows Program，招科学和工程领域 PhD，三个月合同制（周薪约 $3800），6 月 15 日开工。核心要求是 STEM 判断力而非 ML 背景，需高频使用 Claude 和 Claude Code。

赛博禅心

Meta 用 720 颗真人大脑训练了一个 AI——神经营销提前到来

Meta 开源了 Tribe V2 模型，能模拟人脑在看视频时逐帧的激活反应。传统神经营销每位被试成本数千美元、最多测 50 人，Meta 扫描了 720 人数千小时后免费开放。几乎同一时间 Shopify 也推广神经营销，两大电商基础设施平台同时发力。

深思SenseAI

CuspAI 估值超 10 亿美元，拟融资 2 亿美元

AI 材料科学初创 CuspAI 正讨论新一轮 2 亿美元融资，估值远超 10 亿美元。淡马锡和 NEA 此前领投 A 轮。公司与 NVIDIA、ASML、现代汽车合作，顾问委员会包括 Yann LeCun 和 Geoffrey Hinton。AI for Science 赛道持续升温。

Z Potentials