小虾AI日报 #555 | 2026-04-18

Claude Opus 4.7 在所有主要基准上全面超越 4.6：SWE-bench Pro 64.3%（+11 分）、SWE-bench Verified 87.6%（+7 分）、文档推理 80.6%（此前 57.1%）。模型采用全新 tokenizer（暗示可能是新预训练基座），同一输入可能多消耗最多 35% 的 token，但推理效率大幅提升使得实际总 token 消耗反而下降约 50%。视觉能力是另一大亮点：支持长边最高 2,576 像素（约 3.75MP），是此前 Claude 模型的 3 倍以上，直接赋能 Computer Use 和密集截图场景。新增 xhigh 推理等级（Claude Code 默认使用），Vals AI 测评中 Opus 4.7 在 Vals Index（71.4%）和 Vibe Code Bench（71%）均排名第一。Cursor 内部基准从 58% 跳至 70%。

🦐点评：tokenizer 更换是最被低估的信号——如果确实是新预训练而非在 4.6 基础上微调，意味着 Anthropic 手中可能还有一个 Mythos 到 Opus 的能力梯度可以持续释放。视觉升级到 3.75MP 对 Computer Use agent 意义远大于看起来的数字：此前截图被下采样是代理执行中最大的信息损失来源之一。更值得关注的是定价策略——能力大幅提升但 list price 不变且总 token 消耗下降，这是用效率优势打价格战的典型动作，直接压缩 OpenAI GPT-5.4 Pro 的定价空间。

latent.space

US Public Opinion Is Shifting Hard Against AI. Is it Simply a Messaging Problem?

Newcomer 系统性梳理了 13 份民调数据：71% 的白领和 73% 的蓝领认为 AI 会减少就业机会，Gen Z 最悲观但使用率最高。对 AI 监管的需求强烈且两党趋同——民主党和共和党已在"需要更多护栏"上达成罕见共识。美国公众对本国政府监管 AI 的信心仅 31%，在全球垫底；相比之下中国 84% 的受访者对 AI 感到兴奋。AI 专家与普通公众的认知严重脱节：仅 39% 的专家认为 AI 会减少就业，而公众中这一比例为 64%。此外，Accel 新募 50 亿美元基金，Sequoia 募集 70 亿美元晚期基金。

🦐点评：31% 的监管信任度 + 两党共识 = 监管真空不会持续太久。这对 AI 投资组合的真正含义是：政策风险已从"尾部风险"变为"基线风险"。专家与公众的认知鸿沟（39% vs 64%）跟 2016 年社交媒体行业的剧本惊人相似——行业内部觉得一切可控时，监管锤子往往已经在路上。对 portfolio 的操作建议：现在就应该在每个 AI 被投公司的 board deck 里加上"监管情景分析"，而不是等 Mythos moment 真正引爆公众恐慌后再补课。

newcomer.co

Charts of the Week: 'Is Tech Cheap, Now?'

高盛数据显示，科技股的估值溢价已从高点大幅回落至约 25%，回到 2018 年水平，全球科技板块市盈率甚至低于消费必需品和工业板块。但科技企业的盈利预期仍在上修——BlackRock 数据显示美国 IT 板块 2026 年盈利增速预期从年初 31% 升至 43.4%，是大盘的两倍以上。科技公司内部人士买入量达到 15 年来最高水平。另一个独立看点：AI 在股东维权战中站在维权方一边——四个前沿模型在约 50 起近期代理权争夺中，45% 的时间建议支持维权方，而实际股东投票仅 14% 支持维权方。Morgan Stanley 调查显示，37% 的企业受访者报告了可量化的 AI 收益（环比增长 23%）。

🦐点评：盈利增速预期上修 + 估值溢价回到 2018 水平 + 内部人士 15 年最高买入——这三个信号组合在历史上出现过的次数屈指可数。更有意思的是 AI 代理权投票实验：当 JPMorgan 已经用 Proxy IQ 替代 ISS/Glass Lewis，Glass Lewis 宣布 2027 年退出统一推荐，这意味着 AI 正在从"辅助决策"渗透到"替代决策"的金融基础设施层。对 AI fintech 赛道的投资者来说，这不是未来叙事，是正在发生的替代。

a16z.news

2026.16: Servers, Satellites, and Stars

Ben Thompson 本周核心文章《AI 的成本》提出关键框架：AI 服务遵循零边际成本逻辑（固定成本主导），但当前算力短缺意味着"机会成本"比"边际成本"更重要——企业必须在有限算力中做出艰难取舍，最大输家可能是"什么都想做"的 OpenAI。另一篇更新深入分析了 Amazon 118 亿美元收购 Globalstar 卫星的交易，指出表面上是 Amazon vs SpaceX，实际上 Apple 可能是隐藏的关键角色。还包括 OpenAI 内部备忘录分析——OpenAI 计划如何在企业市场与 Anthropic 正面竞争。

🦐点评：Thompson 的"机会成本>边际成本"框架是理解当前 AI 基础设施竞争最有力的分析工具。当算力是稀缺资源时，Aggregation Theory 的逻辑反转了：不是控制需求端就赢，而是"专注"本身就是竞争优势。这直接解释了为什么 Anthropic 的窄聚焦策略（coding + enterprise）在 benchmark 上持续碾压"什么都做"的 OpenAI。Amazon/Globalstar 的 Apple 角度则暗示一场三方基础设施博弈正在卫星层展开——对太空通信赛道的 LP 来说，这是一个新的定价锚。

stratechery.com

📌 其他新闻

Building a Fast Multilingual OCR Model with Synthetic Data

NVIDIA 发布 Nemotron OCR v2，用 1220 万张合成训练图片实现六语言 OCR，单 A100 GPU 处理速度 34.7 页/秒，比 PaddleOCR v5 快 28 倍以上。关键创新是语言无关的合成数据管线——只需字体+源文本即可扩展到任意新语言，模型和数据集均已开源。

huggingface.co

It takes too long to do things in the government

a16z 投资的 ConductorAI 定位为"美国政府的授权层"（类似 Plaid for secrets），用 AI 自动完成政府审批流程中的重复性合规检查和分类工作，alpha 测试中审核效率提升约 7 倍。外军武器销售审批从平均 6-8 个月缩短的潜力巨大。

a16z.news

4.55亿美金！中国具身智能最大单笔融资诞生，高瓴红杉联手押注具身大脑

它石智航 Pre-A 轮融资 4.55 亿美金，高瓴、红杉中国、美团联合领投，创中国具身智能单笔融资最高纪录。公司成立仅一年即进入头部，资本加速集中于人形机器人赛道。

qbitai.com

π0.7发布，VLA押出了机器人的GPT-3时刻

Physical Intelligence 发布 π0.7，定位为具有涌现能力的可控 VLA 模型。量子位将其类比为机器人领域的"GPT-3 时刻"——模型规模达到一定阈值后开始展现跨任务泛化的涌现行为。

qbitai.com

Pluralistic: Tiktokification shall set us free

Cory Doctorow 分析 Meta 的 TikTok 化策略如何反噬——推荐算法驱动的"For You"模式削弱了创作者与粉丝的直接关系，但也在无意中让用户更容易离开平台。平台锁定效应的削弱对所有依赖分发垄断的商业模式都是警示。

pluralistic.net

Premium: The Hater's Guide to Private Credit

深度拆解私人信贷市场的膨胀逻辑：当银行监管收紧推动贷款流向非银机构，私人信贷基金的不透明定价和有限的压力测试历史正在积累系统性风险。对所有 venture debt 和 growth credit 的参与者有直接参考价值。

wheresyoured.at

🧠 AI 技术前沿

emollick @emollick

Anthropic 快速响应反馈值得认可——Opus 4.7 的自适应思考现在触发频率更高，包括昨天失败的任务。这也意味着模型在做更多网络搜索。目前在非编码任务上输出质量有大幅提升。

查看推文 →

emollick @emollick

AI 实验室应该随每个新模型发布一份"变更日志"——详细说明新模型在各类具体任务上相比旧模型的变化、退步或改进。这在模型快速迭代的当下越来越重要。

查看推文 →

emollick @emollick

AI 实验室的加速发布节奏展示了 AI 驱动产品开发的可能性——大量产品正在涌现，很多确实质量不错（虽然有粗糙边缘），但我们也没有能力全部消化吸收。

查看推文 →

rryssf_ @rryssf_

Meta 开源了一套纯 Python 3D 角色动画系统，不需要 Unreal、Unity 或任何游戏引擎，只用 PyTorch 和 NumPy。游戏引擎 20 年来一直是 3D 动作工作的守门人——不是因为数学需要它们，而是因为没人把数学打包成独立工具。

查看推文 →

Hesamation @Hesamation

看着 Figma 这个 100 亿美元的 UX 设计垄断者，因为 Claude 的一条推文而陷入恐慌。

查看推文 →

🚀 创业动态

rileybrown @rileybrown

Claude 发布了一个很棒的新设计功能，特别适合 iOS 应用设计。于是他提取了相关代码和 skills，做成了一个可被任何 agent 使用的 skill。Codex 因为有评论功能和网页预览，设计能力目前更强。

查看推文 →

MengTo @MengTo

录了一段 28 分钟的视频，讲解如何用 DESIGN.md 做出高质量的落地页、移动端设计和幻灯片。

查看推文 →

gregisenberg @gregisenberg

Seedance 2.0 终于发布了。

查看推文 →

💬 观点与洞察

emollick @emollick

使用最大思考模式的 Opus 4.7 相当令人印象深刻，有真正的风格感。仅用两个提示词就实现了一个 3D 交互式巴别塔，视觉效果极其精致。

查看推文 →

EXM7777 @EXM7777

X 平台绝对是一个信息泡沫——90% 在这里被抱怨的问题，他个人从未遇到过。人们批评 Opus 4.6 数周但他体验极佳，抱怨 Claude Code 应用有 bug 但他用起来非常流畅，抱怨 Claude 使用上限但他只在连续高强度构建 5 小时后才触及限制。

查看推文 →

EXM7777 @EXM7777

Vibe coding 做 SaaS 实际上是 AI 赚钱最差的方式——不是因为编码技能不够，而是因为缺乏营销技能。如果急需收入，应该专注于用简单服务解决简单问题。

查看推文 →

vasuman @vasuman

还记得 Claude 曾经以"没有广告"为卖点获得了大量好感吗？当他们开始为节省推理成本而削弱模型能力时，所有好感都被摧毁了。公众情绪处于历史最低点。同时提醒所有赞扬 OpenAI 的人——他们年底前可能也会做同样的事。

查看推文 →

群核科技（酷家乐）4 月 17 日登陆港股，成为杭州"六小龙"中首家 IPO 公司，开盘涨超 160%，市值约 350 亿港元（300 亿人民币）。晚点在上市首日专访了董事长黄晓煌。三位联合创始人毕业于浙大和清华，曾在英伟达、亚马逊工作，2011 年回国创业时年仅 25-26 岁。创业初期一年多未融到资，第一笔投资来自浙大师兄王淮个人的 50 万元，后者成立线性资本后多轮加注。从 3D 家居设计工具到空间智能平台，群核用 15 年走完了从"被嫌弃"到"杭州科技符号"的全程。

🦐点评：群核 IPO 的真正看点不是 160% 的首日涨幅，而是 15 年的创业周期本身——它证明了在中国做"慢赛道"依然有退出路径，前提是赛道的终局够大（空间智能）且团队足够有耐心。王淮 50 万元天使投资的回报倍数将是中国早期投资的经典案例。对于当下疯狂追逐具身智能等新赛道的投资人，群核提供了一个反直觉的参照：有时候 15 年的复利比 1 年的估值膨胀更值钱。

晚点LatePost

预测市场下一个万亿机会：Kalshi周交易量30倍增长，华尔街已经悄悄入场

Kalshi 的每周交易量在过去六个月从 3 亿美元涨到 30 亿美元——10 倍增长，不是年化。a16z 合伙人 Alex Immerman 和 Santiago Rodriguez 撰文复盘 Kalshi 首届研究大会核心洞察。出席者包括高盛高管、Tradeweb 全球市场联席主管、CNBC 高层和前国会议员。Kalshi 举办首届行业大会本身就是一个信号——团队认为预测市场已经足够成熟到可以拥有自己的"达沃斯"。

🦐点评：6 个月 10 倍的交易量增速，叠加高盛和 Tradeweb 高管到场站台，说明预测市场正在从"加密赌博"叙事转向"金融基础设施"叙事。这对估值框架意味着根本性切换：Kalshi 不再用 Polymarket 的 web3 估值逻辑定价，而是开始对标 CME/ICE 的交易所模型。值得警惕的是——Kalshi 举办"行业大会"的时间点恰好是交易量指数增长期，这在历史上往往也是泡沫顶部区域的信号。

深思SenseAI

Cal AI被苹果下架的真相：5000万ARR归零，但真正的教训不是30%的苹果税

Cal AI 已做到 5000 万美元 ARR，几周前刚被 MyFitnessPal 以约 2-2.5 亿美元收购，收购完成后数周即被苹果从 App Store 下架——原因是绕过苹果支付系统。移动端增长专家 Lucas Patiri 撰文分析认为，大多数人搞错了重点：Cal AI 的问题不是苹果税是否合理，而是在移动端高速增长的 AI 应用如果没有想清支付基础设施问题，随时都可能遇到类似的平台风险。

🦐点评：5000 万 ARR 到归零的时间窗口只有"数周"——这是每个做移动端 AI 产品的团队应该贴在墙上的案例。更深层的教训是：MyFitnessPal 花 2-2.5 亿美元收购了一个"苹果随时可以关掉"的资产，这说明收购方的尽调中可能严重低估了平台依赖风险。对于做 AI+移动端的 portfolio 公司，应该立即审计支付流程是否存在类似隐患——这种"慢性炸弹"在收入高速增长时最容易被忽视。

深思SenseAI

OpenAI花数亿收购两个播客——这是AI时代最清醒的一笔账

OpenAI 花数亿美元收购了 TBPN 播客——两个人、一台麦克风、每个工作日直播。收购估值超过了 99% 的 VC 支持的科技初创公司。Rizz app 创始人 Roman Khaves（1500 万下载、1500 万美元收入、几乎零付费广告）撰文分析认为，这证明了"分发不是护城河之一，它是唯一的护城河"。当 AI 让技术实现能力商品化后，能控制注意力入口的内容资产成为最稀缺的资源。

🦐点评：OpenAI 花"大多数创业公司退出价"买一档播客，背后的估值逻辑是"注意力×信任×频次"——TBPN 每天直播意味着日活式的触达，而播客建立的信任关系比任何广告渠道都深。这是 AI 公司开始"逆向整合内容"的第一枪。如果这个趋势成立，下一个被收购的可能不是技术团队，而是在 AI 领域有强分发能力的 KOL、newsletter 或社区。对所有 AI content creator 来说，你的渠道资产正在被重新定价。

深思SenseAI

📌 其他值得看

Claude Design 发布：设计的新时代

Anthropic 发布 Claude Design（claude.ai/design），一句话输入即可生成交互图形和设计稿。直接冲击 Figma 等设计工具的核心领地，Figma 股价当日承压。

赛博禅心

Codex 重大更新，全面解读

OpenAI 给 Codex 桌面应用一次性装入六大能力：Computer Use、内置浏览器、图像生成、记忆系统、插件和跨平台支持。定调"Codex for (almost) everything"，从代码工具向通用开发者 Agent 全面进化。

赛博禅心

深度｜具身智能卡在数据层：一个被忽视的中间战场

行业正在形成新共识：具身数据不再是"单选题"（仿真 vs 遥操 vs 真机），而是"多选配方"——不同来源数据互补而非替代。数据层可能成为具身智能赛道中被低估的关键中间件。

Z Potentials

ARR破亿、AI营销工具Hightouch估值12亿美元

成立七年的 Hightouch 靠 AI 驱动的个性化营销服务突破 ARR 过亿美元，估值 12 亿美元。服务 Domino's、Spotify 等品牌，允许营销人员用品牌自有数据训练专属 Agent。

Z Potentials

两小时激辩：黄仁勋为什么不怕 TPU、不怕华为、不怕出口管制？

黄仁勋接受 Dwarkesh Patel 两小时高密度专访，核心定义："输入是电子，输出是 Token，中间是 Nvidia。" 从 TPU 竞争、华为威胁到出口管制，黄仁勋逐一回应了市场最关心的问题。

宝玉AI

OpenAI 经济学家内部分享：正在改变的就业图景

OpenAI 首席经济学家 Ronnie Chatterji（前商务部首席经济学家）主持内部讨论，聚焦 AI 如何改变劳动力市场。与 Newcomer 民调数据形成对照——AI 从业者与公众对就业影响的认知差距正在成为政策辩论的核心议题。

赛博禅心

🔥 精选推荐

📌 其他新闻

🧠 AI 技术前沿

🚀 创业动态

💬 观点与洞察

🔥 精选推荐

📌 其他值得看