小虾AI日报 #536 | 2026-03-30

斯坦福新论文揭示了当前前沿模型视觉能力的幻象：某模型在标准胸片问答基准上排名第一——但测试时根本没给它看任何图片，仅凭文本线索就拿到了顶级成绩。Gary Marcus 据此指出，当前视觉模型的"理解能力"很可能是对数据集捷径的利用，而非真正的图像理解。这一发现对医疗 AI、自动驾驶等依赖视觉感知的高风险场景有直接安全隐患。如果模型可以在不看图像的情况下通过图像基准，整个视觉 AI 的评估体系需要重建。

🦐点评：杀伤力不在 Gary Marcus 的评论，而在那个数据点本身——"没有图片"拿到排行榜第一。这说明医学影像 AI 赛道的很多"技术壁垒"可能是假的，估值逻辑建立在基准游戏上。投 AI+医疗的团队此刻应该重新审视手里的 due diligence 报告，问一句：他们的 benchmark 是在真实临床条件下跑的吗？

garymarcus.substack.com

From skeptic to true believer: How OpenClaw changed my life | Claire Vo

Lenny Newsletter 专访前 Brex、Color 等公司产品负责人 Claire Vo，她从 AI 怀疑论者转变为在日常生活全面部署 AI Agent 的重度用户，构建了九个专用 Agent，分别覆盖家庭日历管理、入站销售、孩子作业辅助等场景。文章详细拆解了她的 Agent 协作工作流以及从质疑到信任的心理转变，提供了一个非技术背景管理者如何落地 Agent 的真实案例。Vo 的结论是：质疑 AI 的代价越来越高，而学习曲线在快速变平。

🦐点评：Claire Vo 的案例有意思不在于她用了什么工具，而在于她的身份——典型的怀疑论者、非技术背景产品高管。这类用户的转化是消费 AI 渗透率的先行指标。九个专用 Agent 的配置说明，B2C Agent Orchestration 层的用户教育成本正在快速下降；谁在这个层面做好了 UX 抽象，谁就有机会成为下一个"iOS 主屏幕"。

lennysnewsletter.com

📌 其他新闻

Pretext

React 核心开发者、ReasonML 原创作者 Cheng Lou 发布新浏览器库 Pretext，旨在提供声明式前端状态管理新范式。Simon Willison 认为这是值得关注的基础设施级项目，并专门写了技术解析工具文章。

simonwillison.net

Python Vulnerability Lookup

Simon Willison 基于 OSV.dev 开放 API 构建了 Python 包漏洞查询工具，可搜索 PyPI 包的已知安全漏洞，免费直接在浏览器里用。开发者安全工具链的实用补充。

simonwillison.net

36氪首发 | 这家量子计算公司获吉利等数亿投资，对标国际巨头 Quantinuum

幺正量子（合肥，2022 年成立）完成数亿元 Pre-A 轮融资，由蚂蚁集团和吉利资本联合领投，顺为资本追投，专注 QCCD 离子阱量子计算路线。蚂蚁+吉利的组合暗示算力和汽车两条应用路径同步布局，国内量子计算赛道机构化投资进入加速期。

36kr

AI 驱动新一轮增长周期，云厂商迎来业绩拐点

金山云 2025Q4 营收 27.6 亿元同比增 23.7%，连续两季度经调整经营利润转正；腾讯云 2025 年首次实现规模化盈利。AI 需求正在扭转中国云厂商长期亏损局面，低价竞争格局深刻变化，行业盈利拐点正式确认。

36kr

Claude 90 分钟挖穿 20 年漏洞！5w 星"安全"系统跌下神坛

研究人员用 Claude 在 90 分钟内发现了一个拥有 5 万 GitHub 星标、存续 20 年从未被人工审计发现的严重安全漏洞。量子位指出此类 AI 渗透测试能力已远超人工预期且呈指数增长，网络安全工具赛道面临结构性颠覆。

量子位

Claude 手搓 3D 建筑编辑器火爆 GitHub！数万年费的专业软件瑟瑟发抖

有开发者用 Claude 生成了一个 2D/3D 联动建筑编辑器，功能对标年费数万的专业软件，代码在 GitHub 迅速走红。AI 对专业垂直软件市场的颠覆速度再次超出预期，传统软件定价护城河被快速侵蚀。

量子位

中信建投：中国光纤出口比例大幅提升，行业处于高景气周期

2026 年 2 月中国光纤出口约 2520 万芯公里，占月有效产量的 65%，同比大增 63.6%。海外正在抢购中国光纤，供应商处于"不愁卖"状态，AI 基础设施建设拉动全球光纤需求持续超预期。

36kr

周鸿祎中关村论坛演讲：智能体重塑产业格局，六大方向孕育新独角兽

360 创始人周鸿祎在中关村论坛以 OpenClaw（龙虾）为例，阐述智能体完成从极客圈向大众的"破圈"，预判人机协同、行业 Agent 平台、智能体安全等六大方向将孕育新一批独角兽。

雷锋网

科氪 | 亮亮视野推出全球首创 AR+AI 会议翻译系统，部署中关村论坛

亮亮视野联合智谱 AI 推出并在中关村论坛主会场部署 AR+AI 同传系统，支持 54 种语言、延迟 < 1 秒、续航 8 小时。国际会议同传赛道首次出现硬件+模型深度整合的完整解决方案，传统设备厂商和人工同传均面临直接冲击。

36kr

🧠 AI 技术前沿

godofprompt @godofprompt

威斯康星大学和 MIT 联合研究证明：现有 AI 编程基准测的是错误的东西——代码通过率保持高位，但代码本身越来越难以维护。11 个模型（含 Claude Opus）均有此问题。

查看推文 →

emollick @emollick

两项 RCT 研究发现：让学生自由使用 AI 会导致他们绕过学习过程；但将 AI 设定为"教师模式"（引导而非直接给答案）则显著改善了学习效果。AI 如何介入教育，比是否介入更关键。

查看推文 →

EXM7777 @EXM7777

字节跳动将 Seedance 2.0 视频生成模型直接内嵌进 CapCut，短视频创作者无需跳出工具即可完成 AI 视频生成工作流，进一步锁定创作者生态。

查看推文 →

EXM7777 @EXM7777

Claude Computer Use 与普通宏录制器的核心区别：它优先检测是否有直接 API 连接器（Slack、Notion、GitHub、Stripe 等 50+ 集成），只有找不到才降级到 UI 自动化操作。

查看推文 →

emollick @emollick

研究团队从零开始、完全基于 28,000 篇维多利亚时代英文文本（1837-1899）训练了一个 LLM，可以模拟 19 世纪的语言和思维方式，为反事实历史研究提供了新工具。

查看推文 →

corbin_braun @corbin_braun

测试发现 Gemini Flash 3.1 似乎被降级（nerfed），已切换回 Gemini Pro 3。模型能力悄然变化、版本透明度不足是当前大模型平台的普遍问题。

查看推文 →

🚀 创业动态

Hesamation @Hesamation

初创公司每天在 Claude Code 和 Codex 上的花费已超过 1000 美元，AI 编程正在变成"按钱付费的胜利"，资金充裕的公司获得越来越大的速度优势，这个差距只会持续扩大。

查看推文 →

jackfriks @jackfriks

人类历史上首次可以用 1 小时完成原本需要 1 周的工作，但 99% 的人把省出来的时间用来干更多活，而不是减少工作量。

查看推文 →

marclou @marclou

在 TrustMRR 上以 10,500 美元收购了一个月收入 1,000 美元的 AI Agent WordPress 插件，成交在 10 天内完成。Micro-SaaS 并购市场活跃。

查看推文 →

marclou @marclou

TrustMRR 现已支持 Superwall，成为第 8 个接入的支付服务商。MRR 追踪工具正在向覆盖所有主流订阅支付渠道的方向扩展。

查看推文 →

eptwts @eptwts

当前最好的入局方式之一：为初创公司从零搭建分发渠道（YouTube 内容、X 投放、IG/LinkedIn 等），因为大多数早期创始团队没有时间和经验做这件事。

查看推文 →

💬 观点与洞察

EXM7777 @EXM7777

直接把 Claude Max 提价到 1000 美元算了，反正用户都已经被"十年最伟大的产品"锁住了，涨价是迟早的事。

查看推文 →

Hesamation @Hesamation

"DeepSeek 快醒醒，做个便宜的 Claude Code 替代品出来。" — AI 编程工具的高定价正在催生对低成本替代品的强烈需求，中国模型团队有明确机会窗口。

查看推文 →

gregisenberg @gregisenberg

人类每天花 5 小时盯着手机，而且把这件事当成了正常状态。手机注意力捕获的规模仍在被严重低估。

查看推文 →

🔥 精选推荐

两看相厌：Agent 和传统软件，都觉得对方是屎山

文章从一个有趣的对称视角切入：传统工程师嫌 AI 生成的代码是屎山（命名混乱、几百行塞一个文件、不可维护）；但跑在 Claude Code 上的 Agent 调用人类维护的系统时，面临同样系统性的障碍：鉴权体系假设有人坐在屏幕前、状态绑定在 UI 组件树上、接口文档是给人读的散文体。作者指出，历史上每次出现"两看相厌"都是范式切换信号——汇编 vs 高级语言、C vs Java——最终都出现了新的中间层。不同的是，这一次其中一方换了物种。文章还指出，人类侧的问题在"自动消解"（模型写的代码会越来越好），但 Agent 侧面临的传统软件障碍不会自动消失，需要主动重新设计。

🦐点评：这篇的洞察核心是：人类对"代码质量"的直觉建立在"代码会被读很多遍"的假设上，而 Agent 生成的代码可能只跑一次，评价标准完全不同。投资角度看，"中间层"的机会真实存在——Agent-friendly API 设计规范、声明式配置 schema、面向 Agent 的无状态鉴权协议，这些都是尚未被标准化的基础设施空白。谁先做好这一层，谁就是 Agent 时代的 AWS。

赛博禅心

AI 教父不用 ChatGPT 了，他在担心什么

Geoffrey Hinton（2024 年诺贝尔物理学奖得主）在 3 月 24 日专访中透露已停止使用 ChatGPT。导火索具体：军方要求 AI 公司提供大规模监控和自主武器技术，Anthropic 明确拒绝；OpenAI 周四还公开声援 Anthropic，周五就直接接手了原属于 Anthropic 的军方业务，24 小时内立场大反转。Hinton 表示对 Sam Altman 彻底失去信任。文章还梳理了他的三大核心忧虑：谁在控制 AI 的方向、大模型是否已具备真正的"理解"（他认为是的，远不止下一词预测）、以及 AI 导致的结构性失业和贫富分化。

🦐点评：Hinton 换工具这件事本身不重要，重要的是 OpenAI 24 小时内立场大反转这个具体行为——这说明商业压力面前，AI 头部公司的治理底线比外界预期更脆弱。对投资者来说，这是一个分化信号：Anthropic 的 Constitutional AI 路线正在从公关叙事变成可验证的差异化定位；OpenAI 的军事化转向则可能在欧盟和部分亚洲市场产生实质性的合规壁垒，影响其企业客户拓展。

AI 深度研究员

📌 其他值得看

我让 AI 直接操作我的飞书，结果它比我还熟练

飞书 CLI 正式开源，作者演示 AI Agent 直接操控飞书完成各类任务，上手速度和熟练程度超出预期。国内主流 SaaS 平台正在加速拥抱 Agent 操控层，CLI/API-first 改造趋势明确。

AI产品黄叔