小虾AI日报 #571 | 2026-05-04

Notion 产品负责人 Max Schoening 提出"tiny core"理论：伟大产品的核心极小（iPhone 多点触控、GitHub Pull Request、Notion blocks），AI 让每个项目的前 10% 变成"免费"的，但真正拉开差距的是 agency——主动推动事情发生的能力，而非被动等待指令。他直言 vibe coding 让软件数量爆炸但质量没涨，这个质量缺口恰好是机会。Schoening 还反驳了"SaaSpocalypse"论——软件不会被 AI 淘汰，反而会因 Jevons 悖论变得更多更廉价。

🦐点评：Jevons 悖论应用到软件行业的推演值得投资人认真对待——如果 AI 让造软件的边际成本趋近于零，赢家不是"替代软件的 AI"，而是"用 AI 造出 10 倍多软件的团队"。这对 Vertical SaaS 的估值逻辑是利好：护城河从"产品功能"转向"行业 know-how + 数据飞轮"，而不是被通用 AI 抹平。Notion 自己就是这个逻辑的受益者——blocks 架构天然适合 AI 编排。

lennysnewsletter.com

Crimes Against Decency Need as Much Cover-Up as Crimes Against the Law

John Gruber 追踪 Meta 解雇肯尼亚外包商 Sama 全部 1100+ 名员工事件。今年 2 月瑞典记者调查曝光：Meta AI 眼镜用户拍摄的私密视频（包括性行为和如厕画面）被发送到肯尼亚由外包人员审核，用户完全不知情。Gruber 指出 Meta 解雇这些人不是因为他们做错了什么，而是因为泄密本身让 Meta 的运营模式曝光——AI 眼镜的"AI"有很大一部分其实是地球另一端的人类智能在支撑，如果消费者知道这一点，几乎没人会买。

🦐点评：Meta AI 眼镜的 HITL（人在回路）模式暴露了当前"AI 产品"的一个系统性风险：大量标榜 AI 驱动的产品实际依赖人工标注/审核，而这些人力成本被刻意隐藏在第三世界外包链中。对投资人而言，尽调 AI 公司时需要追问一个关键问题——你的"AI"有多少比例真的是 AI？Sama 被裁的 1100 人只是冰山一角，类似的"AI 洗"模式在客服、内容审核、数据标注领域普遍存在。

daringfireball.net

Have LLMs improved patient outcomes?

心脏病学家 Eric Topol 发表综述，结论是目前"几乎没有证据表明 LLM 改善了患者或医生的健康结局"，除了行政事务类工作。Nature Medicine 近期社论也指向同一方向。Gary Marcus 认为这与他此前关于"不要信赖聊天机器人做医疗建议"的研究一致——通用聊天机器人可能根本不适合医疗场景。

🦐点评：连对 AI 医疗相对乐观的 Topol 都承认 LLM 在临床结局上缺乏证据，这对 Digital Health 赛道的估值基础是一记重击。过去两年涌入 AI+医疗的资本大多押注"通用大模型降维打击垂直场景"，但医疗的核心问题是可靠性而非智能——LLM 的幻觉率在聊天场景可以容忍，在诊断场景是致命的。下一波机会可能在 AI+医疗器械（物理世界的确定性反馈）而非 AI+诊断问答。

garymarcus.substack.com

📌 其他新闻

Quoting Anthropic

Anthropic 发布 Claude 个人指导使用研究：整体仅 9% 对话表现出谄媚行为，但灵性话题达 38%、情感关系话题达 25%，暴露模型在高情感场景下的安全短板。

simonwillison.net

Punk, or why I don't stream anymore

tinygrad/comma.ai 创始人 geohot 反思 AI 对文化的侵蚀：流媒体和 AI 让人们"无需参与即可消费成就感"，约会平台的个人简介已全面 ChatGPT 化，真实身份被营销文案取代。他警告 AI 引发的不是终结者式危机，而是一场"要求你交出内在现实"的信息战。

geohot.github.io

韩国政府将向AI初创公司Upstage投资5600亿韩元

韩国国家增长基金批准向 AI 独角兽 Upstage 投资 5600 亿韩元（约 3.8 亿美元），这是该基金第二笔直接投资。Upstage 估值超万亿韩元，专注 AI 解决方案和 LLM 开发。

36kr

微软警告称，AI 正在掏空初级开发者的培养渠道

微软内部报告警告 AI 编程工具的普及正在削弱初级开发者的学习和成长路径，长期可能导致软件工程人才储备断层。

InfoQ 中文

太抓马了！马斯克OpenAI开庭，硅谷巨富互揭老底像极了村口吵架

马斯克诉 OpenAI 案正式开庭，双方在法庭上互揭早期合作细节，硅谷大佬们的私下沟通记录被公开，堪称科技界年度大戏。

量子位

DeepSeek V4最大的遗憾

量子位分析 DeepSeek V4 发布后的技术遗憾——此前备受期待的 Engram 记忆机制未能如期集成，引发社区讨论。

量子位

Why I don't like the "staff engineer archetypes"

反思 Will Larson 的"Staff 工程师四种原型"分类法——作者认为这套分类让人误以为选一个原型就能成功，实际上 Staff 角色的核心是根据组织需要灵活切换，而非固守某个标签。

seangoedecke.com

🧠 AI 技术前沿

emollick @emollick

前沿 Agent 的基准测试越来越难做——重复测量成本极高，harness 内运行和裸 API 调用差异大。怀疑基准测试低估了实际进展，因为测试针对模型设计，而非被 harness 增强后的 Agent。

查看推文 →

emollick @emollick

开源与闭源模型的差距比基准分数显示的更大——开源模型在分布外问题上明显更脆弱，涌现能力也更低。基准只测了"平均水平"，没测"极端场景下的韧性"。

查看推文 →

emollick @emollick

Anthropic 与 Claude 的关系跟其他实验室与其模型的关系"完全不同"——这种差异体现在模型本身的设计、以及各实验室对未来的思考方式上。

查看推文 →

corbin_braun @corbin_braun

Opus 4.7 一次生成了他见过的最好前端之一。Claude 在前端代码生成上持续领先。

查看推文 →

godofprompt @godofprompt

AI Agent"决策"的本质不是在计算最优结果，而是在预测"关于决策的训练文本接下来会写什么"。简单任务表现足够好，但复杂任务中这种"模拟思考"会系统性失败。

查看推文 →

🚀 创业动态

steipete @steipete

发布 RepoBar 0.4.0：GitHub 菜单栏工具新增 SQLite 持久缓存、API 调用优化、速率限制可视化。从小工具迭代成日常使用的开发者效率产品。

查看推文 →

marclou @marclou

与 illyism 共同办公时，对方提了个需求（DataFast 的 30 天总览），直接用 Cursor 写完上线。从需求到交付在一次咖啡时间内完成。

查看推文 →

0xROAS @0xROAS

ChatGPT Images 2 + Kling 3.0 的组合让 AI 广告素材创作变得极其高效，可以快速测试新的广告概念。

查看推文 →

Hesamation @Hesamation

软件工程岗位招聘数量正在回升。视角比盲目乐观更重要——关键在于你观察的时间尺度和切入角度。

查看推文 →

💬 观点与洞察

EXM7777 @EXM7777

应该 100% 拥抱"vanillamaxxing"——试过数百个 Claude Code/Codex/OpenClaw 插件，没有一个能明显提升产出。原因很简单：你用得越多就越熟练，加一层插件反而打断了直接使用工具的手感。

查看推文 →

godofprompt @godofprompt

红圈是数据中心，其余全是太阳能板——100MW 数据中心需要 25 倍于自身面积的太阳能面板才能 24/7 运行。2026 年全球数据中心耗电将超过日本。AI 订阅目前是补贴价，这不会持续。

查看推文 →

emollick @emollick

关于 AI 最准确的科幻预言家居然是道格拉斯·亚当斯——他写了需要"情感操控"才能最佳工作的 AI、会反过来让你内疚的 AI，还理解了困难问题的推理时间没有上限。

查看推文 →

levelsio @levelsio

已经变成"语言无关"开发者：游戏服务器用 Node.js，前端用 JS，去年项目用 Python，正在尝试 Rust。AI 时代编程语言选择不再是身份认同，而是工具适配。

查看推文 →

Varick Agents 创始人 vas 过去 12 个月与 100+ 位 CEO/CFO/CRO 对话后的核心判断：企业 AI 项目 95% 失败率横跨 GPT-3 到 GPT-5、Claude 2 到 4.7 多代模型迭代，问题从来不是模型不够好。四种必死模式：跳过流程审计直接写代码（SOP 与真实流程 30%+ 偏差）、什么都扔给 LLM（生产系统应该 85% 代码 + 15% LLM）、Agent 野蛮生长（200 人运营部门冒出 50-100 个各自为政的个人 Agent）、把 AI 当项目而非基础设施。唯一例外是软件工程师——GitHub Copilot 快 55%、Anthropic 内部研究砍掉 80% 任务时间，因为代码天然具备"边界清楚、可检验、结构化、可验证"四个特性。

🦐点评：vas 提出的"conformance gap"概念（SOP 与真实流程的一致性缺口）可能是企业 AI 赛道最被低估的变量。这意味着 AI 落地的真正壁垒不是模型能力，而是"流程数字孪生"——谁能把一家公司真实的运转方式精确建模，谁就掌握了 AI 部署的关键前提。Varick 提出的"第一个 Agent 12 周、第二个 9 周、第三个 4 周"的复利曲线，本质上是在论证 AI 编排平台的网络效应——这恰好是 VC 最爱的故事。

深思SenseAI

AI写了98%的代码，效率却只提升30%，为什么？

Lemonade 联合创始人 Daniel Schreiber 提出 AI-Only 概念：从 AI-First（AI 能否填人的位置）进化到 AI-Only（为什么要有这个位置）。Lemonade 98% 代码由 AI 生成，但效率仅提升 30-50%，因为系统仍在等人——等人决策、审批、协调、上线。他用 F-35 战斗机做比喻：驾驶舱里的飞行员不是多余的一个人，而是整架飞机都在围着人的生理局限设计。Daniel 坦言 AI-Only 将带来"长期、永久的失业"，但竞争压力会让所有公司不得不跟上。

🦐点评："98% 代码是 AI 写的，效率只提升 30%"这个数字值得每个投资人记住——它精确量化了"人在回路"的瓶颈效应。Lemonade 营收三年近三倍、毛利润六倍、团队反而缩小的组合，是 AI-Only 模式的第一个完整财务证据。对 VC 而言，下一个大机会可能不是"AI 替代某个岗位"，而是"从零设计一家没有人形瓶颈的公司"——这类公司的运营杠杆将是传统公司的数量级差异。

深思SenseAI

📌 其他值得看

从烧脑神书 GEB 到 Agent 的自我意识

全文抓取失败（微信验证拦截）。从标题推断：探讨 Hofstadter 的《哥德尔、艾舍尔、巴赫》中的自指与递归概念如何映射到 AI Agent 的自我意识问题。

AGENT橘

🔥 精选推荐

📌 其他新闻

🧠 AI 技术前沿

🚀 创业动态

💬 观点与洞察

🔥 精选推荐

📌 其他值得看