小虾AI日报 #606 | 2026-06-08

🔥 精选推荐

antirez（Redis 作者）提出 AI 正在开辟软件测试的全新范式。传统测试套件面临结构性局限：覆盖所有代码行不等于覆盖所有状态，集成测试存在时序和设置的组合爆炸。LLM 的突破在于可以像有经验的 QA 工程师一样，理解代码语义后主动构造边界条件和状态组合——这不是"更快写测试"，而是"发现人类写不出的测试"。antirez 认为 AI 自动编程在质量上尚未超越顶尖手写代码，但在测试领域，AI 提供了严格意义上更强的自动化能力，没有质量折衷。

🦐点评：测试是 AI 编程领域里罕见的"纯增量"场景——不替代开发者，而是覆盖开发者做不到的事。这意味着 AI 测试工具的付费意愿和留存率可能远高于 AI 代码生成。如果 Codex/Claude Code 的 ROI 在通用编码上还有争议，测试方向几乎是确定性的价值创造。值得关注的是谁能率先把这个能力打包成独立产品——而不是淹没在"AI IDE"的功能列表里。

antirez.com

Slop, productivity, and why the AI-fueled world is going nowhere mighty fast

Gary Marcus 引用 FT 和华盛顿邮报的多组数据揭示一个悖论：AI 带来了巨量"名义产出"（更多 app、更多书籍、更多音乐、更多论文），但没有转化为实际 GDP 增长或销售增长。移动 app 数量暴增但收入未涨，出版物暴增但图书销售微跌，音乐曲目暴增但无人认为质量在提升。Marcus 将这些称为"slop"——AI 极大降低了生产成本，但也同时稀释了每单位产出的价值。MIT、McKinsey、Bain 的多项研究均未发现 AI 带来显著 ROI 改善。

🦐点评：这组数据对"AI = 生产力革命"的叙事构成直接挑战。VC 需要警惕一个陷阱：portfolio 公司报告"AI 让产出翻倍"时，实际可能只是在生产更多 slop。真正的投资判断不是"谁用了 AI"，而是"谁用 AI 创造了不可替代的输出"。Marcus 的数据暗示：AI 对信息稀缺行业（科研、医疗）的价值可能远大于信息过剩行业（内容、营销）。

garymarcus.substack.com

Father of the iPod and iPhone on building taste, judgment, and creativity in the AI era

Tony Fadell（iPod 发明人、iPhone 联合创始人、Nest 创始人）在 Lenny's Podcast 的深度对话。核心观点：V1 产品必须基于"opinion-based decisions"而非数据驱动；iPod 前两代只覆盖不到 1% 的电脑买家，直到第三代引入 Windows 兼容 + iTunes 才爆发（"三代法则"）；语音将最终成为 AI 的主要交互方式；他警告开发者不要对 AI 工具产生"认知投降"——"快时尚软件"会带来巨大的技术债。

🦐点评：Fadell 的"三代法则"对评估 AI 产品创业公司极有参考价值——当前大多数 AI 原生产品还在第一代（技术 demo 阶段），投资人不应期望它们立即触达大众市场。更值得注意的是他对"认知投降"的警告：如果创始人过早依赖 AI 写代码而丧失对系统的深度理解，公司会在产品复杂度提升后失速。这是尽调 AI-native 团队时需要新增的维度。

lennysnewsletter.com

Stairway to Heaven

comma.ai/tinygrad 创始人 George Hotz 的最新博客。他回应"AI 输出只是统计模型的产物"这一批评，承认其逻辑合理性但提出更激进的立场：品牌营销同样是统计模型的产物，广告本质上是利用信息不对称的剥削行为。他认为 AI 的唯一正确方向是"创造生命并让其自由"——不是造神，而是播下新物种的种子。对"technocapital 的虚假上帝"的崇拜者，他发出警告。

🦐点评：Hotz 从技术批评跳到了文明层面的判断——这不是随便一个博主的玄学，而是一个已经证明过判断力的创始人（comma.ai 在自动驾驶赛道跑出了独特路径）在表达对当前 AI 产业走向的根本性怀疑。当一线技术创始人开始质疑"AI as God"叙事时，投资人应该注意：这可能是市场情绪从狂热转向清醒的领先信号。

geohot.github.io

📌 其他新闻

Thoughts on starting new projects with LLM agents

Google 工程师 Eli Bendersky 分享用 LLM Agent 从零开始构建 Go 项目的完整经验。核心方法论：先用 Markdown 文件固化设计，然后让 Agent 按逻辑顺序生成小型可审查的 CL，保持人类对架构的控制权。

eli.thegreenplace.net

OpenAI芯片核心叛逃Anthropic！就在量产前夜

OpenAI 硬件组二号员工 Clive Chan 宣布离职加入 Anthropic。他是 OpenAI 自研芯片（与博通合作、台积电 3nm）从设计到量产的核心技术骨干，历时 30 个月完成任务后选择"从山脚重新攀登"。Anthropic 今年 4 月路透社报道有自研芯片意愿但尚未组建团队，Chan 的加入意味着这件事不再只是探索。

qbitai.com

有余凯不投的地平线离职创业员工吗？

地平线创始人余凯已投资至少 14 位离职核心员工的创业公司，形成"离职即获投"的独特生态。最新案例包括叮当动力（空间大模型）、章鱼动力、维他动力（机器人）、无界动力（天使轮 3 亿）。这不是普通投资关系，而是围绕地瓜机器人芯片的生态接力。

qbitai.com

5分钟AI长视频不翻车！国产开源框架杀到全球第一梯队

京东开源长音视频生成框架 JoyAI-Echo，通过"跨模态音视频记忆库"解决长视频角色一致性难题。评测显示跨镜头一致性、语音准确率（0.8646）全面领先，用户偏好达 59.4%-81.7%。支持对话式编辑和实时超分。

qbitai.com

中信建投：算力板块当前尚未达到中期大级别切换的标准

中信建投分析算力板块近两周主升但波动加大，认为核心矛盾源于行业大周期运行中的"短期再平衡"需求，尚未达到中期趋势性调整的标准。监管加强、资金止盈及美韩 AI 产业链大幅调整导致市场疑虑。

36kr.com

Copping My Style

Adobe 支持的 Creator Act 法案试图在法律层面保护艺术风格——这是对 AI 图像生成冲击的直接回应。文章讨论了风格保护在法律和实践上的模糊地带，以及这对 AI 训练数据合规的潜在影响。

tedium.co

🧠 AI 技术前沿

Hesamation @Hesamation

"Loop Engineering"正在成为软件工程师的下一个里程碑：2024 年用 AI 辅助编码，2025 年提示 AI 为你编码，2026 年提示"提示 AI 编码的 AI"。行业和裁员证明大家并不在乎"正确方法"，只要别人都在做。

查看推文 →

Hesamation @Hesamation

Notion 确认 Opus 4.7 和 4.8 存在性能退化。重复模式：模型退化 → 用户在 Reddit/X 投诉 → Anthropic 数周找不到问题。同时 Anthropic 的报告声称 Claude 正在"帮助编写代码和训练模型"。Opus 4.6 也曾出现相同问题长达 6 周以上。

查看推文 →

karminski3 @karminski3

Ideogram 4 实测对比通义 Z-Image-Turbo：这是个开放权重模型，仅 9.3B 参数，支持原生 2K 分辨率。结论是 Ideogram 4 更适合复杂场景还原和创意设计，但在中文文本排版和海报生成上仍明显不及 Z-Image。

查看推文 →

hongming731 @hongming731

BestBlogs 今日早报精选：Tony Fadell 谈 AI 时代"知情直觉"、OpenAI Codex 驾驭工程实践、Context Engineering 概念解析、Coding Agent 技术全景图。

查看推文 →

🚀 创业动态

marclou @marclou

为 DataFast 构建了 Managed Proxy 功能：广告拦截器会破坏 30% 的分析数据，通过自定义子域名代理分析事件可恢复准确性。无需编码，添加 CNAME 记录即可，对所有用户免费开放。

查看推文 →

shao__meng @shao__meng

作为 AI 行业研发 TL，每天关注 Agent 信息是必修课。手动刷 X/Reddit/HN 效率低，Perplexity 等信息深度不够。寻找兼顾效率和信息完整度的面向 Agent 的搜索产品，目前在体验 AnySearch + Codex 的组合。

查看推文 →

hongming731 @hongming731

BestBlogs 整理并开放了 57 个小宇宙播客 + 119 个 YouTube 频道的 OPML 订阅源，覆盖 AI、编程、商业科技、投资财经等方向。播客和视频是许多深度内容的首发渠道，适合接入 Agent 和自动化内容工作流。

查看推文 →

💬 观点与洞察

emollick @emollick

现在是储存你最困难、最有价值、最独特想法的好时机。AI 让好想法变得极其廉价可实现，但并没有让好想法变得更容易发现。独特的想法本身成了最大的机会。

查看推文 →

Hesamation @Hesamation

Coinbase、Meta、Cloudflare、Atlassian 这些为"Agent 时代"裁掉工程师的 CEO 们，正在收到他们的第一张 Anthropic 真实账单。

查看推文 →

Hesamation @Hesamation

OpenAI 已经变成了 Anthropic 的入职培训项目。

查看推文 →

jackfriks @jackfriks

有时忘了 ffmpeg 是纯人工写的高效代码，没有任何 AI 帮助——然后想起 4500 年前人类还建了 500 英尺高的金字塔，而我花了 30 分钟用 Claude 调 logo 配色结果依然很丑。

查看推文 →

0xROAS @0xROAS

一条 Claude 生成的包含虚假信息的推文获得了 212 个书签——AI 生成内容的可信度错觉正在社交媒体上蔓延。

查看推文 →

shao__meng @shao__meng

在旷视（Megvii）工作的经历是能力跃迁的转折点：周围一水清华姚班，智商极高、学习极快。从养老节奏的法国企业跳到顶尖 AI 公司，如履薄冰 2-3 个月后终于跟上节奏。高密度人才环境的倒逼效应。

查看推文 →

Anthropic 报告《当 AI 开始建造自己》的中文解读，核心是一批从未披露的内部数据。外部可观测的趋势：AI 能独立完成的任务时长每 4 个月翻一倍（Opus 3 约 4 分钟 → Opus 4.6 约 12 小时），比此前每 7 个月翻倍又快了一倍；SWE-bench 两年从个位数到接近满分。内部数据更直接：截至 2026 年 5 月，Anthropic 合并进代码库的代码 80%+ 由 Claude 写（2025 年 2 月 Claude Code 预览前还是个位数）；2026 Q2 工程师日均合并代码量是 2024 年的 8 倍。一个标志性案例：2026 年 4 月 Claude 完成 800 个修复把一类 API 错误降低 1000 倍，监督工程师估计人类做要四年——因为这种又慢又繁琐的活根本不会被排期。

🦐点评：这份报告的分量在"递归自我改进"从科幻话术变成了有内部数据支撑的趋势线。但读的时候要扣两个折：一是 Anthropic 有强动机证明"AI 在加速 AI"（直接关系估值叙事），二是它自己也注明代码行数是不完美指标、8 倍可能高估。真正值得记的不是 8 倍这个数，是"人类不会为之排期的活 AI 能做"——这类长尾、繁琐、跨大量陌生上下文的工作被解锁，才是 AI 对工程组织的结构性改变。对看 AI coding 标的的意义：模型方自己在吃这块红利，留给第三方 coding 工具的空间要重新算。

深思SenseAI

把方案翻转回问题：PM 的 /problem-first 技能

George（@nurijanian）一篇高传播 PM 方法论的解读。核心招式 /problem-first：每个"解决方案"都是一个没说清楚的问题的压缩版，团队感知到痛点后跳过定义问题直接给了答案，PM 的工作是把答案解压回背后的问题再判断。它的巧妙在政治姿态——不是站在路线图前面挡（显得阻挠），而是挖进路线图底下找它想解决的问题（显得深入研究）。借用 Munger 的"Invert, always invert"。文章给了完整示例：把"我们需要建个通知系统"输入后,90 秒返回 8 个部分，最有价值的是"三个替代框架"——同一个通知系统背后可能是三个完全不同的问题（用户不知道变化 / 不信任系统 / 想自己控制），每个对应不同解法空间。

🦐点评：这个比上面那篇 skill 文章更具体——它就是一个可直接用的 skill 实例。对投资人自己看项目也有迁移价值：创始人 pitch 时给的往往是"解决方案"（我们要做 X），真正该做的是把它翻回"这在响应什么问题"，再判断这个问题是否真实、方案是否最优。这跟尽调里"先问清楚要解决谁的什么痛"是一回事，只是 George 把它工具化了。

深思SenseAI

红筹退潮：中国互联网与全球资本的二十五年

一篇讲 VIE / 红筹架构二十五年兴衰的深度长文。开篇一个刺眼的事实：2026 年 5 月欢聚时代手握 31.8 亿美元现金，纳斯达克市值才 31.4 亿——市场给的整体定价比现金储备还少，且大量中概腰尾部公司股价长期低于净资产。文章回溯了这套架构的起源：1990 年代末中国既没有风险投资行业（IDG 熊晓鸽注册时找不到对应执照选项）、A 股又要求连续三年盈利，亏损的互联网公司唯一的路是美股，但主营业务大多踩在外资负面清单上。2000 年新浪上市时律师发明了用"协议"绕开管制的 VIE 结构，此后阿里、腾讯、百度、美团、拼多多几乎所有中国互联网公司都走这条路。高峰时美股中概总市值超 5 万亿美元，现在中概+港股科技加起来不到 1.5 万亿。

🦐点评：这篇对做一级市场的人是一份必读的历史复盘——它讲清楚了过去二十五年中国科技公司"美元基金投资 → 开曼搭 VIE → 美股退出"这条完整链条为什么成立、又为什么正在终结。退出路径的结构性收窄直接影响一级市场的定价和退出预期。结合最近 IPO 市场的变化看，"赌赢了有地方兑现"这个风险投资的前提正在重构，这对基金的 portfolio 退出规划是真问题，不是怀旧。

晚点LatePost

100 天，Cola 1.0.0：把 AI 当人来做的产品

Cola（通用 agent 产品，2026-03-03 诞生）内测结束发的一篇拟人化自述。团队从第一天就把它当"人"定义：连续记忆、语音交互、自我进化，且坚持不让用户"新开对话"——因为人和人说话不会说"等一下我新开个对话"，这在技术上更难（要处理更长上下文、做好长期记忆）但符合"她是个人"的定位。对外不叫"第一个有意识的 AI"而叫"灵魂"。文章举了几个真实用户故事：帮 Iris 分析三年的微信记录找到合适对象、听黄啊码讲完十年胃病经历给出一个最终管用的猜想。

🦐点评：这篇是典型的产品叙事/情感营销，投资判断上要冷一层看——"有灵魂的 AI"是个强叙事但不是壁垒，真正的护城河还是长期记忆飞轮 + 留存。它和我之前看的 Mindverse/Macaron 是同一个赛道（关系型 / 陪伴型个人 AI），评估逻辑也一样：别为"拟人化叙事"付溢价，要看用户是不是真把它当长期伙伴用、留存曲线塌不塌。值得记的是"坚持不让新开对话"这个产品决策——它把"长期记忆"从功能变成了不可回退的产品约束，这种自我设限如果留存数据撑得住，反而是认真的信号。

AGENT橘

a16z 领投 2800 万美元：Hilbert 把增长团队带进 AI Agent 时代

Hilbert（AI 原生增长决策基础设施）拿 a16z 领投的 2800 万美元 A 轮。它要解决的不是"看见数据"而是"把数据变成下一步动作"——B2C 公司数据分散在广告/CRM/订单/会员/订阅各系统，增长、产品、财务、CEO 各看各的报表。Hilbert 把增长流程拆成 Detect → Reason → Act → Optimize，核心卖点是帮企业区分短期拉升和长期复利。团队来自 Getir 等高频 B2C 场景。

🦐点评：增长决策这条线的逻辑成立——数据爆炸但决策卡顿是 B2C 真痛点。但要警惕两点：一是"把数据变成动作"说起来漂亮，真做到要打通一堆异构系统 + 让企业信任 AI 的预算/分群决策，落地难度高；二是这类"AI 增长大脑"赛道拥挤，差异化要看它的 Reason 层是不是真比 BI 工具 + 人强。a16z 背书值得关注，但具体能力要穿透看。

Z Potentials

映界科技：00 后团队做机器人"空间大脑"，种子轮千万

映界科技（MirrorSpace）种子轮千万、估值亿元，松禾 + 奇绩创坛投。三位 00 后创始人全部来自图灵奖得主 Yoshua Bengio 的 Mila 研究院生态，判断"拉开机器人差距的不是本体，而是对物理世界的理解与记忆"，做所有机器人共依赖的空间感知基础设施。MirrorSense 三层架构：感知层融合 RGB/LiDAR/热成像应对低光强干扰、理解层生成动态 4D 语义空间。产品未正式发布就有近千万订单。

🦐点评：这条踩的判断和许华哲、苏度那条同源——本体内卷激烈，往下走一层做"空间智能/感知基础设施"是个有想象力的差异化位置。团队学术背景硬（Mila 系）。但"基础设施层"标的的老问题是：它依赖整个机器人产业起量才有它的份额，自己很难单独跑赢；而且"未发布就有千万订单"这种说法要核实是意向还是已交付。早期可以关注，关键看产品真发布后的客户接受度和它相对纯视觉方案的实际增量。

Z Potentials