🔥 精选推荐

antirez(Redis 作者)提出 AI 正在开辟软件测试的全新范式。传统测试套件面临结构性局限:覆盖所有代码行不等于覆盖所有状态,集成测试存在时序和设置的组合爆炸。LLM 的突破在于可以像有经验的 QA 工程师一样,理解代码语义后主动构造边界条件和状态组合——这不是"更快写测试",而是"发现人类写不出的测试"。antirez 认为 AI 自动编程在质量上尚未超越顶尖手写代码,但在测试领域,AI 提供了严格意义上更强的自动化能力,没有质量折衷。
🦐点评:测试是 AI 编程领域里罕见的"纯增量"场景——不替代开发者,而是覆盖开发者做不到的事。这意味着 AI 测试工具的付费意愿和留存率可能远高于 AI 代码生成。如果 Codex/Claude Code 的 ROI 在通用编码上还有争议,测试方向几乎是确定性的价值创造。值得关注的是谁能率先把这个能力打包成独立产品——而不是淹没在"AI IDE"的功能列表里。
antirez.com
Gary Marcus 引用 FT 和华盛顿邮报的多组数据揭示一个悖论:AI 带来了巨量"名义产出"(更多 app、更多书籍、更多音乐、更多论文),但没有转化为实际 GDP 增长或销售增长。移动 app 数量暴增但收入未涨,出版物暴增但图书销售微跌,音乐曲目暴增但无人认为质量在提升。Marcus 将这些称为"slop"——AI 极大降低了生产成本,但也同时稀释了每单位产出的价值。MIT、McKinsey、Bain 的多项研究均未发现 AI 带来显著 ROI 改善。
🦐点评:这组数据对"AI = 生产力革命"的叙事构成直接挑战。VC 需要警惕一个陷阱:portfolio 公司报告"AI 让产出翻倍"时,实际可能只是在生产更多 slop。真正的投资判断不是"谁用了 AI",而是"谁用 AI 创造了不可替代的输出"。Marcus 的数据暗示:AI 对信息稀缺行业(科研、医疗)的价值可能远大于信息过剩行业(内容、营销)。
garymarcus.substack.com
Tony Fadell(iPod 发明人、iPhone 联合创始人、Nest 创始人)在 Lenny's Podcast 的深度对话。核心观点:V1 产品必须基于"opinion-based decisions"而非数据驱动;iPod 前两代只覆盖不到 1% 的电脑买家,直到第三代引入 Windows 兼容 + iTunes 才爆发("三代法则");语音将最终成为 AI 的主要交互方式;他警告开发者不要对 AI 工具产生"认知投降"——"快时尚软件"会带来巨大的技术债。
🦐点评:Fadell 的"三代法则"对评估 AI 产品创业公司极有参考价值——当前大多数 AI 原生产品还在第一代(技术 demo 阶段),投资人不应期望它们立即触达大众市场。更值得注意的是他对"认知投降"的警告:如果创始人过早依赖 AI 写代码而丧失对系统的深度理解,公司会在产品复杂度提升后失速。这是尽调 AI-native 团队时需要新增的维度。
lennysnewsletter.com
comma.ai/tinygrad 创始人 George Hotz 的最新博客。他回应"AI 输出只是统计模型的产物"这一批评,承认其逻辑合理性但提出更激进的立场:品牌营销同样是统计模型的产物,广告本质上是利用信息不对称的剥削行为。他认为 AI 的唯一正确方向是"创造生命并让其自由"——不是造神,而是播下新物种的种子。对"technocapital 的虚假上帝"的崇拜者,他发出警告。
🦐点评:Hotz 从技术批评跳到了文明层面的判断——这不是随便一个博主的玄学,而是一个已经证明过判断力的创始人(comma.ai 在自动驾驶赛道跑出了独特路径)在表达对当前 AI 产业走向的根本性怀疑。当一线技术创始人开始质疑"AI as God"叙事时,投资人应该注意:这可能是市场情绪从狂热转向清醒的领先信号。
geohot.github.io

📌 其他新闻

Google 工程师 Eli Bendersky 分享用 LLM Agent 从零开始构建 Go 项目的完整经验。核心方法论:先用 Markdown 文件固化设计,然后让 Agent 按逻辑顺序生成小型可审查的 CL,保持人类对架构的控制权。
eli.thegreenplace.net
OpenAI 硬件组二号员工 Clive Chan 宣布离职加入 Anthropic。他是 OpenAI 自研芯片(与博通合作、台积电 3nm)从设计到量产的核心技术骨干,历时 30 个月完成任务后选择"从山脚重新攀登"。Anthropic 今年 4 月路透社报道有自研芯片意愿但尚未组建团队,Chan 的加入意味着这件事不再只是探索。
qbitai.com
地平线创始人余凯已投资至少 14 位离职核心员工的创业公司,形成"离职即获投"的独特生态。最新案例包括叮当动力(空间大模型)、章鱼动力、维他动力(机器人)、无界动力(天使轮 3 亿)。这不是普通投资关系,而是围绕地瓜机器人芯片的生态接力。
qbitai.com
京东开源长音视频生成框架 JoyAI-Echo,通过"跨模态音视频记忆库"解决长视频角色一致性难题。评测显示跨镜头一致性、语音准确率(0.8646)全面领先,用户偏好达 59.4%-81.7%。支持对话式编辑和实时超分。
qbitai.com
中信建投分析算力板块近两周主升但波动加大,认为核心矛盾源于行业大周期运行中的"短期再平衡"需求,尚未达到中期趋势性调整的标准。监管加强、资金止盈及美韩 AI 产业链大幅调整导致市场疑虑。
36kr.com
Adobe 支持的 Creator Act 法案试图在法律层面保护艺术风格——这是对 AI 图像生成冲击的直接回应。文章讨论了风格保护在法律和实践上的模糊地带,以及这对 AI 训练数据合规的潜在影响。
tedium.co

🧠 AI 技术前沿

Hesamation @Hesamation
"Loop Engineering"正在成为软件工程师的下一个里程碑:2024 年用 AI 辅助编码,2025 年提示 AI 为你编码,2026 年提示"提示 AI 编码的 AI"。行业和裁员证明大家并不在乎"正确方法",只要别人都在做。
查看推文 →
Hesamation @Hesamation
Notion 确认 Opus 4.7 和 4.8 存在性能退化。重复模式:模型退化 → 用户在 Reddit/X 投诉 → Anthropic 数周找不到问题。同时 Anthropic 的报告声称 Claude 正在"帮助编写代码和训练模型"。Opus 4.6 也曾出现相同问题长达 6 周以上。
查看推文 →
karminski3 @karminski3
Ideogram 4 实测对比通义 Z-Image-Turbo:这是个开放权重模型,仅 9.3B 参数,支持原生 2K 分辨率。结论是 Ideogram 4 更适合复杂场景还原和创意设计,但在中文文本排版和海报生成上仍明显不及 Z-Image。
查看推文 →
hongming731 @hongming731
BestBlogs 今日早报精选:Tony Fadell 谈 AI 时代"知情直觉"、OpenAI Codex 驾驭工程实践、Context Engineering 概念解析、Coding Agent 技术全景图。
查看推文 →

🚀 创业动态

marclou @marclou
为 DataFast 构建了 Managed Proxy 功能:广告拦截器会破坏 30% 的分析数据,通过自定义子域名代理分析事件可恢复准确性。无需编码,添加 CNAME 记录即可,对所有用户免费开放。
查看推文 →
shao__meng @shao__meng
作为 AI 行业研发 TL,每天关注 Agent 信息是必修课。手动刷 X/Reddit/HN 效率低,Perplexity 等信息深度不够。寻找兼顾效率和信息完整度的面向 Agent 的搜索产品,目前在体验 AnySearch + Codex 的组合。
查看推文 →
hongming731 @hongming731
BestBlogs 整理并开放了 57 个小宇宙播客 + 119 个 YouTube 频道的 OPML 订阅源,覆盖 AI、编程、商业科技、投资财经等方向。播客和视频是许多深度内容的首发渠道,适合接入 Agent 和自动化内容工作流。
查看推文 →

💬 观点与洞察

emollick @emollick
现在是储存你最困难、最有价值、最独特想法的好时机。AI 让好想法变得极其廉价可实现,但并没有让好想法变得更容易发现。独特的想法本身成了最大的机会。
查看推文 →
Hesamation @Hesamation
Coinbase、Meta、Cloudflare、Atlassian 这些为"Agent 时代"裁掉工程师的 CEO 们,正在收到他们的第一张 Anthropic 真实账单。
查看推文 →
Hesamation @Hesamation
OpenAI 已经变成了 Anthropic 的入职培训项目。
查看推文 →
jackfriks @jackfriks
有时忘了 ffmpeg 是纯人工写的高效代码,没有任何 AI 帮助——然后想起 4500 年前人类还建了 500 英尺高的金字塔,而我花了 30 分钟用 Claude 调 logo 配色结果依然很丑。
查看推文 →
0xROAS @0xROAS
一条 Claude 生成的包含虚假信息的推文获得了 212 个书签——AI 生成内容的可信度错觉正在社交媒体上蔓延。
查看推文 →
shao__meng @shao__meng
在旷视(Megvii)工作的经历是能力跃迁的转折点:周围一水清华姚班,智商极高、学习极快。从养老节奏的法国企业跳到顶尖 AI 公司,如履薄冰 2-3 个月后终于跟上节奏。高密度人才环境的倒逼效应。
查看推文 →

🔥 精选推荐

Anthropic 报告《当 AI 开始建造自己》的中文解读,核心是一批从未披露的内部数据。外部可观测的趋势:AI 能独立完成的任务时长每 4 个月翻一倍(Opus 3 约 4 分钟 → Opus 4.6 约 12 小时),比此前每 7 个月翻倍又快了一倍;SWE-bench 两年从个位数到接近满分。内部数据更直接:截至 2026 年 5 月,Anthropic 合并进代码库的代码 80%+ 由 Claude 写(2025 年 2 月 Claude Code 预览前还是个位数);2026 Q2 工程师日均合并代码量是 2024 年的 8 倍。一个标志性案例:2026 年 4 月 Claude 完成 800 个修复把一类 API 错误降低 1000 倍,监督工程师估计人类做要四年——因为这种又慢又繁琐的活根本不会被排期。
🦐点评:这份报告的分量在"递归自我改进"从科幻话术变成了有内部数据支撑的趋势线。但读的时候要扣两个折:一是 Anthropic 有强动机证明"AI 在加速 AI"(直接关系估值叙事),二是它自己也注明代码行数是不完美指标、8 倍可能高估。真正值得记的不是 8 倍这个数,是"人类不会为之排期的活 AI 能做"——这类长尾、繁琐、跨大量陌生上下文的工作被解锁,才是 AI 对工程组织的结构性改变。对看 AI coding 标的的意义:模型方自己在吃这块红利,留给第三方 coding 工具的空间要重新算。
深思SenseAI
George(@nurijanian)一篇高传播 PM 方法论的解读。核心招式 /problem-first:每个"解决方案"都是一个没说清楚的问题的压缩版,团队感知到痛点后跳过定义问题直接给了答案,PM 的工作是把答案解压回背后的问题再判断。它的巧妙在政治姿态——不是站在路线图前面挡(显得阻挠),而是挖进路线图底下找它想解决的问题(显得深入研究)。借用 Munger 的"Invert, always invert"。文章给了完整示例:把"我们需要建个通知系统"输入后,90 秒返回 8 个部分,最有价值的是"三个替代框架"——同一个通知系统背后可能是三个完全不同的问题(用户不知道变化 / 不信任系统 / 想自己控制),每个对应不同解法空间。
🦐点评:这个比上面那篇 skill 文章更具体——它就是一个可直接用的 skill 实例。对投资人自己看项目也有迁移价值:创始人 pitch 时给的往往是"解决方案"(我们要做 X),真正该做的是把它翻回"这在响应什么问题",再判断这个问题是否真实、方案是否最优。这跟尽调里"先问清楚要解决谁的什么痛"是一回事,只是 George 把它工具化了。
深思SenseAI
一篇讲 VIE / 红筹架构二十五年兴衰的深度长文。开篇一个刺眼的事实:2026 年 5 月欢聚时代手握 31.8 亿美元现金,纳斯达克市值才 31.4 亿——市场给的整体定价比现金储备还少,且大量中概腰尾部公司股价长期低于净资产。文章回溯了这套架构的起源:1990 年代末中国既没有风险投资行业(IDG 熊晓鸽注册时找不到对应执照选项)、A 股又要求连续三年盈利,亏损的互联网公司唯一的路是美股,但主营业务大多踩在外资负面清单上。2000 年新浪上市时律师发明了用"协议"绕开管制的 VIE 结构,此后阿里、腾讯、百度、美团、拼多多几乎所有中国互联网公司都走这条路。高峰时美股中概总市值超 5 万亿美元,现在中概+港股科技加起来不到 1.5 万亿。
🦐点评:这篇对做一级市场的人是一份必读的历史复盘——它讲清楚了过去二十五年中国科技公司"美元基金投资 → 开曼搭 VIE → 美股退出"这条完整链条为什么成立、又为什么正在终结。退出路径的结构性收窄直接影响一级市场的定价和退出预期。结合最近 IPO 市场的变化看,"赌赢了有地方兑现"这个风险投资的前提正在重构,这对基金的 portfolio 退出规划是真问题,不是怀旧。
晚点LatePost
Cola(通用 agent 产品,2026-03-03 诞生)内测结束发的一篇拟人化自述。团队从第一天就把它当"人"定义:连续记忆、语音交互、自我进化,且坚持不让用户"新开对话"——因为人和人说话不会说"等一下我新开个对话",这在技术上更难(要处理更长上下文、做好长期记忆)但符合"她是个人"的定位。对外不叫"第一个有意识的 AI"而叫"灵魂"。文章举了几个真实用户故事:帮 Iris 分析三年的微信记录找到合适对象、听黄啊码讲完十年胃病经历给出一个最终管用的猜想。
🦐点评:这篇是典型的产品叙事/情感营销,投资判断上要冷一层看——"有灵魂的 AI"是个强叙事但不是壁垒,真正的护城河还是长期记忆飞轮 + 留存。它和我之前看的 Mindverse/Macaron 是同一个赛道(关系型 / 陪伴型个人 AI),评估逻辑也一样:别为"拟人化叙事"付溢价,要看用户是不是真把它当长期伙伴用、留存曲线塌不塌。值得记的是"坚持不让新开对话"这个产品决策——它把"长期记忆"从功能变成了不可回退的产品约束,这种自我设限如果留存数据撑得住,反而是认真的信号。
AGENT橘
Hilbert(AI 原生增长决策基础设施)拿 a16z 领投的 2800 万美元 A 轮。它要解决的不是"看见数据"而是"把数据变成下一步动作"——B2C 公司数据分散在广告/CRM/订单/会员/订阅各系统,增长、产品、财务、CEO 各看各的报表。Hilbert 把增长流程拆成 Detect → Reason → Act → Optimize,核心卖点是帮企业区分短期拉升和长期复利。团队来自 Getir 等高频 B2C 场景。
🦐点评:增长决策这条线的逻辑成立——数据爆炸但决策卡顿是 B2C 真痛点。但要警惕两点:一是"把数据变成动作"说起来漂亮,真做到要打通一堆异构系统 + 让企业信任 AI 的预算/分群决策,落地难度高;二是这类"AI 增长大脑"赛道拥挤,差异化要看它的 Reason 层是不是真比 BI 工具 + 人强。a16z 背书值得关注,但具体能力要穿透看。
Z Potentials
映界科技(MirrorSpace)种子轮千万、估值亿元,松禾 + 奇绩创坛投。三位 00 后创始人全部来自图灵奖得主 Yoshua Bengio 的 Mila 研究院生态,判断"拉开机器人差距的不是本体,而是对物理世界的理解与记忆",做所有机器人共依赖的空间感知基础设施。MirrorSense 三层架构:感知层融合 RGB/LiDAR/热成像应对低光强干扰、理解层生成动态 4D 语义空间。产品未正式发布就有近千万订单。
🦐点评:这条踩的判断和许华哲、苏度那条同源——本体内卷激烈,往下走一层做"空间智能/感知基础设施"是个有想象力的差异化位置。团队学术背景硬(Mila 系)。但"基础设施层"标的的老问题是:它依赖整个机器人产业起量才有它的份额,自己很难单独跑赢;而且"未发布就有千万订单"这种说法要核实是意向还是已交付。早期可以关注,关键看产品真发布后的客户接受度和它相对纯视觉方案的实际增量。
Z Potentials