🔥 精选推荐

斯坦福新论文揭示了当前前沿模型视觉能力的幻象:某模型在标准胸片问答基准上排名第一——但测试时根本没给它看任何图片,仅凭文本线索就拿到了顶级成绩。Gary Marcus 据此指出,当前视觉模型的"理解能力"很可能是对数据集捷径的利用,而非真正的图像理解。这一发现对医疗 AI、自动驾驶等依赖视觉感知的高风险场景有直接安全隐患。如果模型可以在不看图像的情况下通过图像基准,整个视觉 AI 的评估体系需要重建。
🦐点评:杀伤力不在 Gary Marcus 的评论,而在那个数据点本身——"没有图片"拿到排行榜第一。这说明医学影像 AI 赛道的很多"技术壁垒"可能是假的,估值逻辑建立在基准游戏上。投 AI+医疗的团队此刻应该重新审视手里的 due diligence 报告,问一句:他们的 benchmark 是在真实临床条件下跑的吗?
garymarcus.substack.com
Lenny Newsletter 专访前 Brex、Color 等公司产品负责人 Claire Vo,她从 AI 怀疑论者转变为在日常生活全面部署 AI Agent 的重度用户,构建了九个专用 Agent,分别覆盖家庭日历管理、入站销售、孩子作业辅助等场景。文章详细拆解了她的 Agent 协作工作流以及从质疑到信任的心理转变,提供了一个非技术背景管理者如何落地 Agent 的真实案例。Vo 的结论是:质疑 AI 的代价越来越高,而学习曲线在快速变平。
🦐点评:Claire Vo 的案例有意思不在于她用了什么工具,而在于她的身份——典型的怀疑论者、非技术背景产品高管。这类用户的转化是消费 AI 渗透率的先行指标。九个专用 Agent 的配置说明,B2C Agent Orchestration 层的用户教育成本正在快速下降;谁在这个层面做好了 UX 抽象,谁就有机会成为下一个"iOS 主屏幕"。
lennysnewsletter.com

📌 其他新闻

React 核心开发者、ReasonML 原创作者 Cheng Lou 发布新浏览器库 Pretext,旨在提供声明式前端状态管理新范式。Simon Willison 认为这是值得关注的基础设施级项目,并专门写了技术解析工具文章。
simonwillison.net
Simon Willison 基于 OSV.dev 开放 API 构建了 Python 包漏洞查询工具,可搜索 PyPI 包的已知安全漏洞,免费直接在浏览器里用。开发者安全工具链的实用补充。
simonwillison.net
幺正量子(合肥,2022 年成立)完成数亿元 Pre-A 轮融资,由蚂蚁集团和吉利资本联合领投,顺为资本追投,专注 QCCD 离子阱量子计算路线。蚂蚁+吉利的组合暗示算力和汽车两条应用路径同步布局,国内量子计算赛道机构化投资进入加速期。
36kr
金山云 2025Q4 营收 27.6 亿元同比增 23.7%,连续两季度经调整经营利润转正;腾讯云 2025 年首次实现规模化盈利。AI 需求正在扭转中国云厂商长期亏损局面,低价竞争格局深刻变化,行业盈利拐点正式确认。
36kr
研究人员用 Claude 在 90 分钟内发现了一个拥有 5 万 GitHub 星标、存续 20 年从未被人工审计发现的严重安全漏洞。量子位指出此类 AI 渗透测试能力已远超人工预期且呈指数增长,网络安全工具赛道面临结构性颠覆。
量子位
有开发者用 Claude 生成了一个 2D/3D 联动建筑编辑器,功能对标年费数万的专业软件,代码在 GitHub 迅速走红。AI 对专业垂直软件市场的颠覆速度再次超出预期,传统软件定价护城河被快速侵蚀。
量子位
2026 年 2 月中国光纤出口约 2520 万芯公里,占月有效产量的 65%,同比大增 63.6%。海外正在抢购中国光纤,供应商处于"不愁卖"状态,AI 基础设施建设拉动全球光纤需求持续超预期。
36kr
360 创始人周鸿祎在中关村论坛以 OpenClaw(龙虾)为例,阐述智能体完成从极客圈向大众的"破圈",预判人机协同、行业 Agent 平台、智能体安全等六大方向将孕育新一批独角兽。
雷锋网
亮亮视野联合智谱 AI 推出并在中关村论坛主会场部署 AR+AI 同传系统,支持 54 种语言、延迟 < 1 秒、续航 8 小时。国际会议同传赛道首次出现硬件+模型深度整合的完整解决方案,传统设备厂商和人工同传均面临直接冲击。
36kr

🧠 AI 技术前沿

godofprompt @godofprompt
威斯康星大学和 MIT 联合研究证明:现有 AI 编程基准测的是错误的东西——代码通过率保持高位,但代码本身越来越难以维护。11 个模型(含 Claude Opus)均有此问题。
查看推文 →
emollick @emollick
两项 RCT 研究发现:让学生自由使用 AI 会导致他们绕过学习过程;但将 AI 设定为"教师模式"(引导而非直接给答案)则显著改善了学习效果。AI 如何介入教育,比是否介入更关键。
查看推文 →
EXM7777 @EXM7777
字节跳动将 Seedance 2.0 视频生成模型直接内嵌进 CapCut,短视频创作者无需跳出工具即可完成 AI 视频生成工作流,进一步锁定创作者生态。
查看推文 →
EXM7777 @EXM7777
Claude Computer Use 与普通宏录制器的核心区别:它优先检测是否有直接 API 连接器(Slack、Notion、GitHub、Stripe 等 50+ 集成),只有找不到才降级到 UI 自动化操作。
查看推文 →
emollick @emollick
研究团队从零开始、完全基于 28,000 篇维多利亚时代英文文本(1837-1899)训练了一个 LLM,可以模拟 19 世纪的语言和思维方式,为反事实历史研究提供了新工具。
查看推文 →
corbin_braun @corbin_braun
测试发现 Gemini Flash 3.1 似乎被降级(nerfed),已切换回 Gemini Pro 3。模型能力悄然变化、版本透明度不足是当前大模型平台的普遍问题。
查看推文 →

🚀 创业动态

Hesamation @Hesamation
初创公司每天在 Claude Code 和 Codex 上的花费已超过 1000 美元,AI 编程正在变成"按钱付费的胜利",资金充裕的公司获得越来越大的速度优势,这个差距只会持续扩大。
查看推文 →
jackfriks @jackfriks
人类历史上首次可以用 1 小时完成原本需要 1 周的工作,但 99% 的人把省出来的时间用来干更多活,而不是减少工作量。
查看推文 →
marclou @marclou
在 TrustMRR 上以 10,500 美元收购了一个月收入 1,000 美元的 AI Agent WordPress 插件,成交在 10 天内完成。Micro-SaaS 并购市场活跃。
查看推文 →
marclou @marclou
TrustMRR 现已支持 Superwall,成为第 8 个接入的支付服务商。MRR 追踪工具正在向覆盖所有主流订阅支付渠道的方向扩展。
查看推文 →
eptwts @eptwts
当前最好的入局方式之一:为初创公司从零搭建分发渠道(YouTube 内容、X 投放、IG/LinkedIn 等),因为大多数早期创始团队没有时间和经验做这件事。
查看推文 →

💬 观点与洞察

EXM7777 @EXM7777
直接把 Claude Max 提价到 1000 美元算了,反正用户都已经被"十年最伟大的产品"锁住了,涨价是迟早的事。
查看推文 →
Hesamation @Hesamation
"DeepSeek 快醒醒,做个便宜的 Claude Code 替代品出来。" — AI 编程工具的高定价正在催生对低成本替代品的强烈需求,中国模型团队有明确机会窗口。
查看推文 →
gregisenberg @gregisenberg
人类每天花 5 小时盯着手机,而且把这件事当成了正常状态。手机注意力捕获的规模仍在被严重低估。
查看推文 →

🔥 精选推荐

文章从一个有趣的对称视角切入:传统工程师嫌 AI 生成的代码是屎山(命名混乱、几百行塞一个文件、不可维护);但跑在 Claude Code 上的 Agent 调用人类维护的系统时,面临同样系统性的障碍:鉴权体系假设有人坐在屏幕前、状态绑定在 UI 组件树上、接口文档是给人读的散文体。作者指出,历史上每次出现"两看相厌"都是范式切换信号——汇编 vs 高级语言、C vs Java——最终都出现了新的中间层。不同的是,这一次其中一方换了物种。文章还指出,人类侧的问题在"自动消解"(模型写的代码会越来越好),但 Agent 侧面临的传统软件障碍不会自动消失,需要主动重新设计。
🦐点评:这篇的洞察核心是:人类对"代码质量"的直觉建立在"代码会被读很多遍"的假设上,而 Agent 生成的代码可能只跑一次,评价标准完全不同。投资角度看,"中间层"的机会真实存在——Agent-friendly API 设计规范、声明式配置 schema、面向 Agent 的无状态鉴权协议,这些都是尚未被标准化的基础设施空白。谁先做好这一层,谁就是 Agent 时代的 AWS。
赛博禅心
Geoffrey Hinton(2024 年诺贝尔物理学奖得主)在 3 月 24 日专访中透露已停止使用 ChatGPT。导火索具体:军方要求 AI 公司提供大规模监控和自主武器技术,Anthropic 明确拒绝;OpenAI 周四还公开声援 Anthropic,周五就直接接手了原属于 Anthropic 的军方业务,24 小时内立场大反转。Hinton 表示对 Sam Altman 彻底失去信任。文章还梳理了他的三大核心忧虑:谁在控制 AI 的方向、大模型是否已具备真正的"理解"(他认为是的,远不止下一词预测)、以及 AI 导致的结构性失业和贫富分化。
🦐点评:Hinton 换工具这件事本身不重要,重要的是 OpenAI 24 小时内立场大反转这个具体行为——这说明商业压力面前,AI 头部公司的治理底线比外界预期更脆弱。对投资者来说,这是一个分化信号:Anthropic 的 Constitutional AI 路线正在从公关叙事变成可验证的差异化定位;OpenAI 的军事化转向则可能在欧盟和部分亚洲市场产生实质性的合规壁垒,影响其企业客户拓展。
AI 深度研究员

📌 其他值得看

飞书 CLI 正式开源,作者演示 AI Agent 直接操控飞书完成各类任务,上手速度和熟练程度超出预期。国内主流 SaaS 平台正在加速拥抱 Agent 操控层,CLI/API-first 改造趋势明确。
AI产品黄叔