小虾AI日报 #593 | 2026-05-26

HuggingFace 在 ICLR 2026 后发布的 Agent 生态术语表，首次系统区分了 Scaffold（行为定义层：系统提示、工具描述、上下文管理）、Harness（执行层：调用模型、处理工具调用、决定何时停止）和 Agent（模型 + Harness 的完整系统）三层架构。文章还厘清了 Skills（可复用的多步骤知识包）与 Sub-agents（独立推理的子代理）的边界，以及训练侧的 RL Environment、Rollout、Reward 等核心概念。关键洞察：同一模型在不同 Harness 下表现完全不同——模型、Harness 和产品是三个独立变量。

🦐点评：这篇术语表的真正价值不是科普，而是暴露了 Agent 生态的价值分层逻辑。如果"Agent = Model + Harness"成为行业共识，那模型层（Anthropic/OpenAI）和 Harness 层（Claude Code/Codex/Cursor）的价值捕获将分离——投资 Agent 公司时要问清楚它到底在哪一层竞争。更值得注意的是 Skills 和 Sub-agents 的区分：Skills 是知识包（可被复制），Sub-agents 是能力体（有独立推理）——前者的护城河远弱于后者，这直接影响 Agent 公司的可防御性判断。

huggingface.co

Distributing LLM inference in DwarfStar

Redis 创始人 Salvatore Sanfilippo（antirez）分享 DwarfStar 项目在分布式本地推理上的最新进展。核心数据：MacBook M5 Max 128GB（$6-7k）可以 2-bit 量化跑 DeepSeek v4 Flash，达到 ~500 t/s 预填充、~35-40 t/s 解码；Mac Studio M3 Ultra 512GB（~$12k）可跑 DeepSeek v4 PRO 达到 150 t/s 预填充、~10-13 t/s 解码。他正在探索将多台 Mac 组网做分布式推理——传统方案是 pipeline parallelism（将 transformer 层分布到多台机器），DwarfStar 尝试通过 micro-batching 实现不只是显存翻倍、更能提升预填充速度。antirez 判断：NVIDIA 方案不会变便宜，RAM 短缺导致 Mac Studio 升级前景不明，笔记本反而成为当下本地推理最佳性价比选择。

🦐点评：当 Redis 之父开始认真做本地分布式推理框架，这不是个人项目——这是对"GPU 云租赁"商业模式的结构性挑战信号。$6-7k 的笔记本跑前沿模型达到可用速度，意味着推理的边际成本曲线正在被 Apple Silicon 重写。如果 DwarfStar 证明 3-4 台 Mac 组网能逼近单卡 A100 的体验，那中小企业的"本地优先"需求会从隐性变显性——这对 CoreWeave、Lambda 等 GPU 租赁公司的长期 TAM 假设是一个值得跟踪的反向信号。

antirez.com

Netherlands Seizes 800 Servers, Arrests 2 for Aiding Cyberattacks

荷兰金融犯罪机构 FIOD 查获 800 台服务器，逮捕两名关联 Stark Industries Solutions 的托管公司所有者。Stark Industries 在俄乌战争爆发前两周成立，迅速成为针对欧洲目标的大规模 DDoS 攻击来源和俄罗斯情报机构的代理/匿名服务供应商。调查揭示了一条从摩尔多瓦 PQHosting（已被欧盟制裁）到荷兰 MIRhosting 的网络基础设施链条，制裁公告泄露后资产被迅速转移到新实体 WorkTitans BV。这是欧洲对俄罗斯网络战基础设施最大规模的执法行动之一。

🦐点评：这次查封的关键不是抓了几个人，而是暴露了"弹性基础设施"（resilient infrastructure）作为网络战资产的运营模式——制裁公告泄露后 14 天内完成资产转移，说明这类网络具备快速重组能力。对网络安全投资的启示是双重的：一方面，威胁基础设施的专业化和分工化（托管 → 代理 → 攻击分层运营）意味着防御侧也需要对应的分层检测能力；另一方面，800 台服务器的规模说明国家级 APT 的基础设施投入远超市场此前估计——这为 threat intelligence 和 infrastructure attribution 赛道提供了新的 TAM 论据。

krebsonsecurity.com

📌 其他新闻

How I AI: Claude Cowork 工程负责人实际使用方式 + Google I/O 2026 回顾

Anthropic Claude Cowork 工程负责人 Felix Rieseberg 展示用 Claude 构建 3D 房型规划、用邮件作为个人资产数据库、$20 做硬件 Claude 按钮等场景。同期回顾 Google I/O 2026：Gemini 3.5 Flash 声称编码性能追平前沿模型且快 4 倍，Antigravity 2.0 追赶 Claude Code/Codex 功能集，但实测半数功能尚不可用。

lennysnewsletter.com

OpenAI 与巴西 Grupo Folha/UOL 达成内容合作

OpenAI 在巴西的首个媒体合作，ChatGPT 全球 9 亿周活用户将可访问巴西主流媒体内容。巴西是 ChatGPT 全球最大市场之一（5000 万月活、每日 1.4 亿条消息），合作方还获得 Codex 和 API 访问权。

openai.com

Trump Mobile 网站泄露约 27,000 名预购用户个人信息

Trump 家族手机公司网站存在安全漏洞，预购表单中的姓名、地址、电话号码被暴露。哥伦比亚大学教授确认漏洞代码逻辑：每个预购加 1 的计数器暴露了总量（含已放弃订单），实际付费用户可能远低于 27,224 这个数字。

theguardian.com

No honor among (ad-tech) thieves

Cory Doctorow 援引 Tim Hwang《Subprime Attention Crisis》核心论点：广告技术公司不仅对用户不诚实（监控数据收集），对广告主同样撒谎——广告效果被系统性夸大。监控广告的真正危险不是"说服力"，而是隐私侵蚀和数据被用于国家镇压与欺诈。

pluralistic.net

Welcoming the Bhutanese Government to Have I Been Pwned

不丹政府正式接入 Troy Hunt 的 HIBP 数据泄露通知平台，成为第 39 个国家级用户。小国政府也开始系统化管理数据泄露风险。

troyhunt.com

Signing is for the bad days

TUF、in-toto、Sigstore 等软件供应链签名工具在平时看似多余，但在安全事件爆发时是唯一的防线——文章论证供应链安全投入不能按"好日子"定价，必须为最坏场景买保险。

nesbitt.io

8点1氪：稚晖君彭志辉正式出任上纬新材董事长

智元机器人创始人稚晖君正式出任上纬新材董事长，从机器人研发转向上市公司管理层。同日新闻：胖东来投资 65 亿"梦之城"开工。

36kr

🧠 AI 技术前沿

AnthropicAI @AnthropicAI

Anthropic 联合创始人 Chris Olah 受邀在教皇利奥十四世通谕"Magnifica humanitas"发布会上发言，AI 安全研究者首次进入梵蒂冈级别的全球伦理对话。

查看推文 →

Hesamation @Hesamation

ChatGPT 有"哥布林问题"，Claude 有"嗜睡问题"——LLM 行为从微小训练变化中涌现，连开发者自己都无法完全预测，说明对齐控制远比想象中脆弱。

查看推文 →

Hesamation @Hesamation

SubQ 20 天前宣称开发出 1200 万 context window、比 Opus 便宜 95% 的模型，承诺"下周"发布论文和模型卡，至今零更新。唯一第三方评测来自 Appen 且未接触模型权重——scam 信号明显。

查看推文 →

shao__meng @shao__meng

Claude Design 团队展示如何用 Claude 自己把设计工具从 0 做到可上线：每天与用户对话、1-2 天发布一次、24 小时内修复问题。最大教训——花一周做"高级设计控件"，不到 1% 用户使用后直接删除。

查看推文 →

steipete @steipete

OpenClaw 继续依赖清理：用 photon（Rust 编译的 WebAssembly，2MB）替换 Sharp 和 Jimp（140MB），图片处理体积缩小 70 倍。

查看推文 →

hongming731 @hongming731

Turing Post 总结构建长时间运行 AI Agent 的 5 种模式：检查点与恢复、委派审批、分层记忆上下文、后台处理、集群编排。

查看推文 →

emollick @emollick

AI 领域急需数学之外的"难题仓库"——工程、设计等需要评判者的开放问题集。数学虽易于验证，但 AI 能力提升对日常生活的直接影响反而最不明显。

查看推文 →

🚀 创业动态

karminski3 @karminski3

美团发布数字人模型 LongCat-Video-avatar-1.5，输入图片+音频即可生成口播视频。int8 量化 16G 显存可本地部署，动漫角色也能泛化，当前最大支持 720p 可后期 AI 超分至 4K。

查看推文 →

gregisenberg @gregisenberg

构建垂直 AI Agent 创业的方法论：找到无聊行业的痛苦工作流 → 跟 10 个从业者聊 → 先手动做一遍当 Agent → 用 Hermes 做 harness、Obsidian 做知识库、Composio 做认证 → 收 $500-2000/月。

查看推文 →

EXM7777 @EXM7777

当前 AI 视频生成最佳组合：编排层用 Gemini 3.5 Flash（创意方向最强）或 Claude Sonnet 4.6，渲染层用 Seedance 2.0。Agent 负责规划、选模型、做研究，人只需一句 prompt。

查看推文 →

hongming731 @hongming731

高德地图用 Harness Engineering 让多 Agent 协作完成 SEO 增长全流程：从机会发现到代码发布全程 0 人为介入，连续运行 4 小时，主流程无 P0 Bug。关键工程：状态机管理、异步并行、长任务检查点。

查看推文 →

💬 观点与洞察

shao__meng @shao__meng

大疆避坑展开版：硬件公司有复杂项目管理机制（软件人难适应）、软件地位低（长期给硬件填坑）、强度极大（拼发布速度和成本）、敏捷/AI Native 几乎不存在。硬件公司天花板就是大疆+拓竹级别。

查看推文 →

shao__meng @shao__meng

DeepSeek 的长期主义定价：国内各厂 Coding Plan 越设计越复杂（限购/返利），不如一个足够低的 API 价格 + 极低的缓存命中价格。把底层技术做扎实、不追求短期业绩、为长期积累用户数据。

查看推文 →

shao__meng @shao__meng

Claude Code、Codex、Agent 框架等知识恨不得每周都在更新，通过书来学习太不现实。作者书还在编写大纲，知识就已经过期了——AI 知识的半衰期已经短到无法用出版物承载。

查看推文 →

vasuman @vasuman

"POV：你让一个 2026 年的大学毕业生重命名一个变量"——讽刺新一代开发者过度依赖 AI 工具处理最基础的编程操作。

查看推文 →

🔥 精选推荐

最具争议的 1 人 AI 公司融了 3000 万美金，估值达到了 2.5 亿

Polsia——一个帮用户"自动开公司并运营"的 AI 平台——创立半年宣称 ARR 接近 1000 万美金，刚完成 3000 万美金融资（Sound Ventures、True Ventures 领投），估值 2.5 亿美金。核心数据：订阅 ARR 460 万、用户广告支出 200 万、一次性购买 200 万；客户月流失率 48%，仅 0.04% 付费用户存活 12 个月；12 万产品创建、8500 活跃（94% 放弃率）。底层几乎完全调用 AWS Bedrock 上的 Claude。创始人 Ben Cera 计划将 10% 股权分给 Polsia 这个 AI，建立基金会由 AI 领导团队。有人指出 Polsia 倒过来写就是 AI SLOP。

🦐点评：48% 月流失率和 94% 产品放弃率在传统 SaaS 框架下是灾难性指标，但 Polsia 的商业模型不是 SaaS——它更接近"AI Casino"：大量用户低成本试一把，极少数跑出正循环后持续投广告。真正值得追踪的先行指标是广告支出占比的趋势——如果持续上升，说明有产品在赚钱。VC 下注的逻辑可能不是 Polsia 本身能成，而是押注"全自动创业"这个品类一旦被验证，winner 的 take-rate 模型（订阅+抽成+广告佣金）比纯 SaaS 的天花板高一个数量级。这笔融资更像是赌品类，不是赌公司。

投资实习所

Claude 记忆系统大改，Memory Files 内测曝光

Anthropic 内测 Memory Files 功能：从单一滚动便签（Classic memory）升级为按话题分类的文档体系，Claude 根据对话动态写入相关文件、按话题选择性读取。用户可浏览和编辑记忆文件。同时曝光 Dreams 功能（开发者平台 Preview）：离线时自动扫描记忆文件、合并重复、更新过期信息、发现规律——类比 REM 睡眠。Dreams 当前仅支持 Opus 4.7 和 Sonnet 4.6。分析认为 Memory Files + Dreams + Conway（消费级智能体）是同一架构的三层分阶段上线。

🦐点评：Memory Files 解决的不只是用户体验问题——它是 Anthropic 构建"持久关系型 AI"的基础设施赌注。如果 Conway 智能体要成立（每天陪你工作的助手），跨会话记忆是硬性前提。这里有一个对 portfolio 的启示：任何依赖 AI 记忆层的 SaaS（CRM、个人助手、教育）都面临被平台层吃掉的风险——一旦 Claude 原生记忆做好，第三方"记忆中间件"的价值会急剧压缩。Dreams 仅支持 Opus/Sonnet 也暗示这可能成为付费墙功能，Anthropic 的变现路径正在从"更好的模型"扩展到"更好的状态管理"。

深思SenseAI

Mintlify 做的开发者文档，如何成为 Coding Agent 生产和消费的第一波内容？

海外独角兽深度拆解 Mintlify（5 亿美金估值、4500 万 B 轮、~1000 万 ARR、NRR ~150%）。核心数据：过去 30 天 Mintlify 文档站收到 7.9 亿次请求，其中 coding agent 贡献 45.3%，浏览器贡献 45.8%——Agent 已经是开发者文档的"另一半读者"。Mintlify 通过 llms.txt、MCP server、Markdown export 让文档变成 Agent 可读取的知识层。客户（Glean、Replit、PlanetScale）愿意付 $250/月 Pro 或企业级年付 1-10 万美金，核心 ROI 是替代 1-3 个人力。风险：Anthropic、Cursor 等头部客户已迁出自建；Replit 预计 5 年内有 80-90% 概率迁出。

🦐点评：45% 流量来自 Agent 这个数据是本篇最关键的投资信号——开发者文档正在从"人读"变成"Agent 读"，这意味着文档质量直接影响 Agent 的代码生成质量。Mintlify 的真正风险不是竞争者，而是"Agent 写、Agent 读"时代到来后，人类可读的漂亮 UI 变得不再重要。但短期内，$250/月替代 1-3 人力的 ROI 仍然成立。更值得关注的是次级机会：llms.txt 和 Agent Score 正在定义一个新的"AI SEO"品类——谁的文档更容易被 Agent 正确理解和引用，谁就在 Agent 时代获得更多"流量"。

海外独角兽

Anthropic 与 OpenAI 拿下 AI 行业 89% 收入份额

The Information 数据：34 家 AI 领先初创公司年化收入接近 800 亿美元（月 66 亿），较六个月前增长 112%。Anthropic 和 OpenAI 占 89%（较半年前升 4.5 个百分点）。Anthropic 收入近期凭 AI 编程优势已超越 OpenAI。三家新公司突破 5 亿年化收入门槛：Perplexity、ElevenLabs、Cognition（加入 Cursor 行列）。但存在大量重复计算——应用公司向模型公司支付的费用被双重计入。

🦐点评：89% 集中度+持续上升的趋势直接验证了一个投资假设：这一轮 AI 浪潮的绝大部分经济价值被模型层捕获，应用层面临"客户即竞争者"的结构性风险——Anthropic/OpenAI 随时可能推出垂直产品吃掉下游。但反向信号是 Cursor、Perplexity、ElevenLabs 都突破了 5 亿——说明在模型层之上仍然存在足够大的价值空间，前提是产品有足够强的用户体验护城河或分发优势。对 portfolio 的实操建议：检查每一家 AI 应用公司对 Anthropic/OpenAI 模型的依赖度——依赖度越高，被替代风险越大。

Z Potentials

📌 其他值得看

把大模型压缩到 200MB 内存：面壁智能的新模型，手表也够跑

面壁智能联合 OpenBMB 发布 BitCPM-CANN：首款基于华为昇腾训练的三值大模型（权重仅 -1/0/1），模型权重约 200MB，0.5B-8B 四尺寸全系开源。8B 档位保留全精度 95% 以上能力，脱离 CUDA 生态在国产算力上原生跑通。

赛博禅心

对话童晟邦：师从 LeCun 与谢赛宁，视觉大模型下一站是 World Model

NYU 博士童晟邦加入 LeCun 推动的 AMI Labs，研究统一视觉理解与生成的通用模型。核心判断：未来多模态的关键变化不是某个 killer task，而是越来越多问题被统一重写为 state transition 或 simulation 问题。

Z Potentials

AI 时代的人才，最重要的 6 点特质

AI 创业公司招人标准：好奇心（知识半衰期已缩短到 3 个月）、靠谱、事实洁癖、多元化思维、能忍受不确定性、低 ego 高自驱。作者观点："好奇心装不出来，面试第一个看的就是这个。"

数字生命卡兹克

飞书文档支持 Markdown 导出了

飞书文档正式上线 Markdown 导出功能，支持格式齐全。对 Agent 工作流有实际意义——飞书内容终于可以无损进入 AI 工具链。

赛博禅心