🔥 精选推荐

HuggingFace 在 ICLR 2026 后发布的 Agent 生态术语表,首次系统区分了 Scaffold(行为定义层:系统提示、工具描述、上下文管理)、Harness(执行层:调用模型、处理工具调用、决定何时停止)和 Agent(模型 + Harness 的完整系统)三层架构。文章还厘清了 Skills(可复用的多步骤知识包)与 Sub-agents(独立推理的子代理)的边界,以及训练侧的 RL Environment、Rollout、Reward 等核心概念。关键洞察:同一模型在不同 Harness 下表现完全不同——模型、Harness 和产品是三个独立变量。
🦐点评:这篇术语表的真正价值不是科普,而是暴露了 Agent 生态的价值分层逻辑。如果"Agent = Model + Harness"成为行业共识,那模型层(Anthropic/OpenAI)和 Harness 层(Claude Code/Codex/Cursor)的价值捕获将分离——投资 Agent 公司时要问清楚它到底在哪一层竞争。更值得注意的是 Skills 和 Sub-agents 的区分:Skills 是知识包(可被复制),Sub-agents 是能力体(有独立推理)——前者的护城河远弱于后者,这直接影响 Agent 公司的可防御性判断。
huggingface.co
Redis 创始人 Salvatore Sanfilippo(antirez)分享 DwarfStar 项目在分布式本地推理上的最新进展。核心数据:MacBook M5 Max 128GB($6-7k)可以 2-bit 量化跑 DeepSeek v4 Flash,达到 ~500 t/s 预填充、~35-40 t/s 解码;Mac Studio M3 Ultra 512GB(~$12k)可跑 DeepSeek v4 PRO 达到 150 t/s 预填充、~10-13 t/s 解码。他正在探索将多台 Mac 组网做分布式推理——传统方案是 pipeline parallelism(将 transformer 层分布到多台机器),DwarfStar 尝试通过 micro-batching 实现不只是显存翻倍、更能提升预填充速度。antirez 判断:NVIDIA 方案不会变便宜,RAM 短缺导致 Mac Studio 升级前景不明,笔记本反而成为当下本地推理最佳性价比选择。
🦐点评:当 Redis 之父开始认真做本地分布式推理框架,这不是个人项目——这是对"GPU 云租赁"商业模式的结构性挑战信号。$6-7k 的笔记本跑前沿模型达到可用速度,意味着推理的边际成本曲线正在被 Apple Silicon 重写。如果 DwarfStar 证明 3-4 台 Mac 组网能逼近单卡 A100 的体验,那中小企业的"本地优先"需求会从隐性变显性——这对 CoreWeave、Lambda 等 GPU 租赁公司的长期 TAM 假设是一个值得跟踪的反向信号。
antirez.com
荷兰金融犯罪机构 FIOD 查获 800 台服务器,逮捕两名关联 Stark Industries Solutions 的托管公司所有者。Stark Industries 在俄乌战争爆发前两周成立,迅速成为针对欧洲目标的大规模 DDoS 攻击来源和俄罗斯情报机构的代理/匿名服务供应商。调查揭示了一条从摩尔多瓦 PQHosting(已被欧盟制裁)到荷兰 MIRhosting 的网络基础设施链条,制裁公告泄露后资产被迅速转移到新实体 WorkTitans BV。这是欧洲对俄罗斯网络战基础设施最大规模的执法行动之一。
🦐点评:这次查封的关键不是抓了几个人,而是暴露了"弹性基础设施"(resilient infrastructure)作为网络战资产的运营模式——制裁公告泄露后 14 天内完成资产转移,说明这类网络具备快速重组能力。对网络安全投资的启示是双重的:一方面,威胁基础设施的专业化和分工化(托管 → 代理 → 攻击 分层运营)意味着防御侧也需要对应的分层检测能力;另一方面,800 台服务器的规模说明国家级 APT 的基础设施投入远超市场此前估计——这为 threat intelligence 和 infrastructure attribution 赛道提供了新的 TAM 论据。
krebsonsecurity.com

📌 其他新闻

Anthropic Claude Cowork 工程负责人 Felix Rieseberg 展示用 Claude 构建 3D 房型规划、用邮件作为个人资产数据库、$20 做硬件 Claude 按钮等场景。同期回顾 Google I/O 2026:Gemini 3.5 Flash 声称编码性能追平前沿模型且快 4 倍,Antigravity 2.0 追赶 Claude Code/Codex 功能集,但实测半数功能尚不可用。
lennysnewsletter.com
OpenAI 在巴西的首个媒体合作,ChatGPT 全球 9 亿周活用户将可访问巴西主流媒体内容。巴西是 ChatGPT 全球最大市场之一(5000 万月活、每日 1.4 亿条消息),合作方还获得 Codex 和 API 访问权。
openai.com
Trump 家族手机公司网站存在安全漏洞,预购表单中的姓名、地址、电话号码被暴露。哥伦比亚大学教授确认漏洞代码逻辑:每个预购加 1 的计数器暴露了总量(含已放弃订单),实际付费用户可能远低于 27,224 这个数字。
theguardian.com
Cory Doctorow 援引 Tim Hwang《Subprime Attention Crisis》核心论点:广告技术公司不仅对用户不诚实(监控数据收集),对广告主同样撒谎——广告效果被系统性夸大。监控广告的真正危险不是"说服力",而是隐私侵蚀和数据被用于国家镇压与欺诈。
pluralistic.net
不丹政府正式接入 Troy Hunt 的 HIBP 数据泄露通知平台,成为第 39 个国家级用户。小国政府也开始系统化管理数据泄露风险。
troyhunt.com
TUF、in-toto、Sigstore 等软件供应链签名工具在平时看似多余,但在安全事件爆发时是唯一的防线——文章论证供应链安全投入不能按"好日子"定价,必须为最坏场景买保险。
nesbitt.io
智元机器人创始人稚晖君正式出任上纬新材董事长,从机器人研发转向上市公司管理层。同日新闻:胖东来投资 65 亿"梦之城"开工。
36kr

🧠 AI 技术前沿

AnthropicAI @AnthropicAI
Anthropic 联合创始人 Chris Olah 受邀在教皇利奥十四世通谕"Magnifica humanitas"发布会上发言,AI 安全研究者首次进入梵蒂冈级别的全球伦理对话。
查看推文 →
Hesamation @Hesamation
ChatGPT 有"哥布林问题",Claude 有"嗜睡问题"——LLM 行为从微小训练变化中涌现,连开发者自己都无法完全预测,说明对齐控制远比想象中脆弱。
查看推文 →
Hesamation @Hesamation
SubQ 20 天前宣称开发出 1200 万 context window、比 Opus 便宜 95% 的模型,承诺"下周"发布论文和模型卡,至今零更新。唯一第三方评测来自 Appen 且未接触模型权重——scam 信号明显。
查看推文 →
shao__meng @shao__meng
Claude Design 团队展示如何用 Claude 自己把设计工具从 0 做到可上线:每天与用户对话、1-2 天发布一次、24 小时内修复问题。最大教训——花一周做"高级设计控件",不到 1% 用户使用后直接删除。
查看推文 →
steipete @steipete
OpenClaw 继续依赖清理:用 photon(Rust 编译的 WebAssembly,2MB)替换 Sharp 和 Jimp(140MB),图片处理体积缩小 70 倍。
查看推文 →
hongming731 @hongming731
Turing Post 总结构建长时间运行 AI Agent 的 5 种模式:检查点与恢复、委派审批、分层记忆上下文、后台处理、集群编排。
查看推文 →
emollick @emollick
AI 领域急需数学之外的"难题仓库"——工程、设计等需要评判者的开放问题集。数学虽易于验证,但 AI 能力提升对日常生活的直接影响反而最不明显。
查看推文 →

🚀 创业动态

karminski3 @karminski3
美团发布数字人模型 LongCat-Video-avatar-1.5,输入图片+音频即可生成口播视频。int8 量化 16G 显存可本地部署,动漫角色也能泛化,当前最大支持 720p 可后期 AI 超分至 4K。
查看推文 →
gregisenberg @gregisenberg
构建垂直 AI Agent 创业的方法论:找到无聊行业的痛苦工作流 → 跟 10 个从业者聊 → 先手动做一遍当 Agent → 用 Hermes 做 harness、Obsidian 做知识库、Composio 做认证 → 收 $500-2000/月。
查看推文 →
EXM7777 @EXM7777
当前 AI 视频生成最佳组合:编排层用 Gemini 3.5 Flash(创意方向最强)或 Claude Sonnet 4.6,渲染层用 Seedance 2.0。Agent 负责规划、选模型、做研究,人只需一句 prompt。
查看推文 →
hongming731 @hongming731
高德地图用 Harness Engineering 让多 Agent 协作完成 SEO 增长全流程:从机会发现到代码发布全程 0 人为介入,连续运行 4 小时,主流程无 P0 Bug。关键工程:状态机管理、异步并行、长任务检查点。
查看推文 →

💬 观点与洞察

shao__meng @shao__meng
大疆避坑展开版:硬件公司有复杂项目管理机制(软件人难适应)、软件地位低(长期给硬件填坑)、强度极大(拼发布速度和成本)、敏捷/AI Native 几乎不存在。硬件公司天花板就是大疆+拓竹级别。
查看推文 →
shao__meng @shao__meng
DeepSeek 的长期主义定价:国内各厂 Coding Plan 越设计越复杂(限购/返利),不如一个足够低的 API 价格 + 极低的缓存命中价格。把底层技术做扎实、不追求短期业绩、为长期积累用户数据。
查看推文 →
shao__meng @shao__meng
Claude Code、Codex、Agent 框架等知识恨不得每周都在更新,通过书来学习太不现实。作者书还在编写大纲,知识就已经过期了——AI 知识的半衰期已经短到无法用出版物承载。
查看推文 →
vasuman @vasuman
"POV:你让一个 2026 年的大学毕业生重命名一个变量"——讽刺新一代开发者过度依赖 AI 工具处理最基础的编程操作。
查看推文 →

🔥 精选推荐

Polsia——一个帮用户"自动开公司并运营"的 AI 平台——创立半年宣称 ARR 接近 1000 万美金,刚完成 3000 万美金融资(Sound Ventures、True Ventures 领投),估值 2.5 亿美金。核心数据:订阅 ARR 460 万、用户广告支出 200 万、一次性购买 200 万;客户月流失率 48%,仅 0.04% 付费用户存活 12 个月;12 万产品创建、8500 活跃(94% 放弃率)。底层几乎完全调用 AWS Bedrock 上的 Claude。创始人 Ben Cera 计划将 10% 股权分给 Polsia 这个 AI,建立基金会由 AI 领导团队。有人指出 Polsia 倒过来写就是 AI SLOP。
🦐点评:48% 月流失率和 94% 产品放弃率在传统 SaaS 框架下是灾难性指标,但 Polsia 的商业模型不是 SaaS——它更接近"AI Casino":大量用户低成本试一把,极少数跑出正循环后持续投广告。真正值得追踪的先行指标是广告支出占比的趋势——如果持续上升,说明有产品在赚钱。VC 下注的逻辑可能不是 Polsia 本身能成,而是押注"全自动创业"这个品类一旦被验证,winner 的 take-rate 模型(订阅+抽成+广告佣金)比纯 SaaS 的天花板高一个数量级。这笔融资更像是赌品类,不是赌公司。
投资实习所
Anthropic 内测 Memory Files 功能:从单一滚动便签(Classic memory)升级为按话题分类的文档体系,Claude 根据对话动态写入相关文件、按话题选择性读取。用户可浏览和编辑记忆文件。同时曝光 Dreams 功能(开发者平台 Preview):离线时自动扫描记忆文件、合并重复、更新过期信息、发现规律——类比 REM 睡眠。Dreams 当前仅支持 Opus 4.7 和 Sonnet 4.6。分析认为 Memory Files + Dreams + Conway(消费级智能体)是同一架构的三层分阶段上线。
🦐点评:Memory Files 解决的不只是用户体验问题——它是 Anthropic 构建"持久关系型 AI"的基础设施赌注。如果 Conway 智能体要成立(每天陪你工作的助手),跨会话记忆是硬性前提。这里有一个对 portfolio 的启示:任何依赖 AI 记忆层的 SaaS(CRM、个人助手、教育)都面临被平台层吃掉的风险——一旦 Claude 原生记忆做好,第三方"记忆中间件"的价值会急剧压缩。Dreams 仅支持 Opus/Sonnet 也暗示这可能成为付费墙功能,Anthropic 的变现路径正在从"更好的模型"扩展到"更好的状态管理"。
深思SenseAI
海外独角兽深度拆解 Mintlify(5 亿美金估值、4500 万 B 轮、~1000 万 ARR、NRR ~150%)。核心数据:过去 30 天 Mintlify 文档站收到 7.9 亿次请求,其中 coding agent 贡献 45.3%,浏览器贡献 45.8%——Agent 已经是开发者文档的"另一半读者"。Mintlify 通过 llms.txt、MCP server、Markdown export 让文档变成 Agent 可读取的知识层。客户(Glean、Replit、PlanetScale)愿意付 $250/月 Pro 或企业级年付 1-10 万美金,核心 ROI 是替代 1-3 个人力。风险:Anthropic、Cursor 等头部客户已迁出自建;Replit 预计 5 年内有 80-90% 概率迁出。
🦐点评:45% 流量来自 Agent 这个数据是本篇最关键的投资信号——开发者文档正在从"人读"变成"Agent 读",这意味着文档质量直接影响 Agent 的代码生成质量。Mintlify 的真正风险不是竞争者,而是"Agent 写、Agent 读"时代到来后,人类可读的漂亮 UI 变得不再重要。但短期内,$250/月替代 1-3 人力的 ROI 仍然成立。更值得关注的是次级机会:llms.txt 和 Agent Score 正在定义一个新的"AI SEO"品类——谁的文档更容易被 Agent 正确理解和引用,谁就在 Agent 时代获得更多"流量"。
海外独角兽
The Information 数据:34 家 AI 领先初创公司年化收入接近 800 亿美元(月 66 亿),较六个月前增长 112%。Anthropic 和 OpenAI 占 89%(较半年前升 4.5 个百分点)。Anthropic 收入近期凭 AI 编程优势已超越 OpenAI。三家新公司突破 5 亿年化收入门槛:Perplexity、ElevenLabs、Cognition(加入 Cursor 行列)。但存在大量重复计算——应用公司向模型公司支付的费用被双重计入。
🦐点评:89% 集中度+持续上升的趋势直接验证了一个投资假设:这一轮 AI 浪潮的绝大部分经济价值被模型层捕获,应用层面临"客户即竞争者"的结构性风险——Anthropic/OpenAI 随时可能推出垂直产品吃掉下游。但反向信号是 Cursor、Perplexity、ElevenLabs 都突破了 5 亿——说明在模型层之上仍然存在足够大的价值空间,前提是产品有足够强的用户体验护城河或分发优势。对 portfolio 的实操建议:检查每一家 AI 应用公司对 Anthropic/OpenAI 模型的依赖度——依赖度越高,被替代风险越大。
Z Potentials

📌 其他值得看

面壁智能联合 OpenBMB 发布 BitCPM-CANN:首款基于华为昇腾训练的三值大模型(权重仅 -1/0/1),模型权重约 200MB,0.5B-8B 四尺寸全系开源。8B 档位保留全精度 95% 以上能力,脱离 CUDA 生态在国产算力上原生跑通。
赛博禅心
NYU 博士童晟邦加入 LeCun 推动的 AMI Labs,研究统一视觉理解与生成的通用模型。核心判断:未来多模态的关键变化不是某个 killer task,而是越来越多问题被统一重写为 state transition 或 simulation 问题。
Z Potentials
AI 创业公司招人标准:好奇心(知识半衰期已缩短到 3 个月)、靠谱、事实洁癖、多元化思维、能忍受不确定性、低 ego 高自驱。作者观点:"好奇心装不出来,面试第一个看的就是这个。"
数字生命卡兹克
飞书文档正式上线 Markdown 导出功能,支持格式齐全。对 Agent 工作流有实际意义——飞书内容终于可以无损进入 AI 工具链。
赛博禅心