🔥 精选推荐
Taalas HC1 实现每用户 16,960 tok/s 的 Llama 3.1 8B 推理速度,比主流 GPU 方案快约一个数量级。a16z 的 Martin Casado 阐述了定制 ASIC 的商业逻辑:如果模型推理收入超过 10 亿美元,则 2 亿美元流片成本(节省 20%)在经济上已完全合理,更极端情形(节省 50%)则可回本 5 亿。文章同步覆盖 Gemini 3.1 Pro 评测——多针检索优于 GPT-5.2,但实际工具链和 Agent 行为存在明显缺陷;SWE-bench 评测方法论争议持续,Epoch AI 承认历史数据与其他实验室存在系统性差异并已更新方法论。
🦐点评:每用户 17K tok/s 不只是速度升级,而是打开了"接近实时的 AI 思考"这一全新产品范式。a16z 的 ASIC 逻辑很直白:模型越标准化,定制硅的 ROI 就越确定。OpenAI-Broadcom 合作已是第一个公开信号,接下来模型公司垂直整合芯片将成常态,英伟达护城河将被系统性侵蚀——不是明年,但五年窗口内是大概率事件。
Karpathy 发布迷你长文,将 "Claw"(以 OpenClaw 为代表的 AI agent 操作系统)定义为继聊天、代码之后的第三波 AI 范式。他在 Apple Store 购买 Mac Mini 专程探索 Claws,称店员反映设备因 Claws 需求销售异常火爆。Karpathy 将 Claw 描述为"LLM agents 之上的新一层",整合了 orchestration、scheduling、context、tool calls 和持久化;重点推荐核心引擎仅 4000 行的 NanoClaw,认为这种极简实现"可同时被人类和 AI agent 完整读取审查"。Simon Willison 评论:"Claw" 正成为整个 OpenClaw 类 agent 系统的统称术语。
🦐点评:Karpathy 的术语创造有历史记录(vibe coding、agentic engineering),这次对 Claw 的背书可能是这个类别从 niche 走向主流的加速信号。但关键约束是:当前 Claw 生态以个人用户为主,企业级 Claw 的安全性、合规性和商业模式都未被验证——Mac Mini 卖爆是消费者信号,不是企业信号。谁能先打通企业侧,才是真正的 VC 机会。
Anthropic 研究员 Nicholas Carlini 用 16 个 Claude Opus 4.6 智能体,在无人工干预条件下耗时两周、花费约 2 万美元 API 费用,从零构建了一个基于 Rust 的 C 编译器。最终产出 10 万行代码,通过 GCC torture test 的 99%,可编译 Linux 6.9 内核、FFmpeg、Redis、PostgreSQL 和 QEMU。架构上,智能体在共享 Git 仓库中并行协作,通过文件锁实现同步,每个 agent 运行在独立 Docker 容器中,无中央编排 agent。Carlini 强调:意义不在于编译器本身,而在于"为长期自主运行的 agent 团队设计控制框架"的方法论探索。
🦐点评:$20K API + 两周 = 10 万行生产级代码,这个性价比数字本身就足以让软件外包行业颤抖。更值得关注的是架构细节——没有中央编排者、基于 Git 锁的协调机制、持续集成作为 ground truth,这套"去中心化 agent 工程学"已足够成熟。下一步是在垂直领域(金融合规代码、医疗系统开发)复制这个模式,那才是真正的颠覆性商业机会。
📌 其他新闻
OpenAI 工程师 Thibault Sottiaux 披露,GPT-5.3-Codex-Spark 已完成 30% 提速优化,目前推理速度超过每秒 1200 个 token,编程辅助体验将进一步提升。
黄仁勋近日澄清从未正式承诺向 OpenAI 投资 1000 亿美元,称"只是被邀请了";与此同时,OpenAI 正开始尝试广告业务,与 Sam Altman 此前"广告是最后手段"的公开表态形成矛盾,引发外界对 OpenAI 盈利压力的广泛关注。
以深海"鲸落"为比喻分析开源项目的生态演替规律:大型项目死亡后,fork 接管者竞争、模块被提取,协议和格式作为"结构骨骼"长期存续。LibreOffice、Dart Sass、OCI 容器规范等案例说明代码可以死亡,但接口和标准能持续数十年。
阿里千问推出编程专项计划 Qwen Coding Plan,上线 Qwen3.5-Plus、Qwen3-Coder-Next 两款新模型,并完成与 QwenCode、Claude Code、Cline 等主流 AI 编程工具的适配对接。
清华 AIR 团队研究表明,算法视觉理解的核心缺陷是缺乏"语义显著性提取能力",融入人类检查阶段的语义注意力可高效填补算法的认知缺口,且无需大规模预训练,为自动驾驶感知优化提供了低成本路径。
初创公司 Taalas 由 AMD 前高管组成的 24 人团队打造,定制 ASIC 芯片实现每秒逾 17000 个 token 推理速度,成本约为英伟达 GPU 方案的 1/10,印证了"定制硅+特定模型"换取极致推理效率的商业路线可行性。
Lenny Newsletter 第 174 期社区精华,涵盖企业级产品落地策略、工程速度超过产品节奏的应对方式、PRD 版本管理,以及如何围绕个人能量状态安排工作节奏的多维度实战经验。
🧠 AI 技术前沿
Karpathy 一句话定性 AI 范式演进:从聊天(chat)到代码(code),再到 "claw"(agent 操作系统),将其定性为继 LLM agent 之后的新一层抽象。
查看推文 →
Karpathy 将 Claw 框架类比于元学习(MAML)——探索"最容易被扩展的 agent 系统",认为 NanoClaw 等极简实现可同时被人类和 AI agent 完整理解,是"最可被 fork 的 repo 形态",也是传统软件世界中 meta-learning 思想的对应物。
查看推文 →
一针见血:AI 训练投入数十亿美元,独立评测经费只有数千美元——基准测试的可信度正成为整个行业的软肋,资金不对称将持续扭曲评测结果。
查看推文 →
手机 OS 的 AI 时代命题:手机使用场景可分为"连接遗留 App"和"执行任务"两类,后者已完全可以交给 AI Agent;emollick 认为一个好的 Claw 现在就能处理大多数轻量级手机操作任务,这让 Apple 放弃 LLM 构建的代价可能远超预期。
查看推文 →
从心理学解构 AI 记忆问题:Conway 的"自我记忆系统"(2000年)表明记忆是每次访问时动态重建的,而非录像——这与 LLM 的行为高度契合,记忆问题在心理学领域早有系统性答案,只是 AI 界鲜少引用那批论文。
查看推文 →
指出 agentic 编程中最被低估的架构缺陷:多个异步子 agent 共享历史记录时,系统无法可靠追踪"谁对谁说了什么",指令遵从因此失效——这不是幻觉,是对话状态污染导致的架构性问题。
查看推文 →
🚀 创业动态
提出未被满足的资源对接需求:大量 Mac Mini 上的 OpenClaw 实例处于空闲,而非营利研究和开源项目有强烈 AI 算力需求,两者之间缺少连接平台——这是一个未被人发现的两侧市场机会。
查看推文 →
当前创业窗口判断:多年积累专业经验的人现在可以以极低开发成本将知识产品化,"领域积累 × AI工具 = 可变现产品"的公式正在全面生效,知识密集型 SaaS 的创业门槛已降至历史最低。
查看推文 →
对 Anthropic 开源策略提出质疑:建议重新评估 Claude Code 订阅,认为 Anthropic 对开源的限制态度出乎意料,这与其早期开放姿态形成落差,可能影响开发者社区的长期信任。
查看推文 →
💬 观点与洞察
X 上的"AI 单一腔调"正在蔓延——不只是 AI 回复泛滥,大量长帖都过了"Claude 砂纸",同质化写作风格让浏览体验愈发无聊;提示词质量低下正在系统性摧毁社交媒体的信息多样性。
查看推文 →
开源维护者坦言:维护疲惫的根源不是收入问题,而是用户的权利感和持续索取让项目失去乐趣——这是大型开源项目可持续性危机的真实切面,靠赞助无法解决的心理成本问题。
查看推文 →
Twitter 生态结构变迁的直接观察:财富圈(Money Twitter)和加密圈(Crypto Twitter)已被 AI Twitter 全面吞没,AI 叙事主导了整个 X 平台流量分配。
查看推文 →
提醒 OpenClaw 用户审慎使用:需特别关注安装的 Skills 来源、授权的文件访问范围、绑定的邮件和社交账号,以及运行 Claw 的远程服务器安全性——这是使用 agent 操作系统的系统性风险清单。
查看推文 →
🔥 精选推荐
Gemini 3 预训练负责人在深度访谈中揭示,这一代模型的质变来自于对"数据有限"时代的系统性应对——互联网数据已逼近可用天花板,纯粹扩大数据量无法维持 scaling 曲线。数据质量、合成数据生成和精细化数据工程因此成为新的竞争维度,而非过去单纯拼数据体量。Gemini 3 在这一约束下实现飞跃,意味着 Google 已找到应对数据瓶颈的有效方法论。这一范式转变标志着 AI 训练进入需要更精细数据策略的新阶段,对行业竞争格局的影响将是深远的。
🦐点评:"数据无限"到"数据有限"是整个 AI 行业的结构性拐点——靠堆数据+算力驱动 scaling 的时代正在关闭。对 VC 来说这是清晰的赛道信号:数据工程、合成数据生成、数据标注质量控制的投资逻辑正被头部 lab 内部实践所验证,这个方向过去两年估值虚高,但现在基本面真的到来了,入场时机比两年前更确定。
作者花费 11,000 元人民币,系统测试了 34,205 条大模型使用用例,对国内外主流模型进行了大规模横向实测对比。测试通过实际用例而非合成基准衡量模型真实能力,发现各模型在不同任务上的表现差异显著,"哪个模型适合哪种场景"的答案与官方 benchmark 排名存在明显出入。这是国内目前规模最大的个人实测研究之一,以实证数据给出不同业务场景下的模型选型建议,对 AI 应用公司有直接参考价值。
🦐点评:在模型能力日益同质化的趋势下,这类大规模实测研究的核心价值是揭示"评测好但实用差"的模型——这正是 AI 应用公司选型的痛点。更深的信号是:能持续跑大量真实用例的团队本身就在积累选型数据护城河,这比拿到某个榜单第一名更值钱,也是模型评测赛道有独立商业价值的底层逻辑。
📌 其他值得看
OpenAI 应用 CTO 与 Codex 负责人深度对话,阐述 AI 如何从根本上改变软件构建方式,涵盖 agent 编程工作流、人机协作新模式以及 Codex 在推动软件工程自动化中的战略定位。
Notion CEO Ivan Zhao 明确表示未来产品必须支持 Agent 调用,否则将被淘汰;探讨了 Notion 从"工具"向"AI 协作工作空间"的战略转型路径,以及如何定义 AI-native 时代的产品形态。
Sam Altman 在新德里的公开对话中,系统阐述其对 AI 安全边界、模型能力发展路径、AI 对全球经济影响以及人类与 AI 协作关系的核心判断,是一篇高密度的战略思考记录。
Cursor 设计负责人专访,阐述 AI 编程工具对设计师角色的结构性冲击:仅掌握视觉输出技能的设计师面临淘汰压力,未来设计师需同时具备理解系统架构、工程逻辑和 AI 协作的综合能力。
回应孟岩"AI 让人让渡思考"的观点,作者分享了以访谈写作 Skill 为核心的亲身实验:历史内容知识库、双 Agent 博弈迭代、以及"每写一篇文章即喂养 AI 知识飞轮"的实践,提出 AI 可以是"认知带宽扩展器"而非思考替代者。