🔥 精选推荐
白宫正在与 Anthropic 敲定一项协议,允许 NSA 等美国情报机构使用其先进 AI 模型处理机密工作。此前国防部曾对 Anthropic 进行特殊标记审查。该协议意味着 Claude 模型将正式进入美国政府最高保密级别的应用场景,也标志着 AI 安全公司与国家安全机构之间的合作进入实质阶段。
🦐点评:Anthropic 以"AI 安全"立身,却率先拿下 NSA 合同——这不是矛盾,而是一步精心计算的棋。政府合同意味着稳定的高利润收入流,更意味着在 AI 监管制定过程中拥有席位。对比 OpenAI 走消费者路线、Google 走企业路线,Anthropic 正在用安全叙事换取最高等级的政府信任——这个定位在 AGI 监管博弈中可能是最有价值的。
OpenAI 联合创始人 Greg Brockman 公开表态"模型本身不再是产品",标志着头部 AI 实验室的共识转向。AI21 关闭模型团队全面转向 Agent,DeepSeek 首次组建"Harness 团队"。Latent Space 指出一个值得警惕的趋势:模型与 Agent 框架深度耦合后训练,厂商可以事实上将用户锁定在自家 Agent 生态中,即便模型本身是开源的。DeepSeek V4 Pro 永久降价 75%,API 综合成本约 $0.18/M token,比 GPT-5.5 便宜约 12 倍。
🦐点评:Greg 说"模型不再是产品",更准确的说法是"模型不再是定价权的来源"。DeepSeek 把价格打到 GPT-5.5 的 1/12 时,模型层正在加速商品化。AI21 关模型团队转 Agent 不是战略选择,而是生存选择。Latent Space 点出的 model-harness 耦合风险值得重视:如果 OpenAI 的模型只有在 Codex 里才能发挥最佳水平,"开放 API"就变成了定价歧视工具而非真正的开放。
NVIDIA 发布 Nemotron-Labs Diffusion 系列扩散语言模型(3B/8B/14B),打破自回归模型"逐 token 生成"的根本瓶颈。该模型并行生成多个 token 后迭代精炼,更充分利用 GPU 算力,且具备修改已生成 token 的能力。模型以商业友好的 NVIDIA Nemotron Open License 发布,同时提供 8B 视觉语言模型变体。
🦐点评:自回归模型的 memory-bound 瓶颈意味着 GPU 大部分时间在等内存读写而非计算,扩散模型的并行生成天然更适合 GPU 算力密集型架构——而这恰好是 NVIDIA 最擅长的。如果这条路走通,受冲击最大的是推理即服务的定价模型:按 token 计费在并行生成下需要重新定义"token"的含义。更深层的信号是 NVIDIA 正在从卖铲子走向定义挖矿方式。
geohot 提出反主流的 AI 风险框架:真正的危险不是 Skynet 式人机大战或灰蛊场景,而是以"安全"之名建立的 singleton——一个没有外部的统一控制层。暴力被预防、现实被中介、一切以行政语言推行。在这种系统中,没有独立行为者能施加成本,没有竞争系统能绕过它,没有不受控的演化过程能产生意外。不是一场与机器的战争,而是演化的缓慢终结。
🦐点评:geohot 最锐利的洞察是把 AI 风险从"AI 是否会攻击人类"重定义为"AI 是否会终结人类的演化开放性"。这对投资有直接启示——当 AI 安全讨论都聚焦于对齐(alignment)时,更根本的问题可能是多样性:市场上是否存在足够多的独立 AI 系统互相竞争?如果最终只剩 2-3 家 AI 巨头垄断推理层,"安全"本身可能成为最大的垄断工具。
📌 其他新闻
百川智能一年前大幅缩减通用模型团队 All in 医疗 AI,新发布医疗大模型 M4 和 Agent 产品"百小医"。在 HealthBench 评测中表现最佳,北京儿童医院 AI 诊断与专家会诊结果吻合率达 95%。
DeepSeek V4 Pro 永久降价 75%,梁文锋重申坚持开源路线。宁德时代、京东、网易等大厂争相接入,API 成本降至行业最低水平。
分析欧洲政府为何深度依赖 Palantir,以及替代它为何远比想象困难——问题不只是软件,而是 Palantir 已深度嵌入政府的数据管理和决策流程。
美团外卖前负责人创办元节智能,不造人形机器人而是聚焦餐饮后厨垂直场景的具身智能,获千万级种子轮融资。
OpenAI 公开分享语音 AI 背后的 WebRTC 架构设计细节,解释如何在大规模并发下实现低延迟实时语音交互。
Eric Schmidt 在毕业典礼上直言 AI 不可避免,部分毕业生将面临严峻就业挑战。企业持续以 AI 为由裁员,劳动力市场的结构性冲击正在加速。
🧠 AI 技术前沿
GPT-5.5 Pro 在事实核查方面表现出色,可以逐章检查引用准确性。唯一不足是过于追求细微差异,会返回大量"大方向对但忽略了小细节 X"的反馈。
查看推文 →
OpenAI 内部推理模型一次尝试就解决了 Erdos 1946 年提出的 80 年未解数学难题。9 位顶级数学家验证了证明,菲尔兹奖得主表示会"毫不犹豫地推荐发表"。该模型是通用推理系统,无数学专项训练。
查看推文 →
实测 Runway Aleph 2.0:选取视频中的单帧,用 Nano Banana Pro 或 GPT Image 2 对该帧进行修改,Aleph 能将修改自动传播到整个镜头序列。从一帧编辑到全序列适配,效果惊艳。
查看推文 →
BestBlogs 早报三大主题:Agent 架构在生产端形成长时程与实时两类分化(LangChain Interrupt 2027);Notion 以爵士乐队模式重新创业(Ivan Zhao x Sequoia);GLM-5.1 高速版 400 tokens/s 打破"快必然小"的惯例。
查看推文 →
🚀 创业动态
Wix VP 推出免费课程「Zero to Claude Code」,14 级 147 课 10 种交互形态,从零基础到能用 Claude Code 在生产环境发布软件。课程覆盖终端基础、Git、MCP 服务器、Subagents、Hooks 到毕业项目。
查看推文 →
预测 Supabase 最终估值将超过 Lovable、Replit 和 Bolt 的总和。AI 编程工具竞争激烈,但底层数据库基础设施的价值更持久。
查看推文 →
用 AI 生成 1 分钟 UGC 视频成本仅 $1.44。可以自由组合任意场景和角色,品牌内容创作的成本和门槛正在归零。
查看推文 →
ChatGPT 免费版现在只能用 5 个 prompt 就被锁定。OpenAI 正在收紧免费层以推动付费转化。
查看推文 →
💬 观点与洞察
在自己深度了解的领域与 LLM 对话越多,越能看到它的局限性。没有优质信息源的基础 LLM 其实相当愚蠢,但危险在于它对自己的无知表现得极其自信。这意味着 LLM 不会杀死信息市场,反而让优质信息更有价值。
查看推文 →
转述 Mixpanel 创始人 Suhail 的观点:当中国在算力层面实现独立后,其开源贡献将迁移到美国"用不了也不能用"的技术栈上。Nvidia + CUDA 被卡住后倒逼出国产方案,未来基于国产方案的开源模型是否还会支持 CUDA,存疑。
查看推文 →
让 Codex 调用 Codex——第一个 Agent 充当项目经理,负责规划、委派和审查工作。在"意图"和"产出"之间加入思考层是所有可靠 AI 工作流的核心原则,无论这个中间层是人还是另一个 Agent。
查看推文 →
讽刺企业"AI 转型"的现实:号称全面拥抱 AI 改造公司,实际上只是用了 GitHub Copilot。
查看推文 →
建议 X 评论区加上"Made with Human"标志,因为默认已经都是 AI 回复了。AI 生成内容的泛滥正在反转"人类原创"的稀缺性。
查看推文 →
🔥 精选推荐
Starcloud CEO Philip Johnston 在红杉 AI Ascent 2026 上论证太空 AI 算力的经济可行性:太空无需土地审批、24 小时太阳能供电、每平方米能量密度是地面 8 倍,主要额外成本仅剩发射费用。盈亏平衡点约 $500/kg 发射成本(现需降约 10 倍),Starship 设计目标 $10-20/kg。已向 SEC 申请部署 88,000 颗卫星的星座系统,20GW 算力容量,capex 约 $1000 亿但仍低于同规模地面设施。几乎全部用于推理——推理很快将占整个算力市场的 99%。
🦐点评:$1000 亿 capex 的入场门槛天然形成赢者通吃格局,但前提是两个关键假设:Starship 发射成本能按计划降到 $10-20/kg,且太空辐射和散热工程问题已被真正解决(目前与 NVIDIA 合作开发的太空版 Rubin 芯片是第一步)。对 VC 而言这是典型的"zero or hero"标的——但值得注意的是 Johnston 把赌注压在推理而非训练上,这与"推理将占算力 99%"的行业共识一致,降低了技术风险中最大的变量。
Anthropic 在 Code with Claude 大会上演示 Routines 功能:Claude Code 从被动工具变为主动队友。以文档工程师 Sarah 为例——团队 PR 量增长 200%,她用 Routines 搭建了定时扫描代码变更自动开文档 PR、以及 issue 创建时自动触发处理的两个自动化流程。三大能力:始终在线(不依赖本机)、灵活触发(定时/事件/webhook)、透明可介入(随时查看和调整 session)。
🦐点评:Routines 的真正信号不是"Claude Code 变强了",而是 Anthropic 正式从开发工具切入 DevOps/SRE 的地盘——一个价值数百亿美元的市场。当 Claude 能在 PR 合并后自动更新文档、在部署后自动检查监控,PagerDuty 和 Datadog 的工作流都会被重新定义。更关键的是,这些自动化 routine 一旦嵌入团队工作流就极难替换,Anthropic 在用 Claude Code 构建 B2B 收入的粘性护城河。
Roblox 训练的 140 亿参数视频世界模型可以 24fps 实时生成画面,但交给游戏开发者试用后发现核心问题:画面有了,操控有了,但没有血量、任务和游戏逻辑——这不是游戏,只是美丽的荒野。解决方案叫"Game Cartridge":用 Luau 代码写状态机管游戏逻辑,AI 管视觉渲染,VLM(视觉语言模型)充当桥梁实时观察画面触发逻辑回调。局限在于空间控制不够精准、角色外观长时间运行后会漂移。
🦐点评:"Game Cartridge"框架最精妙的不是技术架构,而是商业设计:Roblox 把模型能力包装成卡带平台,价值锚点从"AI 模型多强"转移到"有多少开发者在上面写卡带"——和 App Store 的逻辑一模一样。AI 世界模型可以被竞品复制,但百万开发者写的百万张卡带不能。如果这套"代码管逻辑、AI 管画面"的分工真能稳定运行,Roblox 就不只是一个游戏平台,而是 UGC 3D 世界的操作系统。
📌 其他值得看
随机打开 20 个 YC 公司官网,16 个使用 Inter/Geist/Sohne/PP Neue Montreal 四款字体之一。Figma 模板、Next.js 框架默认值和从众效应三重锁定,"科技史上同质化程度最高的字体时代"。