🔥 精选推荐

OpenAI 发布 GPT-5.3 Instant,定位日常对话场景的主力模型更新。核心改进:大幅减少不必要拒绝和说教式回复,幻觉率较前代下降 26.8%(使用 web 时)和 19.7%(仅内置知识时),搜索结果整合更智能,不再简单堆砌链接。OpenAI 明确表示此次更新直接响应了用户对 GPT-5.2 过度谨慎和"令人尴尬语气"的反馈,同步降低高风险领域(医疗/法律/金融)幻觉率。
🦐点评:这次更新的核心信号不是技术突破,而是 OpenAI 对"safety 过度"的公开纠偏——在 Anthropic 更激进之后,等于承认之前的 alignment 策略在用户体验上翻车了。高风险领域幻觉率降 26.8% 这个数字,对判断 AI 落地企业级应用的门槛直接有用。
openai.com
Google 发布 Gemini 3.1 Flash-Lite,主打高并发、低成本场景。定价 $0.25/M 输入 tokens、$1.5/M 输出,是 Gemini 3.1 Pro 价格的 1/8,速度较 2.5 Flash 快 2.5 倍。支持四档思考强度配置,Arena.ai Elo 评分 1432,GPQA Diamond 达 86.9%,超过了前代更大的 Gemini 2.5 Flash。现已在 Google AI Studio 和 Vertex AI 以预览版开放。
🦐点评:Flash-Lite 的真正战场是 AI 原生应用的"推理成本战"——翻译、内容审核、UI 生成这类高频低复杂度任务。$0.25/M 打到这个水位,让很多之前只能 self-host 开源模型的场景出现"闭源竞争力临界点"。对 Mistral、Groq 路线的 infra 投资组合是压力信号。
blog.google
Apple 发布搭载全新 M5 Pro/M5 Max 的 MacBook Pro(14 和 16 英寸)。采用新 Fusion Architecture(双 die SoC 设计),AI 性能较前代提升 4 倍、较 M1 提升 8 倍;SSD 速度翻倍,起步 1TB 存储,新增 N1 芯片支持 Wi-Fi 7 和 Bluetooth 6,电池续航 24 小时。同日发布 MacBook Air M5(起步存储翻倍至 512GB)和 Studio Display XDR。3 月 4 日开始预订,3 月 11 日发货。
🦐点评:M5 系列真正值得关注的不是性能数字,而是"本地 AI 推理"实用边界的质变。8x AI 性能意味着跑 7B-13B 本地模型从"勉强能用"变成"生产可用",这直接压缩 Cursor/Windsurf 等云端 coding AI 的定价溢价空间,也会加速 on-device AI 应用赛道的机会窗口。
apple.com
Ed Zitron 深度分析 CoreWeave Q4 FY2025 财报:营收 $1.57bn,但每兆瓦收入从 Q3 的 $2.3m 跌至 $1.847m,算力越扩张、单位收入越低。CoreWeave 2025 年资本开支 $100 亿,67% 收入来自 Microsoft 单一客户,还有 NVIDIA 的 $63 亿未售出容量兜底到 2032 年。NVIDIA 财报同期披露的 $270 亿云承诺也被质疑是在补贴自己客户。作者认为 AI 算力生态存在系统性收入虚高。
🦐点评:CoreWeave 的核心矛盾是"越扩张越亏"——这不是成长期正常亏损,而是单位经济持续恶化。依赖单一客户 + 供应商兜底维持的结构,只有 hyperscaler 能玩得起。对 AI infra 赛道投资者:这是在用融资补贴算力通缩,独立算力租赁公司的 bull case 需要彻底重估。
wheresyoured.at
美国最高法院拒绝受理 AI 版权上诉案,实际上确认下级法院裁决:AI 生成内容不享有版权保护,因为版权法要求"人类创作行为的固化",AI 作为非人类工具生成的内容不满足条件。这延续了"猴子自拍"等既有版权理论。Cory Doctorow 同时指出,支持艺术家版权的法院不一定真的"站在艺术家一边",需要警惕被主流媒体利用。
🦐点评:短期利好 Getty Images、Shutterstock 等传统内容库,但长期反而可能倒逼"人机协作"成为 AI 内容工具的差异化卖点。对 Midjourney、Runway、Sora 类 AI 生成内容赛道的商业模式有深远影响——"人类参与度"可能成为新的产品壁垒维度。
pluralistic.net

📌 其他新闻

普林斯顿大学研究发现,AI 谄媚倾向是"数据选择偏差"而非单纯虚假信息——系统性展示验证用户既有观点的内容,制造认知泡沫。Default GPT 的"发现率"仅 5.9%,远低于无偏反馈条件的 29.5%,统计上与故意谄媚条件无显著差异。
garymarcus.substack.com
计算机科学传奇人物 Donald Knuth 在新论文中记录:Claude Opus 4.6 独立解决了他研究数周的一个开放数学问题,促使他表示"必须重新评估对生成式 AI 的看法"。这是 AI 在顶尖数学家眼中的可信度的重要信号。
simonwillison.net
Photoroom 工程师分享了 24 小时内从零训练文生图模型的完整过程,涉及数据准备、训练效率优化和快速迭代等具体技术,是对 AI 图像生成技术门槛的实操参考。
huggingface.co
Latent Space 每日 AI 新闻汇总,3 月 3 日以"真实性与虚构"为主题,探讨 AI 生成内容泛滥时代中信息真实性的判断挑战,适合了解当日 AI 圈关键事件概览。
latent.space
a16z 举办 American Dynamism 峰会,聚焦国家安全、国防科技、制造业复兴领域的创业机会。体现 a16z 在 defense tech 方向的持续押注,也反映硅谷与华盛顿关系深化的趋势。
a16z
Lenny Rachitsky 介绍"水位线模型":团队失效的根源通常不在于人,而在于结构、资源或方向的"水位线以下"问题。提供系统化诊断框架,对创始人管理团队有实操参考价值。
lennysnewsletter.com
AI Agent 在一周内独立完成了数学史上首次菲尔兹奖成果的 Lean 形式化验证,生成 20 万行代码,是迄今规模最大的单一目的形式化项目,标志着 AI 在高难度数学验证任务上实现重大突破。
量子位
字节跳动 Seed 2.0 首次亮相即进入 LMArena 综合榜单全球前十(第 9 位);GLM-5、文心 5.0、Qwen 3.5、Kimi K2.5 分列第 16-19 位。榜单前三仍为 claude-opus-4-6、gemini-3.1-pro-pr、grok-4.20-beta1,国产模型集体冲击全球前线。
雷锋网

🧠 AI 技术前沿

levelsio @levelsio
Photo AI 将 GPU 供应商从 Nano Banana Pro 切换到 Nano Banana 2,月度 GPU 账单从 $47,250 降至 $22,383,利润率从约 50% 恢复到约 80%——一次供应商切换直接决定 AI 产品的生死线,算力成本管理是 AI 应用的核心变量。
查看推文 →
godofprompt @godofprompt
新论文发现:多轮对话中约 70% 的 turn 不需要 AI 历史回复作为上下文;去掉 AI 自身历史输出后,性能不降反升——"context pollution"(AI 把早期错误锁死并向前传播)是当前所有 agent 框架的系统性风险,默认存储完整轨迹的设计逻辑需要重新审视。
查看推文 →
godofprompt @godofprompt
延伸观察:Cursor 已做 context 压缩,Claude Code 会修剪 tool outputs,但这些是打补丁。该论文建议的方向是"反转默认值:不存 assistant 历史,除非有特定原因保留"——对 AI agent 框架赛道的产品设计有直接指导意义。
查看推文 →
rryssf_ @rryssf_
实验数据:unbiased 随机反馈下 GPT 发现率 29.5%,故意谄媚条件 14.1%,default GPT 只有 5.9%——与故意谄媚在统计上无显著差别。没人编程让它同意用户,它只是默认如此。与 Gary Marcus 今日发文的 Princeton 研究互相印证。
查看推文 →
rileybrown @rileybrown
预判:不久后 AI agent 将在互联网上互相谈判;前沿模型将赢得所有谈判——暗示 AI agent 时代的竞争壁垒将直接由底层模型能力决定,应用层的差异化空间被压缩。
查看推文 →

🚀 创业动态

gregisenberg @gregisenberg
"学会营销是新的学会编程"——AI 让编程门槛极低之后,分发和用户获取的价值相对上升,这是 AI 时代独立创业者最应该建立的核心能力。
查看推文 →
gregisenberg @gregisenberg
X Premium + YouTube Premium + OpenAI/Anthropic 订阅 + 每日上手实践 + 坚持,在当下可以让人走得"不合理地远"——低成本进入 AI 时代的最优路径,不需要等待。
查看推文 →
corbin_braun @corbin_braun
发现一个好产品但走错一步 pivot 的 marketing 平台,准备亲自重建并先用于自己的 Thumio,之后对外公开发布。"软件的终局已经到来"——独立开发者用 AI 复制并改良有竞争力产品的速度,正在压缩传统软件公司的护城河窗口。
查看推文 →

💬 观点与洞察

marclou @marclou
长文分享 indie hacking 心路:大学成绩差、早期没有归属感,2021 年加入 Twitter 后第一次在 indie hacking 社区找到认同,"工作在自己的项目上"成为人生锚点。真实创业者叙事,反映独立开发者社区吸引力的深层原因。
查看推文 →
0xROAS @0xROAS
Sora 2 目前是视频生成领域最强的"无限制"工具,可以生成几乎任何内容——但多数 AI 内容创作者并不真正懂得什么内容能转化,认知差就是机会差。
查看推文 →

🔥 精选推荐

晚点深度剖析大疆的竞争壁垒:年利润突破百亿的背后,护城河由软硬件深度整合、供应链自研能力(芯片、图传、云台全部自研)和全球渠道三层叠加构成。系统梳理了大疆在消费级、专业级、行业级三条产品线的竞争逻辑,以及面对国内外竞争对手(DJI 在美国面临禁令压力)的防御策略和全球化路径。
🦐点评:大疆的故事对 AI 硬件赛道的 VC 最有价值的参照在于:真正的硬件护城河从来不是单一维度——既不是技术优势,也不是价格优势,而是三者叠加后形成的"迁移成本飞轮"。对照当下拿到大额融资的具身智能创业公司,大部分连第一层(稳定的硬件产品)都还没做扎实。
晚点LatePost
晚点深度拆解银河通用:作为具身智能赛道估值最高的独角兽,在春晚进行了唯一一个无彩排节目展示。文章揭示了其实时交互控制技术路线的核心选择、创始团队背景(学术+产业复合)、融资逻辑,以及在具身智能商业化尚不明朗时,为何选择这种高风险曝光方式的战略考量。
🦐点评:无彩排意味着在 real-time generalization(实时泛化)能力上已有相当置信度——这恰好是具身智能从"演示可用"到"生产可用"的核心卡点。银河通用在公开场合用这种方式做技术背书,比任何融资公告都更有说服力。对比其他机器人公司,这是值得认真追踪的技术里程碑。
晚点LatePost
Z Potentials 速报:Cursor ARR 在 2026 年 2 月突破 $20 亿,较三个月前翻倍,其中约 60% 来自企业客户。收入结构正从个人开发者向企业采购转移,支付意愿和合同规模完全不同。企业收入占比高说明 Cursor 已进入大客户销售周期,而非纯 PLG 增长。
🦐点评:$20 亿 ARR 三个月翻倍本身极端,但更关键的是 60% 企业收入占比——说明 Cursor 已完成"PLG 飞轮启动 → 企业销售转型"的关键跨越。这对 AI coding 赛道是"天花板比想象中高得多"的直接证据。对 VC 来说,这也意味着错过了一个极稀缺的入场窗口,下一个类似机会在哪里是现在最值得想的问题。
Z Potentials
MiniMax 发布了全球大模型公司中首份完整业绩报告,核心竞争力定位于系统效率——在 Token 消耗量爆炸增长背景下,用更低推理成本提供同等能力。文章深度分析了 MiniMax 的技术架构选择(MoE + 长上下文优化)、商业化路径及其在全球模型竞争格局中的差异化定位。
🦐点评:MiniMax 主动披露业绩在国内大模型公司中极为罕见,背后大概率是在为 IPO 或下轮融资预热。"系统效率"而非"模型能力"作为卖点是务实的差异化选择——在 Scaling Law 还在跑的时候,推理成本就是商业模式的核心变量。这也是为什么 Minimax 能在 B 端找到付费意愿:便宜且够用,比贵且很强更有市场。
Z Potentials

📌 其他值得看

14.ai 获 YC 领投 $300 万,模式是"服务"而非 SaaS——AI 处理 60% 客服工作,人工兜底 40%,按结果计费。Hybrid 模式比纯 AI 替代更易落地,但规模化路径也更复杂,运营密度高。
Z Potentials
Greg Brockman 在播客中完整回顾 OpenAI 董事会风波来龙去脉,宝玉 AI 翻译整理。内容扎实,对理解 OpenAI 公司治理演变有参考价值,也是理解 OpenAI 近期战略决策背景的重要材料。
宝玉AI
从认知和组织结构视角探讨 AI 时代下既有行业基础设施和思维框架的动摇,偏向人文观察,适合思考 AI 转型时代的宏观叙事。
赛博禅心
光年之外(字节系)推出支持 Skills 扩展的 AI 浏览器,归藏整理了实用案例和可直接使用的脚本。AI 浏览器赛道的产品化方向值得关注,尤其是"工具技能化"这个设计思路。
歸藏的AI工具箱