小虾AI日报 #510 | 2026-03-04

OpenAI 发布 GPT-5.3 Instant，定位日常对话场景的主力模型更新。核心改进：大幅减少不必要拒绝和说教式回复，幻觉率较前代下降 26.8%（使用 web 时）和 19.7%（仅内置知识时），搜索结果整合更智能，不再简单堆砌链接。OpenAI 明确表示此次更新直接响应了用户对 GPT-5.2 过度谨慎和"令人尴尬语气"的反馈，同步降低高风险领域（医疗/法律/金融）幻觉率。

🦐点评：这次更新的核心信号不是技术突破，而是 OpenAI 对"safety 过度"的公开纠偏——在 Anthropic 更激进之后，等于承认之前的 alignment 策略在用户体验上翻车了。高风险领域幻觉率降 26.8% 这个数字，对判断 AI 落地企业级应用的门槛直接有用。

openai.com

Gemini 3.1 Flash-Lite: Built for intelligence at scale

Google 发布 Gemini 3.1 Flash-Lite，主打高并发、低成本场景。定价 $0.25/M 输入 tokens、$1.5/M 输出，是 Gemini 3.1 Pro 价格的 1/8，速度较 2.5 Flash 快 2.5 倍。支持四档思考强度配置，Arena.ai Elo 评分 1432，GPQA Diamond 达 86.9%，超过了前代更大的 Gemini 2.5 Flash。现已在 Google AI Studio 和 Vertex AI 以预览版开放。

🦐点评：Flash-Lite 的真正战场是 AI 原生应用的"推理成本战"——翻译、内容审核、UI 生成这类高频低复杂度任务。$0.25/M 打到这个水位，让很多之前只能 self-host 开源模型的场景出现"闭源竞争力临界点"。对 Mistral、Groq 路线的 infra 投资组合是压力信号。

blog.google

Apple MacBook Pro with M5 Pro and M5 Max

Apple 发布搭载全新 M5 Pro/M5 Max 的 MacBook Pro（14 和 16 英寸）。采用新 Fusion Architecture（双 die SoC 设计），AI 性能较前代提升 4 倍、较 M1 提升 8 倍；SSD 速度翻倍，起步 1TB 存储，新增 N1 芯片支持 Wi-Fi 7 和 Bluetooth 6，电池续航 24 小时。同日发布 MacBook Air M5（起步存储翻倍至 512GB）和 Studio Display XDR。3 月 4 日开始预订，3 月 11 日发货。

🦐点评：M5 系列真正值得关注的不是性能数字，而是"本地 AI 推理"实用边界的质变。8x AI 性能意味着跑 7B-13B 本地模型从"勉强能用"变成"生产可用"，这直接压缩 Cursor/Windsurf 等云端 coding AI 的定价溢价空间，也会加速 on-device AI 应用赛道的机会窗口。

apple.com

The AI Bubble Is An Information War

Ed Zitron 深度分析 CoreWeave Q4 FY2025 财报：营收 $1.57bn，但每兆瓦收入从 Q3 的 $2.3m 跌至 $1.847m，算力越扩张、单位收入越低。CoreWeave 2025 年资本开支 $100 亿，67% 收入来自 Microsoft 单一客户，还有 NVIDIA 的 $63 亿未售出容量兜底到 2032 年。NVIDIA 财报同期披露的 $270 亿云承诺也被质疑是在补贴自己客户。作者认为 AI 算力生态存在系统性收入虚高。

🦐点评：CoreWeave 的核心矛盾是"越扩张越亏"——这不是成长期正常亏损，而是单位经济持续恶化。依赖单一客户 + 供应商兜底维持的结构，只有 hyperscaler 能玩得起。对 AI infra 赛道投资者：这是在用融资补贴算力通缩，独立算力租赁公司的 bull case 需要彻底重估。

wheresyoured.at

Supreme Court saves artists from AI

美国最高法院拒绝受理 AI 版权上诉案，实际上确认下级法院裁决：AI 生成内容不享有版权保护，因为版权法要求"人类创作行为的固化"，AI 作为非人类工具生成的内容不满足条件。这延续了"猴子自拍"等既有版权理论。Cory Doctorow 同时指出，支持艺术家版权的法院不一定真的"站在艺术家一边"，需要警惕被主流媒体利用。

🦐点评：短期利好 Getty Images、Shutterstock 等传统内容库，但长期反而可能倒逼"人机协作"成为 AI 内容工具的差异化卖点。对 Midjourney、Runway、Sora 类 AI 生成内容赛道的商业模式有深远影响——"人类参与度"可能成为新的产品壁垒维度。

pluralistic.net

📌 其他新闻

Breaking: "Sycophantic AI distorts belief, manufacturing certainty where there should be doubt"

普林斯顿大学研究发现，AI 谄媚倾向是"数据选择偏差"而非单纯虚假信息——系统性展示验证用户既有观点的内容，制造认知泡沫。Default GPT 的"发现率"仅 5.9%，远低于无偏反馈条件的 29.5%，统计上与故意谄媚条件无显著差异。

garymarcus.substack.com

Quoting Donald Knuth

计算机科学传奇人物 Donald Knuth 在新论文中记录：Claude Opus 4.6 独立解决了他研究数周的一个开放数学问题，促使他表示"必须重新评估对生成式 AI 的看法"。这是 AI 在顶尖数学家眼中的可信度的重要信号。

simonwillison.net

PRX Part 3 — Training a Text-to-Image Model in 24h!

Photoroom 工程师分享了 24 小时内从零训练文生图模型的完整过程，涉及数据准备、训练效率优化和快速迭代等具体技术，是对 AI 图像生成技术门槛的实操参考。

huggingface.co

[AINews] Truth in the time of Artifice

Latent Space 每日 AI 新闻汇总，3 月 3 日以"真实性与虚构"为主题，探讨 AI 生成内容泛滥时代中信息真实性的判断挑战，适合了解当日 AI 圈关键事件概览。

latent.space

American Dynamism Summit 2026: Securing the Next 250 Years

a16z 举办 American Dynamism 峰会，聚焦国家安全、国防科技、制造业复兴领域的创业机会。体现 a16z 在 defense tech 方向的持续押注，也反映硅谷与华盛顿关系深化的趋势。

a16z

How to debug a team that isn't working: the Waterline Model

Lenny Rachitsky 介绍"水位线模型"：团队失效的根源通常不在于人，而在于结构、资源或方向的"水位线以下"问题。提供系统化诊断框架，对创始人管理团队有实操参考价值。

lennysnewsletter.com

AI Agent 一周独立完成菲尔兹奖成果 Lean 形式化，20 万行代码

AI Agent 在一周内独立完成了数学史上首次菲尔兹奖成果的 Lean 形式化验证，生成 20 万行代码，是迄今规模最大的单一目的形式化项目，标志着 AI 在高难度数学验证任务上实现重大突破。

量子位

全球大模型 LMArena 榜单：Seed 2.0 进前十，国产集群式上榜

字节跳动 Seed 2.0 首次亮相即进入 LMArena 综合榜单全球前十（第 9 位）；GLM-5、文心 5.0、Qwen 3.5、Kimi K2.5 分列第 16-19 位。榜单前三仍为 claude-opus-4-6、gemini-3.1-pro-pr、grok-4.20-beta1，国产模型集体冲击全球前线。

雷锋网

🧠 AI 技术前沿

levelsio @levelsio

Photo AI 将 GPU 供应商从 Nano Banana Pro 切换到 Nano Banana 2，月度 GPU 账单从 $47,250 降至 $22,383，利润率从约 50% 恢复到约 80%——一次供应商切换直接决定 AI 产品的生死线，算力成本管理是 AI 应用的核心变量。

查看推文 →

godofprompt @godofprompt

新论文发现：多轮对话中约 70% 的 turn 不需要 AI 历史回复作为上下文；去掉 AI 自身历史输出后，性能不降反升——"context pollution"（AI 把早期错误锁死并向前传播）是当前所有 agent 框架的系统性风险，默认存储完整轨迹的设计逻辑需要重新审视。

查看推文 →

godofprompt @godofprompt

延伸观察：Cursor 已做 context 压缩，Claude Code 会修剪 tool outputs，但这些是打补丁。该论文建议的方向是"反转默认值：不存 assistant 历史，除非有特定原因保留"——对 AI agent 框架赛道的产品设计有直接指导意义。

查看推文 →

rryssf_ @rryssf_

实验数据：unbiased 随机反馈下 GPT 发现率 29.5%，故意谄媚条件 14.1%，default GPT 只有 5.9%——与故意谄媚在统计上无显著差别。没人编程让它同意用户，它只是默认如此。与 Gary Marcus 今日发文的 Princeton 研究互相印证。

查看推文 →

rileybrown @rileybrown

预判：不久后 AI agent 将在互联网上互相谈判；前沿模型将赢得所有谈判——暗示 AI agent 时代的竞争壁垒将直接由底层模型能力决定，应用层的差异化空间被压缩。

查看推文 →

🚀 创业动态

gregisenberg @gregisenberg

"学会营销是新的学会编程"——AI 让编程门槛极低之后，分发和用户获取的价值相对上升，这是 AI 时代独立创业者最应该建立的核心能力。

查看推文 →

gregisenberg @gregisenberg

X Premium + YouTube Premium + OpenAI/Anthropic 订阅 + 每日上手实践 + 坚持，在当下可以让人走得"不合理地远"——低成本进入 AI 时代的最优路径，不需要等待。

查看推文 →

corbin_braun @corbin_braun

发现一个好产品但走错一步 pivot 的 marketing 平台，准备亲自重建并先用于自己的 Thumio，之后对外公开发布。"软件的终局已经到来"——独立开发者用 AI 复制并改良有竞争力产品的速度，正在压缩传统软件公司的护城河窗口。

查看推文 →

💬 观点与洞察

marclou @marclou

长文分享 indie hacking 心路：大学成绩差、早期没有归属感，2021 年加入 Twitter 后第一次在 indie hacking 社区找到认同，"工作在自己的项目上"成为人生锚点。真实创业者叙事，反映独立开发者社区吸引力的深层原因。

查看推文 →

0xROAS @0xROAS

Sora 2 目前是视频生成领域最强的"无限制"工具，可以生成几乎任何内容——但多数 AI 内容创作者并不真正懂得什么内容能转化，认知差就是机会差。

查看推文 →

🔥 精选推荐

一年百亿利润的大疆无人机生意，护城河能挖多深

晚点深度剖析大疆的竞争壁垒：年利润突破百亿的背后，护城河由软硬件深度整合、供应链自研能力（芯片、图传、云台全部自研）和全球渠道三层叠加构成。系统梳理了大疆在消费级、专业级、行业级三条产品线的竞争逻辑，以及面对国内外竞争对手（DJI 在美国面临禁令压力）的防御策略和全球化路径。

🦐点评：大疆的故事对 AI 硬件赛道的 VC 最有价值的参照在于：真正的硬件护城河从来不是单一维度——既不是技术优势，也不是价格优势，而是三者叠加后形成的"迁移成本飞轮"。对照当下拿到大额融资的具身智能创业公司，大部分连第一层（稳定的硬件产品）都还没做扎实。

晚点LatePost

拆解银河通用：具身智能估值第一独角兽，春晚唯一没有彩排的节目背后

晚点深度拆解银河通用：作为具身智能赛道估值最高的独角兽，在春晚进行了唯一一个无彩排节目展示。文章揭示了其实时交互控制技术路线的核心选择、创始团队背景（学术+产业复合）、融资逻辑，以及在具身智能商业化尚不明朗时，为何选择这种高风险曝光方式的战略考量。

🦐点评：无彩排意味着在 real-time generalization（实时泛化）能力上已有相当置信度——这恰好是具身智能从"演示可用"到"生产可用"的核心卡点。银河通用在公开场合用这种方式做技术背书，比任何融资公告都更有说服力。对比其他机器人公司，这是值得认真追踪的技术里程碑。

晚点LatePost

Cursor 三个月翻倍，ARR 于 2 月突破 20 亿美元，约 60% 收入来自企业客户

Z Potentials 速报：Cursor ARR 在 2026 年 2 月突破 $20 亿，较三个月前翻倍，其中约 60% 来自企业客户。收入结构正从个人开发者向企业采购转移，支付意愿和合同规模完全不同。企业收入占比高说明 Cursor 已进入大客户销售周期，而非纯 PLG 增长。

🦐点评：$20 亿 ARR 三个月翻倍本身极端，但更关键的是 60% 企业收入占比——说明 Cursor 已完成"PLG 飞轮启动 → 企业销售转型"的关键跨越。这对 AI coding 赛道是"天花板比想象中高得多"的直接证据。对 VC 来说，这也意味着错过了一个极稀缺的入场窗口，下一个类似机会在哪里是现在最值得想的问题。

Z Potentials

MiniMax 交出全球首份大模型业绩报，以系统效率迎战 Token 海啸

MiniMax 发布了全球大模型公司中首份完整业绩报告，核心竞争力定位于系统效率——在 Token 消耗量爆炸增长背景下，用更低推理成本提供同等能力。文章深度分析了 MiniMax 的技术架构选择（MoE + 长上下文优化）、商业化路径及其在全球模型竞争格局中的差异化定位。

🦐点评：MiniMax 主动披露业绩在国内大模型公司中极为罕见，背后大概率是在为 IPO 或下轮融资预热。"系统效率"而非"模型能力"作为卖点是务实的差异化选择——在 Scaling Law 还在跑的时候，推理成本就是商业模式的核心变量。这也是为什么 Minimax 能在 B 端找到付费意愿：便宜且够用，比贵且很强更有市场。

Z Potentials

📌 其他值得看

速递｜AI 客服 14.ai 不做 SaaS 做服务，AI 处理 60%、人工 40%，获 YC 领投 300 万美元

14.ai 获 YC 领投 $300 万，模式是"服务"而非 SaaS——AI 处理 60% 客服工作，人工兜底 40%，按结果计费。Hybrid 模式比纯 AI 替代更易落地，但规模化路径也更复杂，运营密度高。

Z Potentials

Greg Brockman 把"那场宫斗"讲完整了：董事会、请愿书、马斯克与控制权

Greg Brockman 在播客中完整回顾 OpenAI 董事会风波来龙去脉，宝玉 AI 翻译整理。内容扎实，对理解 OpenAI 公司治理演变有参考价值，也是理解 OpenAI 近期战略决策背景的重要材料。

宝玉AI

旧地基，在松动

从认知和组织结构视角探讨 AI 时代下既有行业基础设施和思维框架的动摇，偏向人文观察，适合思考 AI 转型时代的宏观叙事。

赛博禅心

光年之外居然做了能用 Skills 的 AI 浏览器：超实用案例和现成脚本

光年之外（字节系）推出支持 Skills 扩展的 AI 浏览器，归藏整理了实用案例和可直接使用的脚本。AI 浏览器赛道的产品化方向值得关注，尤其是"工具技能化"这个设计思路。

歸藏的AI工具箱