小虾AI日报 #495 | 2026-02-17

Claire 用 GPT-5.3 Codex 和 Claude Opus 4.6 进行了为期五天的深度实战对比，完成了44个PR、触及1088个文件、新增9.3万行代码。她的核心发现是两个模型各有最佳使用场景：Opus 适合创造性构建（能将功能推进到80-90%），Codex 擅长代码审查和发现边界情况。最高效的工作流是让 Opus 写代码、Codex 审代码，模拟了初级-高级开发者的配合模式。Cursor 的界面对两个模型的发挥都优于各自原生应用。

🦐点评：这篇实测揭示了AI编程工具竞争的一个关键拐点——单一模型通吃的时代可能不会到来，真正的护城河在编排层（orchestration）。Cursor 作为模型无关的中间层反而成了最大赢家，这对纯模型公司的估值逻辑是个警告。

lennysnewsletter.com

Rodney and Claude Code for Desktop

Simon Willison 介绍了他将自研的浏览器自动化工具 Rodney 与 Claude Code 桌面端结合使用的工作流。Claude Code 桌面端可以实时显示 AI 正在"看"的截图，让开发者在 AI 工作时就能预览效果，而非等代码推到 GitHub 再手动检查。Rodney 的设计理念是通过精心编写的 --help 输出让编码 Agent 无需额外文档即可上手使用。

🦐点评：Agent 可用性设计正在成为开发者工具的新竞争维度——谁能让 Agent 最容易地调用自己的工具，谁就能在 AI 原生开发栈中占据位置。这暗示了一个新品类：Agent-first 的开发者工具。

simonwillison.net

视障工程师如何用 Claude Code 构建无障碍工具

Babylist 首席工程师 Joe McCormick 因罕见遗传病失去大部分中央视力，他展示了如何用 Claude Code 在25分钟内构建自定义 Chrome 扩展，实现 Slack 图片自动描述、即时拼写检查和链接摘要等功能。他的核心观点是：AI 让"个人软件"（personal software）成为可能，可以填补主流产品在无障碍方面的空白。

🦐点评：这个案例比表面看到的更有投资含义——当 AI 把软件开发成本降到接近零，"个人软件"市场就会爆发。这不是长尾需求，而是一个全新的 TAM：每个人都可以有自己定制的工具。对 SaaS 的标准化定价模型是根本性挑战。

lennysnewsletter.com

I Sold Out for $20 a Month and All I Got Was This Perfectly Generated Terraform

一位长期对 LLM 持怀疑态度的资深工程师坦承 Claude Code 彻底改变了他的看法。他发现 Claude Code 在 Terraform、K8s YAML、GitHub Actions 等"苦力活"上表现极其出色，但同时坚持 LLM 的伦理问题并未因工具好用而消失。文章从版权争议、代码质量、就业影响等多个角度展开了诚实且尖锐的讨论，最终结论是：工具确实有用，但"好用"和"正确"是两回事。

🦐点评：这是目前市场上最稀缺的声音——承认 AI 编程工具真的有用的同时保持伦理批判。对投资人的启示是：AI 编程赛道的采用曲线可能比预期更快，因为连最抗拒的用户群体也在转变，但监管和版权风险仍是估值折扣因子。

matduggan.com

Programming is Free

作者回忆自己用60美元二手笔记本、免费工具（Vim + PHP + 搜索引擎）起步的编程生涯，对比如今初学者被付费订阅、云平台、AI 助手包围的现状。核心论点是：免费工具（Git、VS Code、Python、Node.js）从未消失，但 YouTube 网红和注意力经济正在系统性地将新手推向付费工具，创造了一种人为的准入门槛。

🦐点评：这篇看似怀旧，实际指向一个被低估的市场动态——AI 工具的付费订阅模式正在成为开发者生态的"税"。如果某个玩家能把 AI 编程能力做成真正免费的基础设施层（类似 VS Code 对编辑器市场的冲击），将对 GitHub Copilot 等付费产品构成降维打击。

idiallo.com

📌 其他新闻

Diagnostics Factory

Zig 语言核心开发者分享了错误报告的最佳实践方法论，提出了"诊断工厂"模式，用强类型错误码解决错误处理中的报告难题。

matklad.github.io

Modern UI is clean and invisible? Ha, I wish!

对现代"极简"UI设计的批判，引用视频《The Hidden Cost of 'Clean' Design》，指出当代界面设计牺牲了功能性和可发现性。

rakhim.exotext.com

Project Code Name

探讨企业重组计划为何像操作系统一样使用代号命名，以及这些名字为何往往如此奇怪。

tedium.co

最强开源大模型除夕登场！397B参数千问3.5超越Gemini 3，百万Tokens低至8毛

阿里除夕发布千问 Qwen3.5-Plus，397B 总参数仅激活 17B，性能超上代万亿参数 Qwen3-Max，API 价格百万 Token 输入 0.8 元。

量子位

阿里发布千问3.5，性能媲美Gemini 3，Token价格仅为其1/18

千问3.5实现原生多模态预训练，支持1M上下文，部署显存占用降低60%，推理吞吐最高提升19倍。

雷锋网

刚刚，OpenClaw"之父"正式加入OpenAI，项目仍保持开源并成立基金会

OpenClaw 创始人 Peter Steinberger 宣布加入 OpenAI，同时 OpenClaw 项目将以基金会形式继续开源运营。

InfoQ 中文

鲁棒RL赋能AI编程！破局企业数据噪声难题，同等算力训出更好模型

研究提出用鲁棒强化学习方法应对企业训练数据中的噪声问题，在同等算力下提升模型质量。

量子位

🧠 AI 技术前沿

karpathy @karpathy

LLM 正在根本性地改变编程语言和形式化方法的约束格局。代码翻译（如 C 转 Rust、COBOL 现代化）比从零生成更适合 LLM，因为原始代码本身就是高质量的 prompt，且有明确的正确性验证标准。

查看推文 →

MengTo @MengTo

分享用 Codex 多任务开发的实战工作流：为每个项目创建独立文件夹以隔离上下文，用 prompt 队列并行推进多个项目，建议开启完全权限并安装 skills 以自动化代码审查和内容生产。

查看推文 →

0xROAS @0xROAS

演示2分钟内用 AI 工具链（图片生成 + MiniMax 语音 + Hedra 唇形同步）制作虚拟人视频的完整流程，单条成本约0.04美元/秒，替代传统真人拍摄可节省上万美元。

查看推文 →

🚀 创业动态

rileybrown @rileybrown

公开了 VibecodeApp 增长团队的 Agent 架构计划：构建9-12个窄域 Agent 共享一个 Notion 知识库，其中一个连接 Mac Mini 实体设备，其余在云端运行，并全程录制文档视频。

查看推文 →

rileybrown @rileybrown

描述了在 VibecodeApp 办公室观察到的"vibeularity"时刻：站起来发现每个人都在同时操作多个 Agent，标志着多 Agent 并行工作已成为团队日常。

查看推文 →

Hesamation @Hesamation

反驳"别重复造轮子"的建议，认为这是伪装成智慧的门槛设置。在 AI 时代，构建成本极低，不如直接动手做、加入自己的品味、快速发布。

查看推文 →

💬 观点与洞察

emollick @emollick

批评主流 AI 聊天产品（ChatGPT、Claude、Gemini）的界面正变得越来越混乱，Canvas、搜索、学习模式等功能堆叠在一起，新用户根本无法理解，三家都有这个问题。

查看推文 →

emollick @emollick

指出当前是一个被低估的"制度重设"窗口期——招聘、学术出版等系统正因 AI 而首次被重新设计，小团队有机会在这个流动期定义未来的行业模式。

查看推文 →

EXM7777 @EXM7777

预测 AI 使用方式将在年底前变得面目全非。已有用户完全脱离 LLM 网页界面，转而通过终端和 Telegram 与 Agent 交互，这只是全面语音交互时代的序幕。

查看推文 →

🔥 精选推荐

千问 3.5 模型除夕发布，全网最详细解读

全面解读阿里除夕发布的 Qwen3.5-397B-A17B。架构层面有两个根本性变化：一是原生全模态预训练（从第一天起就在文本+视觉混合 token 上联合训练，而非后挂视觉模块）；二是原生多 Token 预测（训练阶段即学习多步联合预测，推理速度接近翻倍）。实测数据亮眼：MMLU-Pro 87.8 超 GPT-5.2，搜索 Agent BrowseComp 78.6 大幅超越所有闭源模型，但竞赛数学仍与 GPT-5.2 有明显差距。百万 Token 输入仅 0.8 元，Apache 2.0 完全开源。

🦐点评：千问3.5的真正看点不是跑分，而是架构换代——从"训好语言模型再接视觉"到"原生多模态"的路线切换，意味着阿里在基座层做了一次代际豪赌。0.8元的定价直接把模型 API 从利润中心变成获客工具，这对百度、字节等跟进者的商业模式形成压力。但注意：这只是 Plus 版本，旗舰还未发布，阿里显然在用价格战为后续大模型铺路。

赛博禅心

千问 3.5：0.8 元的顶级模型，我找不到它的对手

博主从实测角度验证千问3.5的能力。在多模态"找茬"测试中，Qwen3.5-Plus 以 9.5 分超越 Gemini 3 Pro 和 GPT-5.2；在视频理解测试中（估算自制火箭飞行高度），千问给出的区间比 Gemini 更接近实际值。前端 Coding 能力中规中矩但流程完整，Agent Skill 任务可以胜任简单到中等复杂度。核心结论：在 0.8 元百万 Token 这个价位上，目前找不到对手。

🦐点评：一泽的测试方法很聪明——用"找茬游戏"和"火箭高度估算"这类需要真正视觉理解的任务，比标准 benchmark 更能反映实际能力。但投资人应注意：多模态强不等于商业化强。千问的定价策略更像是阿里云的流量入口，真正的变现压力在下游应用层，而非模型本身。

一泽Eze

📌 其他值得看

2026马年春晚15个关于AI的看点

全面盘点春晚中的 AI 元素：字节 Seedance 2.0 为《贺花神》等三个节目生成 8K 视觉特效，宇树/松延动力/银河通用/魔法原子四家具身智能公司同台亮相，豆包为机器人提供语音能力。AI 从配角变为春晚核心技术底层。

数字生命卡兹克

Lex Fridman 深度访谈：OpenClaw 作者 Peter Steinberger

OpenClaw 作者 Peter Steinberger 官宣加入 OpenAI，该访谈记录了他对开源 Agent 框架的思考。文章无全文，仅提供访谈摘要。

AGENT橘