Nagi 的知识小屋
Nagi 的知识小屋
AI
(多模态)LLM
Aka 大模型
快速跟上节奏
强烈推荐(这是一篇英文原文的翻译 + 整理),作者是开源大佬 tw93: https://tw93.fun/2026-01-14/llm.html
这篇文章把 2025 年大模型怎么从"能思考"进化到"能写代码"的趋势讲透了,还深度聊了聊最近挺火的 Vibe Coding 和 AI 安全这块儿。
如果大家觉得去年 AI 圈节奏太快跟不上的话,看这一篇就能把落下的技术断层全补齐。想了解现在 AI 到底是怎么落地的,或者想看看未来的机会在哪,这篇绝对是必读的复盘指南。
Nagi's Arena
每个时间段会在时间轴里放上纯个人主观评测的前三名(包括基础模型和应用,我会保证写的都是自己用过的),按排名先后记录,& 表示并列。该表格会在排行发生改变时修改。
2026.3.18 🔥 Claude Opus 4.6 & GPT 5.4 Pro 拉满!
| 维度 | 排名 |
|---|---|
| 综合 | Claude 4.6 Opus(1M 上下文,全面碾压) · GPT 5.4 Pro(推理怪物,xhigh 模式无敌) · Gemini 3.1 Pro |
| 日常对话 | Claude 4.6 Opus, Sonnet(人味最浓,对话体验拉满) · GPT 5.4 Pro(终于学会说人话了) · Gemini 3.1 Pro |
| Agent 交互 | Claude 4.6 Opus(Claude Code 生态无敌) · GPT 5.4 Pro Codex · Claude 4.6 Sonnet |
| 信息查找 | ChatGPT(唯一真神,网页版搜 X 效果意外地好) · Grok(搜 X 的老牌选手,但被 ChatGPT 反超了) · Perplexity (with Claude, auto 也行) |
| 多模态(以图片输入为主) | Gemini 3.1 Pro · Claude 4.6 Opus(视觉理解大幅提升) · GPT 5.4 Pro |
| 编程 - 前端(UI) | Gemini 3.1 Pro(短上下文) · GPT 5.4 Pro Codex & Claude 4.6 Opus |
| 编程 - 后端 | GPT 5.4 Pro Codex(架构和困难 bug 修复) + Claude 4.6 Opus (Claude Code) |
| 编程 - 算法 | GPT 5.4 Pro xhigh >> Claude 4.6 Opus > Gemini 3.1 Pro |
2026.2.18
| 维度 | 排名 |
|---|---|
| 综合 | Claude 4.6 Opus · Gemini 3 Pro(网页版 / AI Studio),该换 3.1 了 · GPT 5.3 Codex |
| 日常对话 | Gemini 3.1 Pro · Claude 4.6 Opus, Sonnet · Grok(4.2 不赖) |
| Agent 交互 | Claude 4.6 Opus · GPT 5.3 Codex · Claude 4.6 Sonnet |
| 信息查找 | 同上 |
| 多模态 | Gemini 3.1 Pro · Claude 4.6 Opus |
| 编程 - 前端(UI) | Gemini 3.1 Pro(短上下文) · GPT 5.3 Codex & Claude 4.6 Opus |
| 编程 - 后端 | GPT 5.3 Codex(架构和困难 bug 修复) + Claude 4.6 Opus (Claude Code) |
| 编程 - 算法 | GPT 5.2 xhigh & 5.3 Codex xhigh > Claude 4.6 Opus > Gemini 3.1 Pro |
2026.1.19
| 维度 | 排名 |
|---|---|
| 综合 | Gemini 3 Pro · GPT 5.2 (> high) · Claude 4.5 Opus |
| 日常对话 | Gemini 3 Pro · Gemini 3 Flash (think) · Grok 4 (fast) & Claude 4.5 Opus |
| Agent 交互 | Claude 4.5 Opus · GPT 5.2 xhigh (codex) · GPT 5.2 xhigh (cursor) |
| 信息查找 | Perplexity (with Claude, auto 也行) · Grok(存在少量幻觉,但是搜 X 上的信息是唯一 T0) · 其他任意 Agent 平台,包括但不限于 Manus 等,排在第三仅仅是因为比较慢,不能快速查找 |
| 多模态 | Gemini 3 Pro · Gemini 3 Flash · Claude 4.5 Opus & GPT 5.2(P.S. 只 OCR 文字的话我其实会推荐 Qwen Max) |
| 编程 - 前端(UI) | Gemini 3 Pro(短上下文) · GPT 5.2 Codex & Claude 4.5 Opus |
| 编程 - 后端 | GPT 5.3 Codex(架构和困难 bug 修复) + Claude 4.5 Opus (Claude Code) |
| 编程 - 算法 | GPT 5.2 xhigh >> Claude 4.5 Opus & Gemini 3 Pro |
预言
| 维度 | 预测 |
|---|---|
| 综合 | Gemini 3.1 Pro 的下个版本 · Grok 5 (xAI) · Claude 也许是 OpenAI 新模型 |
| 日常对话 | Gemini & Claude Opus · Grok · ChatGPT 推出聊天优化模型 |
| Agent 交互 | Claude,护城河还挺深的 · GPT 新模型,Infra 是护城河 |
| 信息查找 | ChatGPT 搜索持续进化,已经能打 Grok 了 · Perplexity 继续优化表现,还是挺能打的 |
| 多模态 | Gemini 系列 · Claude 系列 |
| 编程 | GPT + Codex 系列会继续领先,5.4 Pro 更新增强的同时还降价了 · Claude Code 依然又稳又快 · Gemini 会对 UI 设计进行优化,下个版本会更强 |
Coding 工具
注:Nagi 其实不推荐图便宜用小作坊代理 API 或模型,需要考虑自己对话的隐私是否有价值!
Claude Code:国内不好整,容易封号,可以接 API 比如第三方代理或国产开源模型,整体体验最好
Codex:速度较慢(我平时一次交互可能要思考 30 分钟),适合高难度工作,如其它模型解决不了的 Bug
Antigravity:Google Pro 用户每天免费 Claude 4.5 Opus & Gemini 3 Pro 额度,内置的 GPT OSS-120B 其实也还行,但没必要用
Cursor:好用,目前用完订阅的 20 刀额度后就主用 Antigravity 了。目前感觉它的 Auto Tab 是最智能的(毕竟自己训了一个模型)。
提示词
Youmind 用户分享的提示词大全 —— 包含 AI 绘图和文本的提示词和效果图
Prompter, 提示词艺术家李继刚(公众号):

Skills
旨在消除文本中 AI 生成的痕迹 by 歸藏(Claude Code)
信息流(你的大脑输入)
也欢迎群友分享
AI 博主
核心原则:不要看 ta 怎么说,要看 ta 怎么做
两点判别方法
- 某个 AI 热点出来的时候,观察这个博主是否会去深入体验这个热点,还是说只是写软文;
- 平时 ta 是否会分享自己的工作流
正面案例(更新中)

负面案例
各种营销号,浮夸标题,利用你的 FOMO 心态点击封面。
B 站视频博主(更新中)
知识科普
科技、新技术:隔壁的程序员老王、chaofa 用代码打酱油
Andrej Karpathy 的 RSS 订阅
这份清单并非随机挑选,而是 2025 年 Hacker News 上最受欢迎的年度博客合集。Karpathy 的逻辑很直接:比起算法推荐的碎片,这些长文博客能提供更高密度的思考。

好物推荐
Gemini-Voyager
自吹自擂
好用的话来 Product Hunt 留下自己的意见吧!https://www.producthunt.com/products/gemini-voyager
Github 仓库(欢迎给一个免费的 Star):https://github.com/Nagi-ovo/gemini-voyager
最后,分享给自己最爱的朋友们吧!
Typeless
Typeless 的核心优势在于实现了从"字面转录"到"意图理解"的质变。它不仅仅是一个基础的语音转文字工具,更具备智能纠错能力:能够自动识别并过滤口误、赘字及自我修正过程,直接精准提取用户的真实表达意图,输出精简干练的最终结果。
案例:传统工具会记录口误(如"明天三点...不,五点"),而 Typeless 能识别自我修正,仅输出正确结果:"明天下午五点。"
Nagi 的使用场景:
- 日常:对话(微信对话、QQ 和群友聊天)、开发(写给 Agent 的指令)、码字(写博客文章等)、翻译 & 转译(选中即可给出翻译指令)...
- 学习:录课,目前体感来说比飞书妙计准,而且会把老师的赘字、口误等修复,甚至会进行自主总结,相当于帮你消化了一遍!目前最震撼的地方在这里
- 和 whisper 有啥区别:用 whisper 搭建一个类似的流程获得 80 分的体验可能只要一个上午,但是要做到像 typeless 一样的 95 分可能需要几个人花半年功夫,而效率提升这个领域里一分一操场!
1 月 20 号,Typeless 推出了安卓版本。现在我的手机主流输入法就是 Typeless 了!
Typeless 的邀请码,点击即可下载(使用的话可以获得 1 个月 Pro 订阅试用 + 5 美元额度): https://www.typeless.com/refer?code=MZRYZP1
投喂群主
开源不易,给累了一天的可爱 Anon 投喂一点零食吧!谢谢你呀!
| vx 赞赏 | zfb 赞赏 |
|---|---|
![]() |
![]() |
其他资料
Anki 相关
群友整理的【英语高考 Anki 卡组(推荐高中生食用)】:https://pan.quark.cn/s/03dced53c259

