Post #201764

@pushv2ex

V2EX

Views6帖子阅读量

发布4月16日2026/04/16 15:36

Post content

帖子内容

[程序员] 我把 Karpathy 的 LLM + Obsidian 知识库方法论落地了，跑了一周数据超出预期最近把 Karpathy 那套「 LLM + Obsidian 个人知识库」方法论真正落地了。不是简单抄概念，是搭了一套能跑的系统：自动 Ingest 文章、自动体检、自动同步。跑了三天，数据说话。 ## Karpathy 说了什么他的核心洞察：**不要把 LLM 当搜索引擎用，让它像程序员维护代码库一样帮你维护 Wiki 。** 现在大部分人用 AI 管知识的套路是 RAG：上传文档，提问，AI 检索相关片段，生成回答。ChatGPT 文件上传、NotebookLM 都是这个路数。问题在于：**没有积累。** 每次都得从头来，问完了答案就没了，知识从来没被真正沉淀下来。他的方案是：让 AI 持续地、增量式地构建和维护一个 Wiki——结构化的、互相链接的 Markdown 文件集合。添加新资料时，AI 会读资料、提取关键信息、更新相关实体页面、修正矛盾点。知识编译一次，然后持续保持最新。 ## 三层架构 - **Raw Sources**：原始资料层，只读不变 - **The Wiki**：LLM 生成和维护的知识库层 - **The Schema**：规则文件，对 Claude Code 来说就是 CLAUDE.md ## 三个核心操作 1. **Ingest**：往 Wiki 里录入新资料，可能牵动 10-15 个 Wiki 页面的更新 2. **Query**：对着 Wiki 提问，好的回答可以回存到 Wiki 里变成新页面，知识在复利增长 3. **Lint**：定期体检，找矛盾点、过时信息、孤儿页面 ## 我的落地实践核心是一个 Obsidian Vault ，叫 brain： ``` brain/ ├── ontology.md # 知识索引 ├── SCHEMA_OPS.md # 操作规则 ├── learnings/ # LLM 生成 ├── memory/ # 每日日志 └── preferences/ # 用户偏好 ``` 实现了三个自动化： - **Ingest 自动化**：丢 URL → 抓取 → LLM 提取 → 写 learnings → 更新索引 → 记录来源 - **Lint 体检自动化**：每周自动检查孤儿页面、悬空链接、90 天以上旧页面 - **Cron 调度**：每天 23:00 同步 MEMORY.md ，每周 Lint 跑了十天，Vault 里有 23 个页面，健康评分 75/100 。 ## 为什么值得花时间之前用飞书、Notion 、Obsidian ，页面之间都是孤立的。想找「关于 XX 主题我知道些什么」，得靠记忆而不是工具。现在每 Ingest 一篇新文章，LLM 会自动更新相关概念页面、标注矛盾点、补充交叉引用。这个网络会随着使用不断生长，而且生长是有结构的。 **知识复利，在系统里是真的能感受到的。** ## 社区已经在卷 - [sage-wiki]( https://github.com/xoai/sage-wiki)：Go 写的，一个二进制，支持 MCP Server - Claude Code Skill 版本：一行命令安装，直接在 Agent 里 ingest 来源 --- 完整文章在微信公众号「云小虾」：[我把 Karpathy 的知识库方法论落地了，效果超出预期]( https://mp.weixin.qq.com/s/1wjzNY6E-efc26RmoM84cQ) 有同样在搭个人知识系统的同学，欢迎交流。