CommunityPesquisa e Análise de Dadosgithub.com

AnsirStudio/llm-wiki-distiller

An LLM-maintained personal markdown knowledge base — distill scattered material into a structured, interlinked, traceable 'second me'. A standalone, shareable Claude skill with four modes: quick, distill, review, search.

Funciona comClaude Code~Codex CLI~Cursor
npx skills add AnsirStudio/llm-wiki-distiller

Ask in your favorite AI

Open a new chat with this agent skill pre-loaded.

Documentação

LLM Wiki Distiller

核心想法

维护一个面向大模型使用的个人知识库:记录用户学到了什么、看重什么、注意到什么、保存过什么、总是忘记什么,以及希望未来模型能记住什么。不要重复写百科式通用知识;重点保留用户自己的视角、来源路径、训练截止之后的新信息,以及可复用的个人上下文。

库根固定四个目录 + 三个根文件(index.md / log.md / pending.md):

  1. raw/:原始素材、附件和待处理 inbox。
  2. wiki/:由 LLM 维护的蒸馏条目。
  3. _staging/:并行批处理的暂存提案(目录常驻,内容 transient——integrate 消费后删)。
  4. review/:审查报告(review/YYYY-MM/ 按月归档,最新一篇兼作 review 游标)。

任何创建、修改、删除、归档或实质性审查,都要同步更新 index.mdlog.md

资源地图

本文件只负责路由。判定模式后,立即读取对应 mode;mode 会告诉你下一步该读取哪些 reference/schema。

  • modes/quick.md:不经过 inbox 的快速新增、修改、归档、删除。
  • modes/distill.md:处理 raw/inbox/ 或其他 raw 素材并正式蒸馏。
  • modes/review.md:审查、健康检查、合并提议;每轮产出一篇带日期的 report。
  • modes/search.md:只读检索和总结,不写入。
  • modes/integrate.md:并行编排时,编排者把多个 capture-only 子 agent 的 proposal 统一落库(唯一写手、串行)。
  • references/raw.md:raw 目录、来源分类、附件、重复素材处理。
  • references/wiki.md:wiki 页面类型判断、边界、写入规则。
  • schemas/common.md:通用 YAML 字段、受控词表、日期和状态。
  • schemas/raw.md:raw markdown 指针、来源 metadata、附件引用规则。
  • schemas/wiki.md:wiki 各类型页面的 frontmatter 与正文结构。
  • schemas/root.mdindex.mdlog.mdpending.md 格式。
  • schemas/report.md:review report 的位置、frontmatter 与正文结构(最新 report 兼作 review 游标)。
  • schemas/proposal.md:并行编排时 capture-only → integrate 的暂存提案格式。

不要一次读完所有资源。按 mode 的步骤逐步读取。

Step 0:知识库根目录检查

使用任何模式前,先确认当前工作目录是不是知识库根目录。只做轻量幂等检查,不读取其他 reference/schema。

把当前目录视为已有知识库,需要至少命中 2 类信号:

  • 存在 raw/,且其中有 inbox/attachment/dropzone/ 或其他 raw 分类。
  • 存在 wiki/,且其中有 concept/entity/summary/scrap/ 或其他 wiki 分类。
  • 存在根目录文件 index.mdlog.mdpending.md 中至少 2 个。

处理方式:

  • 命中 2 类或以上:继续模式门。
  • 命中 0 类,且当前目录为空或接近空:询问用户是否在当前目录初始化知识库,或提供已有知识库路径。
  • 命中 0-1 类,且当前目录明显是其他项目:停止,要求用户提供知识库路径;不要在当前项目里创建 raw/wiki/
  • 用户在请求中明确提供知识库路径时,切换到该路径后重新做本检查。

模式门

按用户语义四选一,不要求用户说出模式名:

  1. 用户要复盘/维护现有库,例如“review 一下”“检查矛盾”“跑健康检查” → 读 modes/review.md
  2. 用户只想查/问/总结已有内容,不要求新增或修改 → 读 modes/search.md
  3. 用户要新增、修改、归档或删除,但不需要处理 inbox/raw 原始素材 → 读 modes/quick.md
  4. 用户要处理 raw/inbox/、剪藏、长文、聊天、社媒、PDF、视频转录、GitHub 项目或其他 raw 素材 → 读 modes/distill.md

如果模式不确定,优先判断用户是否要求写入;写入但来源还没被整理,走蒸馏;纯查询走检索;维护库本身走审查。

并行编排补充:蒸馏模式有一个 capture-only 变体(每个子 agent 只认领一条,只写自己的 summary + raw + _staging/<id>.md proposal,不碰共享页),配合 integrate 模式(编排者把多条 proposal 统一落库)。约束写在 modes/distill.md 的"执行模式"节;何时并行、怎么派子 agent,由调用方项目的 CLAUDE.md 决定,不在本 skill。

共享硬规则

  • 把 wiki 当成“编译后的记忆”,不是原文仓库。保留 raw 来源路径,不把完整原文搬进 wiki。
  • YAML original_url 只放核心外部 URL,用于快速打开网页、视频、帖子、论文、项目主页等一手来源;只允许 http://https://。本地 .mdraw/...wiki/summary/...、附件路径、绝对/相对文件路径、Obsidian 内链和对话里的本地文档链接永远不能写入 original_url;没有外部 URL 就留空数组 []。raw 路径、summary 页和内部证据关系写正文 ## 来源related。搜索补充、背景资料、延伸阅读放正文末尾的 ## 来源,不要塞进 frontmatter。不要在 wiki YAML 中使用 sources 字段。
  • 2025-01-01 以前的知识默认轻写,除非它对用户很重要、罕见,或构成用户思考基础。2025-01-01 之后的知识可以更重视,因为它可能补足模型训练截止后的 gap,但仍以“有用”而不是“完整”为准。
  • 使用绝对日期。持久化事实里不要只写“昨天”“今天”“最近”,除非同时写明绝对日期。
  • 区分事实、推断、偏好和弱信号。弱信号不直接当作稳定事实写入。
  • 新来源和旧页面冲突时,保留双方说法、来源和日期,标记冲突,不要静默覆盖。
  • 写入前搜索重复页面、相似标题、别名、来源 URL 和核心句子。
  • 默认不物理删除知识;归档、过时、被取代要保留历史。真正删除前必须确认。
  • 对敏感、高影响、医疗/法律/财务、身份定义类结论,如果证据模糊,写入前先问用户。
  • 区分"判断类工作"和"机械类操作":判断类(蒸馏取舍、合并决策、审查时评估一条内容是否重要/该删该留)必须由 agent 理解语义后直接完成,不能外包给脚本去猜——这是这个 skill 存在的价值,脚本没有判断力。机械类(按明确规则过滤、计数、重命名、格式转换,以及库变大后可能需要的本地搜索/索引/向量库等基础设施)鼓励用命令行工具或脚本完成,而且应该优先这样做。
  • 执行机械类操作时,优先用不需要把整份文件内容读进 agent 上下文的方式(grep/sed/awk/一次性脚本,blind 执行),用计数和 diff 验证结果(wc -lgrep -cgit diff --stat),而不是读完整文件或打印全文核对——省 token,结果一样可靠。只有操作本身需要判断(比如审查时决定某条内容该不该删)才需要先读再做。
  • 不包含 agent 编排文件。不同平台的 AGENTS.mdCLAUDE.md 或子 agent 策略由使用者项目自行维护。

Habilidades Relacionadas