LLM Wiki Distiller

核心想法

维护一个面向大模型使用的个人知识库：记录用户学到了什么、看重什么、注意到什么、保存过什么、总是忘记什么，以及希望未来模型能记住什么。不要重复写百科式通用知识；重点保留用户自己的视角、来源路径、训练截止之后的新信息，以及可复用的个人上下文。

库根固定四个目录 + 三个根文件（index.md / log.md / pending.md）：

raw/：原始素材、附件和待处理 inbox。
wiki/：由 LLM 维护的蒸馏条目。
_staging/：并行批处理的暂存提案（目录常驻，内容 transient——integrate 消费后删）。
review/：审查报告（review/YYYY-MM/ 按月归档，最新一篇兼作 review 游标）。

任何创建、修改、删除、归档或实质性审查，都要同步更新 index.md 和 log.md。

资源地图

本文件只负责路由。判定模式后，立即读取对应 mode；mode 会告诉你下一步该读取哪些 reference/schema。

modes/quick.md：不经过 inbox 的快速新增、修改、归档、删除。
modes/distill.md：处理 raw/inbox/ 或其他 raw 素材并正式蒸馏。
modes/review.md：审查、健康检查、合并提议；每轮产出一篇带日期的 report。
modes/search.md：只读检索和总结，不写入。
modes/integrate.md：并行编排时，编排者把多个 capture-only 子 agent 的 proposal 统一落库（唯一写手、串行）。
references/raw.md：raw 目录、来源分类、附件、重复素材处理。
references/wiki.md：wiki 页面类型判断、边界、写入规则。
schemas/common.md：通用 YAML 字段、受控词表、日期和状态。
schemas/raw.md：raw markdown 指针、来源 metadata、附件引用规则。
schemas/wiki.md：wiki 各类型页面的 frontmatter 与正文结构。
schemas/root.md：index.md、log.md、pending.md 格式。
schemas/report.md：review report 的位置、frontmatter 与正文结构（最新 report 兼作 review 游标）。
schemas/proposal.md：并行编排时 capture-only → integrate 的暂存提案格式。

不要一次读完所有资源。按 mode 的步骤逐步读取。

Step 0：知识库根目录检查

使用任何模式前，先确认当前工作目录是不是知识库根目录。只做轻量幂等检查，不读取其他 reference/schema。

把当前目录视为已有知识库，需要至少命中 2 类信号：

存在 raw/，且其中有 inbox/、attachment/、dropzone/ 或其他 raw 分类。
存在 wiki/，且其中有 concept/、entity/、summary/、scrap/ 或其他 wiki 分类。
存在根目录文件 index.md、log.md、pending.md 中至少 2 个。

处理方式：

命中 2 类或以上：继续模式门。
命中 0 类，且当前目录为空或接近空：询问用户是否在当前目录初始化知识库，或提供已有知识库路径。
命中 0-1 类，且当前目录明显是其他项目：停止，要求用户提供知识库路径；不要在当前项目里创建 raw/、wiki/。
用户在请求中明确提供知识库路径时，切换到该路径后重新做本检查。

模式门

按用户语义四选一，不要求用户说出模式名：

用户要复盘/维护现有库，例如“review 一下”“检查矛盾”“跑健康检查” → 读 modes/review.md。
用户只想查/问/总结已有内容，不要求新增或修改 → 读 modes/search.md。
用户要新增、修改、归档或删除，但不需要处理 inbox/raw 原始素材 → 读 modes/quick.md。
用户要处理 raw/inbox/、剪藏、长文、聊天、社媒、PDF、视频转录、GitHub 项目或其他 raw 素材 → 读 modes/distill.md。

如果模式不确定，优先判断用户是否要求写入；写入但来源还没被整理，走蒸馏；纯查询走检索；维护库本身走审查。

并行编排补充：蒸馏模式有一个 capture-only 变体（每个子 agent 只认领一条，只写自己的 summary + raw + _staging/<id>.md proposal，不碰共享页），配合 integrate 模式（编排者把多条 proposal 统一落库）。约束写在 modes/distill.md 的"执行模式"节；何时并行、怎么派子 agent，由调用方项目的 CLAUDE.md 决定，不在本 skill。

共享硬规则

把 wiki 当成“编译后的记忆”，不是原文仓库。保留 raw 来源路径，不把完整原文搬进 wiki。
YAML original_url 只放核心外部 URL，用于快速打开网页、视频、帖子、论文、项目主页等一手来源；只允许 http:// 或 https://。本地 .md、raw/...、wiki/summary/...、附件路径、绝对/相对文件路径、Obsidian 内链和对话里的本地文档链接永远不能写入 original_url；没有外部 URL 就留空数组 []。raw 路径、summary 页和内部证据关系写正文 ## 来源 或 related。搜索补充、背景资料、延伸阅读放正文末尾的 ## 来源，不要塞进 frontmatter。不要在 wiki YAML 中使用 sources 字段。
2025-01-01 以前的知识默认轻写，除非它对用户很重要、罕见，或构成用户思考基础。2025-01-01 之后的知识可以更重视，因为它可能补足模型训练截止后的 gap，但仍以“有用”而不是“完整”为准。
使用绝对日期。持久化事实里不要只写“昨天”“今天”“最近”，除非同时写明绝对日期。
区分事实、推断、偏好和弱信号。弱信号不直接当作稳定事实写入。
新来源和旧页面冲突时，保留双方说法、来源和日期，标记冲突，不要静默覆盖。
写入前搜索重复页面、相似标题、别名、来源 URL 和核心句子。
默认不物理删除知识；归档、过时、被取代要保留历史。真正删除前必须确认。
对敏感、高影响、医疗/法律/财务、身份定义类结论，如果证据模糊，写入前先问用户。
区分"判断类工作"和"机械类操作"：判断类（蒸馏取舍、合并决策、审查时评估一条内容是否重要/该删该留）必须由 agent 理解语义后直接完成，不能外包给脚本去猜——这是这个 skill 存在的价值，脚本没有判断力。机械类（按明确规则过滤、计数、重命名、格式转换，以及库变大后可能需要的本地搜索/索引/向量库等基础设施）鼓励用命令行工具或脚本完成，而且应该优先这样做。
执行机械类操作时，优先用不需要把整份文件内容读进 agent 上下文的方式（grep/sed/awk/一次性脚本，blind 执行），用计数和 diff 验证结果（wc -l、grep -c、git diff --stat），而不是读完整文件或打印全文核对——省 token，结果一样可靠。只有操作本身需要判断（比如审查时决定某条内容该不该删）才需要先读再做。
不包含 agent 编排文件。不同平台的 AGENTS.md、CLAUDE.md 或子 agent 策略由使用者项目自行维护。

AnsirStudio/llm-wiki-distiller

Ask in your favorite AI

Documentação

LLM Wiki Distiller

核心想法

资源地图

Step 0：知识库根目录检查

模式门

共享硬规则

Habilidades Relacionadas

obra/superpowers

affaan-m/quarkus-verification

affaan-m/uspto-database

affaan-m/scholar-evaluation

affaan-m/literature-review

affaan-m/research-ops