做过长期系统项目再看：RAG 怪兽是否适用于个人博客系统的图谱构建？

项目代表比如 MemSearch，它被 OpenClaw 使用或者说原理一致。

它根据 Agent.md、Memory.md、Identity.md、User.md 等文件来管理 Agent 的行为、记忆节点、自我认知、用户偏好等主要信息。所有文件以 Markdown 形式写入和读取。

NOTE

源文件人类直接可读、可维护

不需要额外 embedding 或数据库的开销和复杂度

用来控制偏好或语言风格的效果显著

WARNING

一般只在启动时完整注入，长上下文下人设会逐渐偏移重置为 LLM 默认风格

写入和读取的时机（触发条件）不可控，触发率很低，非常依赖 LLM 自身智商。Claude 表现较佳

不适合做长时间线的事实记录，记录越多就越容易稀释提示词中原本的重点

方案二：基于 RAG 的向量化与相似度匹配（Mem0）

mem0ai

mem0

它会实时地捕获用户和 LLM 产生的对话数据，用 LLM 提取有效信息，比如：

1
用户：我最近那个桌宠毕设项目里的长期记忆系统真难做。
2
LLM: XXXXXX

可能会提取出来两条记忆：“用户的毕设是包含长期记忆系统的”、“用户觉得毕设很难做”。

这个提取的格式或者内容可以通过提示词来自己定。

然后这两条记忆会被向量化存入数据库，最后每次用户有新提问的时候都会做比对用户提问向量和数据库内向量的相似度，选取 top-n 作为依据插入辅助 LLM 回复。

提问时写入，提问时注入。 记忆像滚雪球一样滚起来。

当然还有遗忘、重排那些东西但那些没在讨论范围内。

NOTE

外置且时序不敏感，非常适合长期记录事实性记忆

WARNING

依赖 embedding 这一额外步骤，需要额外的模型

写入的向量人类不可读，方向不可控，不能直接修正

写入条件很低，人为通常也需要反复清洗来保证质量

只是记得事实，而不是真的有灵魂（很难影响人设）

方案三：基于 Markdown 由多 Agent 不断整理归并（MemU）

NevaMind-AI

memU

这个我并没有实际地使用过，但了解过。

简单来说它用 LLM 自身的理解力替代了 embedding 模型的语义匹配。

对话 Agent 负责对话，另外有一组记忆 Agent，负责提取记忆、结构化元数据、形成关联图谱。而且记忆 Agent 不止在对话时工作，它的亮点在于即使没有对话正在发生，它也会像梦游一样不断地遍历、检索、遗忘、优化已有的记忆结构。就像人类通过睡觉来巩固记忆。

它最后输出的包含人类可读的 Markdown 作为源文件，也有关联图谱，也有 metadata 等等。

它在多项公开测试中都领先 Mem0，但我最后没选择它。

MemU 与其他记忆系统的基准对比

NOTE

记忆可读，结构比 MemSearch 那种单层结构优雅得多

无需 embedding 这层黑盒子中间层

WARNING

检索过程不会太快，记忆越多越快不起来，无法并行，受限于检索 LLM 本身的阅读总结速度

Token 消耗量很高，Memory Agent 很挑模型，要权衡速度、理解能力、上下文长度、价格。Claude Haiku 和 DeepSeek-V4-Flash 是不错的选择

记忆数据超过 LLM 上下文窗口越多，性能越差

RAG 是否适合个人博客系统？

之所以产生这个疑问是先前我博客内容杂乱，而且通过简单的分类、标签很难概括和分清它们。最主要的是，很难体现出来博客之间的联系。

当时初学 RAG 时就想，能不能用 RAG 来发掘这种联系？

Lapis0x0

obsidian-yolo