跳到主要内容
Memory Summary

多轮对话摘要压缩

长对话继续堆原文会占满上下文,系统通常会把历史压成摘要记忆再继续对话。

Memory Summary
返回原理演示
查看产品

历史消息

用户:我要准备一份周报。
助手:你主要做了哪些项目?
用户:首页改版、FAQ 页面、案例详情页。
助手:本周还有未完成项吗?
用户:还要补移动端精修和 SEO 收尾。
助手:有没有可量化的结果?
用户:新增了 10 个案例、4 个演示页、1 个 FAQ 页面。

当前记忆

上下文占用 91%

用户:我要准备一份周报。 助手:你主要做了哪些项目? 用户:首页改版、FAQ 页面、案例详情页。 助手:本周还有未完成项吗? 用户:还要补移动端精修和 SEO 收尾。 助手:有没有可量化的结果? 用户:新增了 10 个案例、4 个演示页、1 个 FAQ 页面。

推荐下一步

推荐下一步

继续沿着相关主题看下去,会更容易把概念和工程实现串起来。

History + Latest Input -> Context Window

多轮对话记忆

演示历史消息如何逐轮进入上下文,以及为什么对话越长越需要摘要和裁剪。

打开演示
System + History + User + Output <= Context Window

LLM 上下文长度

通过滑动窗口展示模型一次真正能“看到”的 token 范围,以及为什么旧内容会被截断。

打开演示
Input -> Tokenize -> Count -> Process

什么是 Token

用动画把一句话拆成模型真正处理的 token,理解 token 不是“一个字=一个 token”。

打开演示