Memory Summary

多轮对话摘要压缩

长对话继续堆原文会占满上下文，系统通常会把历史压成摘要记忆再继续对话。

返回原理演示查看产品

Memory Summary

返回原理演示

查看产品

Page Overview

Memory Summary

Global-ready

Memory Summary

多轮对话摘要压缩

长对话继续堆原文会占满上下文，系统通常会把历史压成摘要记忆再继续对话。

Primary CTA

返回原理演示

长对话继续堆原文会占满上下文，系统通常会把历史压成摘要记忆再继续对话。

Secondary Path

查看产品

长对话继续堆原文会占满上下文，系统通常会把历史压成摘要记忆再继续对话。

启用摘要压缩

历史消息

用户：我要准备一份周报。

助手：你主要做了哪些项目？

用户：首页改版、FAQ 页面、案例详情页。

助手：本周还有未完成项吗？

用户：还要补移动端精修和 SEO 收尾。

助手：有没有可量化的结果？

用户：新增了 10 个案例、4 个演示页、1 个 FAQ 页面。

当前记忆

上下文占用 91%

用户：我要准备一份周报。助手：你主要做了哪些项目？用户：首页改版、FAQ 页面、案例详情页。助手：本周还有未完成项吗？用户：还要补移动端精修和 SEO 收尾。助手：有没有可量化的结果？用户：新增了 10 个案例、4 个演示页、1 个 FAQ 页面。

推荐下一步

继续沿着相关主题看下去，会更容易把概念和工程实现串起来。

History + Latest Input -> Context Window

入门

多轮对话记忆

演示历史消息如何逐轮进入上下文，以及为什么对话越长越需要摘要和裁剪。

适合产品、销售、客户教育

打开演示

System + History + User + Output <= Context Window

入门

LLM 上下文长度

通过滑动窗口展示模型一次真正能“看到”的 token 范围，以及为什么旧内容会被截断。

适合产品、实施、解决方案

打开演示

Input -> Tokenize -> Count -> Process

入门

什么是 Token 🔥

用动画把一句话拆成模型真正处理的 token，理解 token 不是“一个字=一个 token”。

适合产品、销售、客户沟通

打开演示