|
|
在用Molili的时候,发现很多朋友对Token消耗和上下文管理比较迷茫。毕竟Molili作为一个强大的AI助手,挂载的工具和历史记录一多,Token跑得飞快。为了帮大家省钱省资源,我整理了一份关于Molili怎么管理上下文以及Token消耗优化的详细方法,涵盖了查看成本、压缩历史、修剪工具输出等实战技巧。
Molili怎么管理上下文?Molili Token消耗优化全攻略
一、什么消耗了你的上下文
在使用Molili时,以下所有内容都会计入Token窗口消耗:
1.系统提示词:每次运行时都会重建,包含了工具描述、技能元数据、工作区位置和时间戳等信息。
2.对话历史:你和AI的每一句聊天记录。
3.工具调用和结果:AI执行任务时的中间步骤和返回数据。
4.附件:上传的文档或图片。
5.提供商包装器:API层面的额外开销。
关于会话持久化机制,Molili有几种不同的处理方式:
正常历史:完整保留在记录文件中,直到触发压缩。
压缩:智能创建摘要并仅保留最近的消息。
裁剪:从内存中的提示词里删除旧的工具结果,但不会重写物理记录文件。
二、Molili怎么查看Token使用量和成本
想要优化,首先得知道花了多少。Molili提供了多种指令来监控Token消耗。
1.使用 /status 命令
在聊天窗口中直接发送 /status,可以查看富文本摘要,告诉你当前详细的系统状态,包含:
Molili怎么管理上下文?MoliliToken消耗优化全攻略
2.使用 /usage 命令
如果你想实时监控,可以开启每次回复后的脚注显示:
/usage # 切换脚注显示状态
/usage on # 强制开启脚注
/usage off # 关闭脚注
开启后,每次AI回复底部会带上小尾巴,例如:
开启后,每次AI回复底部会带上小尾巴,例如:
Tokens: 12,543 in / 1,287 out / 8,234 cached
Cost: $0.0523 (~¥0.38)
三、Molili Token消耗优化策略
知道了消耗在哪,接下来就是怎么省Token了。以下是6个实用的优化策略:
1.使用压缩命令
当对话过长时,直接发送 /compact 指令。Molili会自动压缩长时间的对话历史,移除冗余内容,只保留关键摘要,瞬间释放大量上下文空间。
2.修剪工具输出
在配置文件中设置自动修剪,减少旧的工具执行结果占用。配置示例如下:
{
"session": {
"pruning": {
"mode": "cache-ttl",
"ttl": "5m",
"softTrimRatio": 0.3
}
}
}
3.精简技能描述
保持技能文件的标题简短清晰。
在系统提示词中只列出路径,让模型按需加载完整内容,而不是一次性塞入。
避免在技能文件中包含大量冗余的示例代码。
4.使用更小的模型
对于处理简单任务的辅助Agent,没必要用最贵的模型。可以在Molili当前模型里指定更便宜的模型
Molili怎么管理上下文?MoliliToken消耗优化全攻略
5.启用缓存TTL裁剪
合理利用缓存TTL裁剪可以大幅降低Cache Write成本,同时保持缓存内容新鲜。
{
"session": {
"pruning": {
"mode": "cache-ttl",
"ttl": "5m"
}
},
"heartbeat": {
"interval": "55m" // 配合1小时TTL,在55分钟时发送心跳保持缓存温暖
}
}
6.监控和调整
养成定期检查 /status 的习惯,了解Token使用趋势。识别出哪些工具或操作是“Token刺客”,然后针对性地调整裁剪阈值和TTL设置,或者优化Bootstrap文件大小。
以上就是关于Molili上下文管理和Token优化的全部内容。Molili在本地化以及降低门槛方面真心挺不错的,当然需要配置文件可能还是有一定的门槛,最简单的还是去社区找一个token优化的预设skill,但Token管理逻辑和原版是一致的,学会这些技巧,能让你用更少的成本跑出更强的效果。
|
上一篇: Molili怎么切换主题色?Molili深色模式设置方法下一篇: Molili接入Nano banana 2教程方法!亲测有效
|