
2026/01/10
Transformers AR 阶段深度解析:256→4K Token 是什么?
GLM-Image 自回归生成图像 token——从约 256 个 token 开始,扩展到 1K–4K。这对布局、排版和控制意味着什么。
两阶段 token 计划
GLM-Image 的 AR 生成器(从 GLM-4-9B-0414 初始化)产生:
- 紧凑编码(~256 个 token)
- 然后扩展到 1K–4K 个 token 对应高分辨率输出(GitHub)
可以理解为:大纲 → 详细蓝图。
为什么 token 扩展有助于排版
排版需要:
- 字母间笔画一致
- 单词间间距一致
- 块间对齐一致
“蓝图”阶段可以为文本块预留空间并保持层次结构(标题 > 副标题 > 正文)。
作为用户可以控制什么
大多数工作流中你不会直接编辑这些 token。但你确实通过以下方式影响它们:
- 明确的布局指令
- 清晰的层次语言
- 引号中的精确文本(GitHub)
- 限制每个块的合理长度
"对 token 友好"的布局提示词
使用编号块强制结构:
海报布局包含四个区域: (1) 顶部标题:"[标题]" (2) 副标题:"[副标题]" (3) 中心图像:[描述主体] (4) 页脚栏:"[CTA]" 和 "[URL]" 使用干净对齐、一致字距、无错字。
当 AR "跑偏"时的调试
如果模型添加了额外文字:
- 减少创意性形容词
- 重新强调"恰好这段文字且没有其他"
- 缩短每块文本
更多文章

Diffusers Pipeline 实战 + 速度/显存测试记录
使用 Hugging Face Diffusers 的分步 GLM-Image 指南,包括安装、代码和实际的显存/时间估算。


GLM-Image 布局关键词速查表:掌握 Prompt 中的空间控制
GLM-Image 布局关键词完整指南:left、center、right、grid、多区域布局。10+ 可复制模板,涵盖 header、hero、body、CTA 和 footer。


菜单测试:为什么 GLM-Image 在清晰定价方面击败扩散模型
一个你可以在家运行的实用菜单基准测试——使用 GLM-Image 测试价格可读性、对齐和排版,使用清晰的评分标准。
