
2026/01/16
Transformers AR 阶段深度解析:256→4K Token 是什么?
GLM-Image 自回归生成图像 token——从约 256 个 token 开始,扩展到 1K–4K。这对布局、排版和控制意味着什么。
两阶段 token 计划
GLM-Image 的 AR 生成器(从 GLM-4-9B-0414 初始化)产生:
- 紧凑编码(~256 个 token)
- 然后扩展到 1K–4K 个 token 对应高分辨率输出(GitHub)
可以理解为:大纲 → 详细蓝图。
为什么 token 扩展有助于排版
排版需要:
- 字母间笔画一致
- 单词间间距一致
- 块间对齐一致
“蓝图”阶段可以为文本块预留空间并保持层次结构(标题 > 副标题 > 正文)。
作为用户可以控制什么
大多数工作流中你不会直接编辑这些 token。但你确实通过以下方式影响它们:
- 明确的布局指令
- 清晰的层次语言
- 引号中的精确文本(GitHub)
- 限制每个块的合理长度
"对 token 友好"的布局提示词
使用编号块强制结构:
海报布局包含四个区域: (1) 顶部标题:"[标题]" (2) 副标题:"[副标题]" (3) 中心图像:[描述主体] (4) 页脚栏:"[CTA]" 和 "[URL]" 使用干净对齐、一致字距、无错字。
当 AR "跑偏"时的调试
如果模型添加了额外文字:
- 减少创意性形容词
- 重新强调"恰好这段文字且没有其他"
- 缩短每块文本
更多文章

EN
License & Commercial Use: MIT + Component Licenses Explained
GLM-Image licensing can be confusing. Here's a practical breakdown of MIT for the overall model, plus Apache-2.0 licensed components you must respect.


EN
Diffusers Pipeline 实战 + 速度/显存测试记录
使用 Hugging Face Diffusers 的分步 GLM-Image 指南,包括安装、代码和实际的显存/时间估算。


EN
ComfyUI 状态追踪:原生支持何时到来
追踪 ComfyUI 中的 GLM-Image 支持——在哪里关注、"原生支持"的含义,以及它到来之前的替代方案。

