Transformers AR 阶段深度解析：256→4K Token 是什么？

两阶段 token 计划

GLM-Image 的 AR 生成器（从 GLM-4-9B-0414 初始化）产生：

紧凑编码（~256 个 token）
然后扩展到 1K–4K 个 token 对应高分辨率输出（GitHub）

可以理解为：大纲 → 详细蓝图。

为什么 token 扩展有助于排版

排版需要：

字母间笔画一致
单词间间距一致
块间对齐一致

“蓝图”阶段可以为文本块预留空间并保持层次结构（标题 > 副标题 > 正文）。

作为用户可以控制什么

大多数工作流中你不会直接编辑这些 token。但你确实通过以下方式影响它们：

明确的布局指令
清晰的层次语言
引号中的精确文本（GitHub）
限制每个块的合理长度

"对 token 友好"的布局提示词

使用编号块强制结构：

海报布局包含四个区域： (1) 顶部标题："[标题]" (2) 副标题："[副标题]" (3) 中心图像：[描述主体] (4) 页脚栏："[CTA]" 和 "[URL]" 使用干净对齐、一致字距、无错字。

当 AR "跑偏"时的调试

如果模型添加了额外文字：

减少创意性形容词
重新强调"恰好这段文字且没有其他"
缩短每块文本

两阶段 token 计划

GLM-Image 的 AR 生成器（从 GLM-4-9B-0414 初始化）产生：

紧凑编码（~256 个 token）
然后扩展到 1K–4K 个 token 对应高分辨率输出（GitHub）

可以理解为：大纲 → 详细蓝图。

为什么 token 扩展有助于排版

排版需要：

字母间笔画一致
单词间间距一致
块间对齐一致

“蓝图”阶段可以为文本块预留空间并保持层次结构（标题 > 副标题 > 正文）。

作为用户可以控制什么

大多数工作流中你不会直接编辑这些 token。但你确实通过以下方式影响它们：

明确的布局指令
清晰的层次语言
引号中的精确文本（GitHub）
限制每个块的合理长度

"对 token 友好"的布局提示词

使用编号块强制结构：

当 AR "跑偏"时的调试

如果模型添加了额外文字：

减少创意性形容词
重新强调"恰好这段文字且没有其他"
缩短每块文本

两阶段 token 计划

为什么 token 扩展有助于排版

作为用户可以控制什么

"对 token 友好"的布局提示词

当 AR "跑偏"时的调试

作者

分类

更多文章

Diffusers Pipeline 实战 + 速度/显存测试记录

GLM-Image 布局关键词速查表：掌握 Prompt 中的空间控制

菜单测试：为什么 GLM-Image 在清晰定价方面击败扩散模型

Transformers AR 阶段深度解析：256→4K Token 是什么？

两阶段 token 计划

为什么 token 扩展有助于排版

作为用户可以控制什么

"对 token 友好"的布局提示词

当 AR "跑偏"时的调试

作者

分类

更多文章

Diffusers Pipeline 实战 + 速度/显存测试记录

GLM-Image 布局关键词速查表：掌握 Prompt 中的空间控制

菜单测试：为什么 GLM-Image 在清晰定价方面击败扩散模型