AR + 扩散混合架构详解（带图表）

GLM-Image使用自回归规划布局 + 扩散解码像素保真度。这里介绍其直觉、图表以及对文字渲染的意义。

直觉："先规划，后渲染"

GLM-Image的核心设计是：

自回归（AR）阶段：生成图像的紧凑token计划
扩散解码器：将该计划转换为高保真像素（Z.ai）

这是它能在排版+排版方面保持比纯扩散方法更一致的原因之一。

图表1：纯扩散方法做什么

文本提示
   |
噪声  -> 去噪 -> 去噪 -> 去噪 -> 图像
         （20-50步）

扩散在整个画布上重复去噪。擅长纹理，对精确字母形状较弱。

图表2：GLM-Image做什么

text prompt
   |
[AR规划器] -> "布局+含义token"
   |
[Diffusion解码器] -> 像素

AR阶段基于从GLM-4-9B-0414初始化的大型模型（9B参数），解码器是7B DiT风格的扩散模块。（Z.ai）

Token故事（为什么"256 → 4K"很重要）

GLM-Image首先生成约256个token，然后扩展到1K-4K个token，对应更高分辨率的输出。（GitHub）这种扩展是它能处理复杂结构化内容（海报、菜单、信息图表）的重要组成部分。

为什么这有助于文字渲染

文字渲染是一个全局约束：

单词中字母的一致性
列的对齐
整个布局的间距

先在token中规划使这些约束更容易满足，而不是试图从去噪噪声中"涌现"它们。

对于提示编写者的实际要点

明确描述布局区域：

"顶部标题"
"中心主图"
"底部页脚栏" …并在引号中包含所需的精确文本。（GitHub）

GLM-Image使用自回归规划布局 + 扩散解码像素保真度。这里介绍其直觉、图表以及对文字渲染的意义。

直觉："先规划，后渲染"

GLM-Image的核心设计是：

自回归（AR）阶段：生成图像的紧凑token计划
扩散解码器：将该计划转换为高保真像素（Z.ai）

这是它能在排版+排版方面保持比纯扩散方法更一致的原因之一。

图表1：纯扩散方法做什么

文本提示
   |
噪声  -> 去噪 -> 去噪 -> 去噪 -> 图像
         （20-50步）

扩散在整个画布上重复去噪。擅长纹理，对精确字母形状较弱。

图表2：GLM-Image做什么

text prompt
   |
[AR规划器] -> "布局+含义token"
   |
[Diffusion解码器] -> 像素

AR阶段基于从GLM-4-9B-0414初始化的大型模型（9B参数），解码器是7B DiT风格的扩散模块。（Z.ai）

Token故事（为什么"256 → 4K"很重要）

为什么这有助于文字渲染

文字渲染是一个全局约束：

单词中字母的一致性
列的对齐
整个布局的间距

先在token中规划使这些约束更容易满足，而不是试图从去噪噪声中"涌现"它们。

对于提示编写者的实际要点

明确描述布局区域：

"顶部标题"
"中心主图"
"底部页脚栏" …并在引号中包含所需的精确文本。（GitHub）

直觉："先规划，后渲染"

图表1：纯扩散方法做什么

图表2：GLM-Image做什么

Token故事（为什么"256 → 4K"很重要）

为什么这有助于文字渲染

对于提示编写者的实际要点

作者

分类

更多文章

基准测试复现：CVTG-2K 风格测试用例 + 可下载提示词

许可证与商业使用：MIT + 组件许可证详解

Transformers AR 阶段深度解析：256→4K Token 是什么？

AR + 扩散混合架构详解（带图表）

直觉："先规划，后渲染"

图表1：纯扩散方法做什么

图表2：GLM-Image做什么

Token故事（为什么"256 → 4K"很重要）

为什么这有助于文字渲染

对于提示编写者的实际要点

作者

分类

更多文章

基准测试复现：CVTG-2K 风格测试用例 + 可下载提示词

许可证与商业使用：MIT + 组件许可证详解

Transformers AR 阶段深度解析：256→4K Token 是什么？