
2026/01/15
AR + 扩散混合架构详解(带图表)
GLM-Image使用自回归规划布局 + 扩散解码像素保真度。这里介绍其直觉、图表以及对文字渲染的意义。
GLM-Image使用自回归规划布局 + 扩散解码像素保真度。这里介绍其直觉、图表以及对文字渲染的意义。
直觉:"先规划,后渲染"
GLM-Image的核心设计是:
- 自回归(AR)阶段:生成图像的紧凑token计划
- 扩散解码器:将该计划转换为高保真像素(Z.ai)
这是它能在排版+排版方面保持比纯扩散方法更一致的原因之一。
图表1:纯扩散方法做什么
文本提示
|
噪声 -> 去噪 -> 去噪 -> 去噪 -> 图像
(20-50步)
扩散在整个画布上重复去噪。擅长纹理,对精确字母形状较弱。
图表2:GLM-Image做什么
text prompt
|
[AR规划器] -> "布局+含义token"
|
[Diffusion解码器] -> 像素
AR阶段基于从GLM-4-9B-0414初始化的大型模型(9B参数),解码器是7B DiT风格的扩散模块。(Z.ai)
Token故事(为什么"256 → 4K"很重要)
GLM-Image首先生成约256个token,然后扩展到1K-4K个token,对应更高分辨率的输出。(GitHub) 这种扩展是它能处理复杂结构化内容(海报、菜单、信息图表)的重要组成部分。
为什么这有助于文字渲染
文字渲染是一个全局约束:
- 单词中字母的一致性
- 列的对齐
- 整个布局的间距
先在token中规划使这些约束更容易满足,而不是试图从去噪噪声中"涌现"它们。
对于提示编写者的实际要点
明确描述布局区域:
- "顶部标题"
- "中心主图"
- "底部页脚栏" …并在引号中包含所需的精确文本。(GitHub)
更多文章

EN
License & Commercial Use: MIT + Component Licenses Explained
GLM-Image licensing can be confusing. Here's a practical breakdown of MIT for the overall model, plus Apache-2.0 licensed components you must respect.


EN
Diffusers Pipeline 实战 + 速度/显存测试记录
使用 Hugging Face Diffusers 的分步 GLM-Image 指南,包括安装、代码和实际的显存/时间估算。


EN
基准测试复现:CVTG-2K 风格测试用例 + 可下载提示词
使用可复制、运行和跨模型比较的提示词,重新创建关键的"图像内文本"测试(CVTG-2K 风格)。

