LogoGLM-Image Blog
首页洞见指南提示词
Transformers AR 阶段深度解析:256→4K Token 是什么?
2026/01/16

Transformers AR 阶段深度解析:256→4K Token 是什么?

GLM-Image 自回归生成图像 token——从约 256 个 token 开始,扩展到 1K–4K。这对布局、排版和控制意味着什么。

两阶段 token 计划

GLM-Image 的 AR 生成器(从 GLM-4-9B-0414 初始化)产生:

  • 紧凑编码(~256 个 token)
  • 然后扩展到 1K–4K 个 token 对应高分辨率输出(GitHub)

可以理解为:大纲 → 详细蓝图。

为什么 token 扩展有助于排版

排版需要:

  • 字母间笔画一致
  • 单词间间距一致
  • 块间对齐一致

“蓝图”阶段可以为文本块预留空间并保持层次结构(标题 > 副标题 > 正文)。

作为用户可以控制什么

大多数工作流中你不会直接编辑这些 token。但你确实通过以下方式影响它们:

  • 明确的布局指令
  • 清晰的层次语言
  • 引号中的精确文本(GitHub)
  • 限制每个块的合理长度

"对 token 友好"的布局提示词

使用编号块强制结构:

海报布局包含四个区域: (1) 顶部标题:"[标题]" (2) 副标题:"[副标题]" (3) 中心图像:[描述主体] (4) 页脚栏:"[CTA]" 和 "[URL]" 使用干净对齐、一致字距、无错字。

当 AR "跑偏"时的调试

如果模型添加了额外文字:

  • 减少创意性形容词
  • 重新强调"恰好这段文字且没有其他"
  • 缩短每块文本
全部文章

作者

avatar for GLM-Image团队
GLM-Image团队

分类

  • GLM-图像
  • 技术架构
两阶段 token 计划为什么 token 扩展有助于排版作为用户可以控制什么"对 token 友好"的布局提示词当 AR "跑偏"时的调试

更多文章

License & Commercial Use: MIT + Component Licenses Explained
EN

License & Commercial Use: MIT + Component Licenses Explained

GLM-Image licensing can be confusing. Here's a practical breakdown of MIT for the overall model, plus Apache-2.0 licensed components you must respect.

avatar for GLM-Image团队
GLM-Image团队
2026/01/17
Diffusers Pipeline 实战 + 速度/显存测试记录
EN

Diffusers Pipeline 实战 + 速度/显存测试记录

使用 Hugging Face Diffusers 的分步 GLM-Image 指南,包括安装、代码和实际的显存/时间估算。

avatar for GLM-Image团队
GLM-Image团队
2026/01/16
ComfyUI 状态追踪:原生支持何时到来
EN

ComfyUI 状态追踪:原生支持何时到来

追踪 ComfyUI 中的 GLM-Image 支持——在哪里关注、"原生支持"的含义,以及它到来之前的替代方案。

avatar for GLM-Image团队
GLM-Image团队
2026/01/16
Logoglmimage.blog

非官方资源中心。

资源

  • 指南
  • 提示词
  • 洞见
  • 反馈

法律

  • Cookie政策
  • 隐私政策
  • 服务条款

© 2026. 非官方资源中心。

GitHubGitHub