
2026/01/17
基准测试复现:CVTG-2K 风格测试用例 + 可下载提示词
使用可复制、运行和跨模型比较的提示词,重新创建关键的"图像内文本"测试(CVTG-2K 风格)。
你要测量什么
你不是在测量"美观"。你在测量:
- 单词的精确正确性
- 多个文本区域的布局稳定性
- 长文本一致性
GLM-Image 仓库报告 CVTG-2K 单词准确率 0.9116 和 LongText-Bench 指标,在文本渲染方面定位强劲。(GitHub)
测试套件(12 个提示词)
复制这些提示词并在不同模型中运行。
A) 多区域广告(3 个区域)
包含三个文本区域的广告布局。顶部标题:"新品到货"。中心徽章:"最高 40% 折扣"。底部 CTA:"立即购买"。字距干净,基线对齐,无错字。
B) 价格网格(菜单)
两栏菜单,右对齐价格:"拿铁 — $4.25"、"摩卡 — $4.75"、"茶 — $3.00"、"可颂 — $3.50"。无额外项目。
C) 长段落(困难模式)
带有必须可读文本块的海报:"本周末仅限:所有超过 $50 的订单免运费。数量有限。适用条款。" 确保每个单词都正确且无扭曲。
D) 对话框
带有两个对话气泡的漫画面板。气泡 1:"我们要去哪里?" 气泡 2:"市中心,五分钟。" 保持标点正确。
(…你可以将此套件扩展到 30–50 条,并在你的网站上做成可下载的提示词包。)
如何发布结果(SEO 友好)
- 每个基准类别一个页面(广告 / 菜单 / 长文本 / 对话框)
- 每个页面:提示词、参数、输出、错误分析、对比图




