生图别只盯着 GPT-4o，这个国产 AI 一次给你 20 张，除了量大管饱还有惊喜｜附指南

2025-05-17ASPCMS社区 - fjmyhfvclm

就在 AI 生图已经卷到你死我活的时候，还有什么能拼的？——拼量。一条朴实无华的路线。

一次就出二十张，还张张都不重复、都好看，这怎么不是一种全新的「走量」路线？

进入「超能创意 1.0」的模式，豆包在多个维度上都有所提升，包括指令理解、批量生成、并行生成、比例自适应等。其中，主打模糊指令响应，以及批量生图——真「量大管饱」。

想要试用的朋友，需要注意下面几点：

目前只在豆包网页版与电脑版开启体验，电脑版体验更完整

超能创意 1.0 正在灰度测试当中，需命中实验，侧边栏或输入框「图像生成」技能有「超能创意 1.0」标签则表明命中实验

版本触发不稳定，如果直接开启新对话，不一定能触发生图，建议每次都选择「图像生成」专用的对话框

适合小白的生图工具，懂你没说出的话

很多创意的起点都是模糊不清的，只能一点点打磨出实际效果。但是在反复调试之前，总是要有一个开始，哪怕是非常不清晰的开始。

干过设计的都知道，太模糊的需求，提了约等于没提。「暖色系、清新简单」，可以说是完全没有指向性，但这不就是 AI 擅长干的事儿吗？

模糊指令？不完整描述？豆包恰恰理解你真正想要的，甚至是你尚未表达的创意。

一开始，我只是模糊地说了一下需求，豆包便迅速给出了一系列设计方案，色彩搭配到版式布局都贴合了我想要的感觉。

后面我又陆续补充了两次需求，依然不是特别具体，但到第三次的时候效果已经非常到位，简直就是毫不费力地实现了设计意图。

好好好，当 AI 的甲方就是可以这么肆无忌惮。

之所以能做到这种效果，得益于背后的深度学习模型。通过海量数据训练出来的知识与经验，对用户的需求进行有效的推理和预测。模型能够从模糊的描述中精准抓取关键特征，迅速建立匹配的视觉或文字方案。

在这个基础上，模糊指令不再是烦恼的难题，而成了上佳的创意实现方式。

这个案例来自豆包官方，小朋友的想法真是……天马行空啊！新鲜的脑子果然不一样，不是大人能轻易理解的。

看到最终效果，不得不承认，小孩子与 AI 的组合真是创意无限。

除了可以理解模糊的图片，还可以理解模糊的「图文」——给孩子讲故事再也不是难事了。只需输入一个大致的故事梗概，豆包便能自动生成完整的通俗易懂的蜡笔连环画寓言故事。

在这个功能的实现中，豆包使用了多模态生成技术，这种技术可以将文本内容与视觉元素精准地结合起来，快速生成故事与插图。每个画面都配有简单而又生动的文字解释，整体风格也统一协调，并且完全一次性生成。

量大管饱，总有一份合你心意

这次更新的主打功能，就是大批量并行生成，一次可以生成多达 20 张图，并且保持风格、比例等具体要求的实现。

用传统的「抽卡」逐一设计 24 节气的卡片，无疑是一件耗时耗力的事情，更别提还要指定、固定风格。

在豆包这里，这一切变得简单高效。只需给出大致风格要求和主题元素，豆包即可一次性生成完整的 24 节气卡片。

这套节气卡片调整了好几轮，每一轮的细微调整都非常自然流畅，就像和设计师聊天——但不用发脾气和戳屏幕。

稳定性和一致性是相当让人喜出望外的，二十多张图都遵循着同一版式——当然，这个版式也是根据简单的 prompt 就自动设计制定好的。

批量生图特别适合主题相近、版式需要有统一感，但又要有变化和不同的使用场景。

模型实现批量生成的核心是采用并行计算，通过 GPU 加速技术和云端并行处理，大幅缩短了内容生成的时间。同时能管理多个生成任务，极大提升了处理速度，确保用户几乎实时地获得结果。创意也在每一次交流中逐渐完善并达到理想状态。

这个案例中，我指定了人物主题的参考图，以及一个环游世界的创意。没了。

要我写出 20 个国家或城市的具体场景描述——那是打字王才会做的事。

好在，批量生成让包自动根据模糊需求，一次性生成多个不同角度、不同国家和地区特色的旅行图。无论是埃菲尔铁塔、泰姬陵、故宫，还是金色大厅、荷兰风车，每张图片都细致真实，足不出户就真的完成了一次环球旅行。

批量生成不仅能够简单「堆量」，还可以一次生成就覆盖多种风格。这种生图方式我称之为「套餐式出图」，一本满足。

前阵子流行过一阵的「橘猫周游世界」也可以实现。

甚至还可以同步实现「换装」效果，每到一个国家，都搭配上当地的特色服装。

细思极恐：在这个任务里，豆包需要完成的工作包括安排二十个不同的国家，查找当地的自然景点，查找当地的民俗服装，再把上述所有在图片里表现出来。

可以说工作量和 prompt 的简单程度完全不匹配啊。

沿用到风格方案上，也大大提高效率。你只需给出基本主题，豆包便迅速提供多种不同风格的设计方案，有之前流行过的吉卜力风格、可爱的皮克斯，还有充满力量感的美漫风。

和模糊需求不一样的是，「套餐式」出图可以一次性把多种选择摆在眼前，效率比通过模糊语义来逐步调整，又再上了一个台阶。相当于给了 ABCD 多个套餐，给用户做进一步选择。

依靠多模态生成模型实现，结合了图像特征抽取与风格迁移技术，因而具备了同时处理多种风格的能力。同时豆包在批量生成过程中还应用了智能负载均衡技术，确保每个生成任务分配到最合适的计算资源，充分发挥并行计算优势，确保每个用户都能在最短的时间内获得满意的成果。

不同风格，齐头并进；一次输入，十倍返还。不就是一整个「超全套餐」吗？

文 | MJ

我们正在招募伙伴

️???? 简历投递邮箱hr@ifanr.com

️✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或