生图别只盯着 GPT-4o,这个国产 AI 一次给你 20 张,除了量大管饱还有惊喜|附指南

2025-05-17ASPCMS社区 - fjmyhfvclm

就在 AI 生图已经卷到你死我活的时候,还有什么能拼的?——拼量。一条朴实无华的路线。

一次就出二十张,还张张都不重复、都好看,这怎么不是一种全新的「走量」路线?

进入「超能创意 1.0」的模式,豆包在多个维度上都有所提升,包括指令理解、批量生成、并行生成、比例自适应等。其中,主打模糊指令响应,以及批量生图——真「 量大管饱」。

想要试用的朋友,需要注意下面几点:

目前只在豆包网页版与电脑版开启体验,电脑版体验更完整

超能创意 1.0 正在灰度测试当中,需命中实验,侧边栏或输入框「图像生成」技能有「超能创意 1.0」标签则表明命中实验

版本触发不稳定,如果直接开启新对话,不一定能触发生图,建议每次都选择「图像生成」专用的对话框

适合小白的生图工具,懂你没说出的话

很多创意的起点都是模糊不清的,只能一点点打磨出实际效果。但是在反复调试之前,总是要有一个开始,哪怕是非常不清晰的开始。

干过设计的都知道,太模糊的需求,提了约等于没提。「暖色系、清新简单」,可以说是完全没有指向性,但这不就是 AI 擅长干的事儿吗?

模糊指令?不完整描述?豆包恰恰理解你真正想要的,甚至是你尚未表达的创意。

一开始,我只是模糊地说了一下需求,豆包便迅速给出了一系列设计方案,色彩搭配到版式布局都贴合了我想要的感觉。

后面我又陆续补充了两次需求,依然不是特别具体,但到第三次的时候效果已经非常到位,简直就是毫不费力地实现了设计意图。

好好好, 当 AI 的甲方就是可以这么肆无忌惮。

之所以能做到这种效果,得益于背后的深度学习模型。通过海量数据训练出来的知识与经验,对用户的需求进行有效的推理和预测。模型能够从模糊的描述中精准抓取关键特征,迅速建立匹配的视觉或文字方案。

在这个基础上,模糊指令不再是烦恼的难题,而成了上佳的创意实现方式。

这个案例来自豆包官方,小朋友的想法真是……天马行空啊!新鲜的脑子果然不一样,不是大人能轻易理解的。

看到最终效果,不得不承认,小孩子与 AI 的组合真是创意无限。

除了可以理解模糊的图片,还可以理解模糊的「图文」——给孩子讲故事再也不是难事了。只需输入一个大致的故事梗概,豆包便能自动生成完整的通俗易懂的蜡笔连环画寓言故事。

在这个功能的实现中,豆包使用了多模态生成技术,这种技术可以将文本内容与视觉元素精准地结合起来,快速生成故事与插图。每个画面都配有简单而又生动的文字解释,整体风格也统一协调,并且完全一次性生成。

量大管饱,总有一份合你心意

这次更新的主打功能,就是 大批量并行生成,一次可以生成多达 20 张图,并且保持风格、比例等具体要求的实现。

用传统的「抽卡」逐一设计 24 节气的卡片,无疑是一件耗时耗力的事情,更别提还要指定、固定风格。

在豆包这里,这一切变得简单高效。只需给出大致风格要求和主题元素,豆包即可一次性生成完整的 24 节气卡片。

这套节气卡片调整了好几轮,每一轮的细微调整都非常自然流畅,就像和设计师聊天——但不用发脾气和戳屏幕。

稳定性和一致性是相当让人喜出望外的,二十多张图都遵循着同一版式——当然,这个版式也是根据简单的 prompt 就自动设计制定好的。

批量生图特别适合 主题相近、版式需要有统一感,但又要有变化和不同的使用场景。

模型实现批量生成的核心是采用并行计算,通过 GPU 加速技术和云端并行处理,大幅缩短了内容生成的时间。同时能管理多个生成任务,极大提升了处理速度,确保用户几乎实时地获得结果。创意也在每一次交流中逐渐完善并达到理想状态。

这个案例中,我指定了人物主题的参考图,以及一个环游世界的创意。没了。

要我写出 20 个国家或城市的具体场景描述——那是打字王才会做的事。

好在,批量生成让包自动根据模糊需求,一次性生成多个不同角度、不同国家和地区特色的旅行图。无论是埃菲尔铁塔、泰姬陵、故宫,还是金色大厅、荷兰风车,每张图片都细致真实,足不出户就真的完成了一次环球旅行。

批量生成不仅能够简单「堆量」,还可以一次生成就覆盖多种风格。这种生图方式我称之为「套餐式出图」,一本满足。

前阵子流行过一阵的「橘猫周游世界」也可以实现。

甚至还可以同步实现「换装」效果,每到一个国家,都搭配上当地的特色服装。

细思极恐:在这个任务里,豆包需要完成的工作包括安排二十个不同的国家,查找当地的自然景点,查找当地的民俗服装,再把上述所有在图片里表现出来。

可以说工作量和 prompt 的简单程度完全不匹配啊。

沿用到风格方案上,也大大提高效率。你只需给出基本主题,豆包便迅速提供多种不同风格的设计方案,有之前流行过的吉卜力风格、可爱的皮克斯,还有充满力量感的美漫风。

和模糊需求不一样的是,「套餐式」出图可以一次性把多种选择摆在眼前,效率比通过模糊语义来逐步调整,又再上了一个台阶。相当于给了 ABCD 多个套餐,给用户做进一步选择。

依靠多模态生成模型实现,结合了图像特征抽取与风格迁移技术,因而具备了同时处理多种风格的能力。同时豆包在批量生成过程中还应用了智能负载均衡技术,确保每个生成任务分配到最合适的计算资源,充分发挥并行计算优势,确保每个用户都能在最短的时间内获得满意的成果。

不同风格,齐头并进;一次输入,十倍返还。不就是一整个「超全套餐」吗?

文 | MJ

我们正在招募伙伴

️???? 简历投递邮箱hr@ifanr.com

️✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或

全部评论