最强图像反推Joy_Caption本地部署教程,结合FLux出图效果惊艳

8/28/2024, 2:17:38 PM | 热度:447 | 阅读本文需 5 分钟

点赞

之前有做过一期Joy_Caption的介绍教程,那期主要是在线体验Joy_Caption,之前觉得安装麻烦,但是无奈其他反推模型在flux上使用都没Joy_Caption效果好,所以还是把这个本地部署的教程带给大家。

  • 一些缺点:

Joy_Caption运行过程中比较占显存,大概10g左右,低显存的就不要轻易尝试了

我反推一张图片的时间大概是35s左右,这个时间还是有点久的,电脑配置差的可能会更久

需要下载的文件多,对transformers版本有要求

如果你以上缺点都能接受就可以继续安装了

安装节点

管理器安装即可

image.png

也可以在项目地址手动安装:https://github.com/StartHua/Comfyui_CXH_joy_caption

更新transformers

安装完节点后我们到/custom_nodes/Comfyui_CXH_joy_caption中,点击install_req脚本会自动帮我们安装或者更新transformers

image.png

下载模型

我们这里要下载3个模型,缺失的文件夹我们需要自己新建

(1).https://huggingface.co/google/siglip-so400m-patch14-384 放到clip/siglip-so400m-patch14-384

image.png

(2).推荐下载 https://huggingface.co/unsloth/Meta-Llama-3.1-8B-bnb-4bit (如果你有A100 可以考虑下载meta-llama/Meta-Llama-3.1-8B)放到LLM/Meta-Llama-3.1-8B-bnb-4bit

image.png

(3).必须手动下载:https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha/tree/main/wpkklhc6 放到Joy_caption 下

image.png

工作流

插件作者给我们提供了测试的工作流:核心节点就两个

image.png

为了分辨观察我自己加了个翻译节点,如果测试的没问题我们再结合Flux使用

image.png

链接到FLux后就是这样

image.png

我们再测试出图效果,我这里使用nf4v2出图测试

左边是参考图,右边是生成图,可以看到主要的元素基本是和参考图一致的,最后出图的时间大概是2分30s左右

image.png

反推出的提示词:照片中,一名男子站在户外。这名男子年龄在 20 多岁到 30 岁之间,体格健壮,皮肤白皙。他留着一头整洁的棕色短发和修剪整齐的胡须。他戴着带反光镜片的深色飞行员太阳镜,为他的外表增添了时尚和酷炫的感觉。他的着装包括一件浅蓝色长袖衬衫,衬衫上印有精致的格纹图案,扣子一直扣到衣领,下身是深蓝色长裤。一件黑色西装外套搭在他的左肩上,右手随意地握着外套的衣领。他的腰带是黑色的,上面有一个银色的带扣。背景是茂密的绿色植物,包括大片热带树叶和木栅栏,表明这里是热带或亚热带环境。阳光散发出温暖的光芒,凸显了他的棕褐色皮肤,为场景增添了一种放松和宁静的感觉。整体氛围轻松自信,这名男子散发着一种轻松和时尚的感觉。

image.png

再来几个比较抽象的:

反推提示词:未来数字界面。这是一张高分辨率照片,近距离展示了一个人的手与时尚现代的触摸屏交互。屏幕上显示一系列数字图标和仪表,全部采用蓝白配色方案,表明主题是技术和效率。界面包括各种功能的图标,例如“设置”、“灯光”、“风扇”和“温度”,以网格状排列。温度计显示醒目,采用圆形设计,外圈为蓝色,中央为蓝色圆圈,显示当前温度。人的手位于图像中央,皮肤白皙,外观纤细精致。手指伸直,食指指向温度计。背景模糊,由蓝色和白色色调混合而成,暗示着现代高科技环境,可能是办公室或实验室。整体氛围干净、简约、技术先进,强调数字交互和控制的概念。

image.png

反推提示词:一幅以充满活力的超现实场景为特色的数字艺术作品。图像描绘了一辆色彩鲜艳的复古汽车在半空中,似乎正处于戏剧性的飞行时刻。这辆汽车涂上了醒目的紫色,位于中央,略微向左倾斜,给人一种运动和活力的感觉。汽车的细节,包括车灯和车牌,都清晰逼真,与周围的超现实主义元素形成鲜明对比。背景是一片迷人的云景,浓密蓬松的云朵呈粉红色、紫色和蓝色,形成了一种旋转、空灵的氛围。云朵似乎在汽车周围翻腾和旋转,营造出一种混乱和不可预测的感觉。上方的天空是深灰色和黑色的戏剧性、喜怒无常的混合,地平线附近略带红色和橙色,暗示着日出或日落。图像的整体氛围是一种异想天开的混乱,融合了现实主义和奇幻元素。云朵的纹理柔软而蓬松,而汽车的表面看起来光滑而有金属感,与梦幻般的场景形成了鲜明的对比。

image.png

最后再测试一个海报

反推提示词:一幅具有极简主义现代艺术风格的数字插图。该图像以风格化的方式描绘了一座桥梁及其周围的景观。这座桥位于画面中央,以蓝白色调呈现,线条简洁,几何形状鲜明。它的缆绳和支架采用时尚的现代设计,使其具有未来感。这座桥横跨一片平静、反光的水体,占据了图像的下半部分。水面映照着桥梁,增添了一种对称和宁静的感觉。在背景中,一系列风格化的蓝色山脉水平延伸,为构图增添了深度。一轮巨大的满月位于右上角附近,营造出宁静的氛围。天空从顶部的深蓝色过渡到地平线附近的浅色,增强了深度感和距离感。底部的文字写道:“艺术就是有能力在针尖上建造一座宫殿。我思想的奥秘在十秒钟内就显现出来。转一圈,沙漠就变成了一座城市。”这句话用粗体白色字体书写,与蓝色背景形成鲜明对比,为视觉元素提供了哲学背景。整体美感干净、现代,视觉冲击力十足。

image.png

识别出了画面的主要元素,但是排版上的文字没有识别出来

但是我在网页上反推的倒是有

image.png

image.png

总结

我认为非必要就不用安装,想体验的可以去用网页版,效果还更准确一些

网页版地址:https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha

1

继续阅读本文相关话题

本文收录于专题

ComfyUI教程

共收录篇

查看本专题

文章目录

安装节点

更新transformers

下载模型

工作流

总结

AI教程交流群

扫描二维码加入群聊

与同行学习交流&资源共通