SD 3.5 Medium发布:更快更小更具性价比,可商用!

10/30/2024, 11:08:35 AM | 热度:135 | 阅读本文需 3 分钟

点赞

模型介绍

Stability.AI 公司在 29 号准时发布了他们的 SD3.5 模型,据他们描述:该模型具有 25 亿个参数,具有改进的 MMDiT-X 架构和训练方法,旨在“开箱即用”地在消费类硬件上运行,在质量和易于定制之间取得平衡。它能够生成分辨率在 0.25 到 2 MP 之间的图像。它不仅在图像质量、文字渲染和复杂提示理解方面有显著提升,更令人惊喜的是其超高的资源效率。

模型特点

该模型体积比一般的 SDXL 还小,只有 5G 左右,不过质量却比 SDXL 好上不少

  • 图像质量有显著提升

  • 文本生成能力显著提升

  • 得益于 T5 Clip,对复杂提示词理解能力显著提升

  • 显存和内存占用少,更适合消费级硬件使用

使用建议

要充分发挥Stable Diffusion 3.5 Medium的能力,有几点建议值得注意:

  • 注意提示词长度:虽然模型可以处理长提示,但当T5 tokens超过 256 时,可能会在生成图像边缘出现瑕疵。如果发现明显瑕疵,可以尝试缩短提示词。

  • 使用跳层引导(Skip Layer Guidance):这种采样技术可以提高结构和解剖一致性,让生成的图像更加协调。

  • 灵活调整:Medium版本的训练数据分布与Large版本不同,对相同提示的响应可能会有差异。在使用过程中要善于调整策略。

如果你不知道你的提示词长度是多少 Token 你可以使用这个工具:OpenAI Platform

image.png

注意事项

使用前先更新一下 ComfyUI,不然加载模型的时候可能会报错:

Error(s) in loading state_dict for OpenAISignatureMMDITWrapper

下载体验

下载地址:https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

试用地址:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-medium

图片测试

人物:magical realism photo portrait, hipster fashion, morning light, 30-something man with long hair, pensive, candid

image.png

美学:~*~aesthetic~*~ #vaporwave neon 3D render, a fancy car in a clubhouse garage, neon sign on the wall reads "Drive On".

image.png

卡皮巴拉:A capybara wearing a suit holding a sign that reads Hello World

image.png

手指测试: Street photography of three women on the street with their hands up to greet the camera

image.png

全身照:Full body shot of a little boy in Iron Man armor on Mars

image.png

动漫:

image.png

image.png

总结

感觉这款模型性价比还是挺高的,用来替代 SDXL 应该是没问题,12G 显存可用,如果后续有量化估计 8G,6G 显存也可以用,就是手脚还是有比较大的问题,但是美学和皮肤质感比 FLux 好得多


1

继续阅读本文相关话题

本文收录于专题

ComfyUI教程

共收录篇

查看本专题

文章目录

模型介绍

模型特点

使用建议

注意事项

下载体验

图片测试

总结

AI教程交流群

扫描二维码加入群聊

与同行学习交流&资源共通