Stability.AI 公司在 29 号准时发布了他们的 SD3.5 模型,据他们描述:该模型具有 25 亿个参数,具有改进的 MMDiT-X 架构和训练方法,旨在“开箱即用”地在消费类硬件上运行,在质量和易于定制之间取得平衡。它能够生成分辨率在 0.25 到 2 MP 之间的图像。它不仅在图像质量、文字渲染和复杂提示理解方面有显著提升,更令人惊喜的是其超高的资源效率。
该模型体积比一般的 SDXL 还小,只有 5G 左右,不过质量却比 SDXL 好上不少
图像质量有显著提升
文本生成能力显著提升
得益于 T5 Clip,对复杂提示词理解能力显著提升
显存和内存占用少,更适合消费级硬件使用
要充分发挥Stable Diffusion 3.5 Medium的能力,有几点建议值得注意:
注意提示词长度:虽然模型可以处理长提示,但当T5 tokens超过 256 时,可能会在生成图像边缘出现瑕疵。如果发现明显瑕疵,可以尝试缩短提示词。
使用跳层引导(Skip Layer Guidance):这种采样技术可以提高结构和解剖一致性,让生成的图像更加协调。
灵活调整:Medium版本的训练数据分布与Large版本不同,对相同提示的响应可能会有差异。在使用过程中要善于调整策略。
如果你不知道你的提示词长度是多少 Token 你可以使用这个工具:OpenAI Platform
使用前先更新一下 ComfyUI,不然加载模型的时候可能会报错:
Error(s) in loading state_dict for OpenAISignatureMMDITWrapper
下载地址:https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
试用地址:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-medium
人物:magical realism photo portrait, hipster fashion, morning light, 30-something man with long hair, pensive, candid
美学:~*~aesthetic~*~ #vaporwave neon 3D render, a fancy car in a clubhouse garage, neon sign on the wall reads "Drive On".
卡皮巴拉:A capybara wearing a suit holding a sign that reads Hello World
手指测试: Street photography of three women on the street with their hands up to greet the camera
全身照:Full body shot of a little boy in Iron Man armor on Mars
动漫:
感觉这款模型性价比还是挺高的,用来替代 SDXL 应该是没问题,12G 显存可用,如果后续有量化估计 8G,6G 显存也可以用,就是手脚还是有比较大的问题,但是美学和皮肤质感比 FLux 好得多
1
© CopyRight 2002-2024 ,CHINAZ.COM , Inc.All Rights Reserved.