Stable Diffusion 是 Stability AI 公司开发的一款文本到图像的产品模型,它将使数十亿人能够在几秒钟内创作出令人惊叹的艺术作品。它是速度和质量方面的突破,意味着它可以在消费类 GPU 上运行。模型权重由托管合作方 Hugging Face 处理。
这是由 Runway 的 Patrick Esser 和慕尼黑大学机器视觉与学习研究小组的 Robin Rombach(以前是海德堡大学的 CompVis 实验室)领导的,基于他们之前在 CVPR'22 上的潜在扩散模型工作,并结合了社区的支持在 Eleuther AI、LAION 和 Stability 生成 AI 团队。
项目开发领导者有两位,分别是 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser,和慕尼黑大学机器视觉学习组的 Robin Romabach。这个项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜伏扩散模型 (Latent Diffusion Model) 研究。
另外,项目也得到了一些外部开发社区,以及 Stability AI 机构生成技术团队的支持,并且从 DALL·E 2、Imagen 等巨头模型项目当中获得和整合了一些经验参考。项目发布的时候有专门声明对这些“竞品”项目的感谢。
Stable Diffusion是一种机器学习模型,它经过训练可以逐步对随机高斯噪声进行去噪以获得感兴趣的样本,例如生成图像。
扩散模型有一个主要的缺点就是去噪过程的时间和内存消耗都非常昂贵。这会使进程变慢,并消耗大量内存。主要原因是它们在像素空间中运行,特别是在生成高分辨率图像时。
Latent diffusion通过在较低维度的潜空间上应用扩散过程而不是使用实际的像素空间来减少内存和计算成本。所以Stable Diffusion引入了Latent diffusion的方式来解决这一问题计算代价昂贵的问题。
我想等网站访问量多了,在这个位置放个广告。网站纯公益,但是用爱发电服务器也要钱啊 ----------狂奔的小蜗牛