来认识一下爆红AI项目 Stable Diffusion,和它背后的机构 Stability AI。
——
文|杜晨  编辑|VickyXiao    图片来源 | Stability AI

AI 生成图片,最近超级火的一项尖端技术。

火到什么程度,以至于已经有公司开始“套个壳”就出道了……

本周有消息曝出,一家创业公司 WriteSonic “剽窃”了著名模型 Stable Diffusion,做了一个生成图片的产品 Photosonic AI。

这还没完,这家公司居然把该产品堂而皇之地发到了产品社区 Product Hunt 上面,甚至一度冲到了第二的位置……


图片来源:Product Hunt

Stable Diffusion 完全免费开源,所有代码都在 GitHub 上公开,任何人都可以拷贝使用——前提是需要遵循原项目采用的 CreativeML Open RAIL-M 许可证。

然而原项目贡献者 Louis Castricato 却发现,WriteSonic 并没有注明使用该许可证,在 Photosonic AI 的任何地方也没有标注技术来源。

他对 WriteSonic 喊话:“希望你们在 VC 面前没有假装这个东西是你们自己做的。”


Stable Diffusion 许可证   图片来源:Hugging Face

目前事情还没有完全闹开,不过 Product Hunt 上已经有不少人提出了质疑。截至本文发出,WriteSonic 创始人尚未做出回应。

其实,Stable Diffusion 也是一周前才正式发布公开版——这次抄袭事件,反倒映射出这项技术到底有多火、Stable Diffusion 有多受欢迎。

最近硅星人多次报道AI 图片生成技术,提到过 DALL·E、Midjourney、DALL·E mini(现用名 Craiyon)、Imagen、TikTok AI绿幕等知名产品。

实际上,Stable Diffusion 有着强大的生成能力和广泛的使用可能性,模型可以直接在消费级显卡上运行,生成速度也相当之快。而其免费开放的本质,更是能够让 AI 图片生成模型不再作为少数业内人士的玩物。

在强者如云、巨头纷纷入局的 AI 图片生成领域,Stable Diffusion 背后的“神秘”机构 Stability AI,也像是“世外高僧”一般的存在。它的创始人没有那么出名,创办故事和融资细节也不是公开信息。再加上免费开源 Stable Diffusion 的慈善行为,更让人增加了对这家神秘 AI 科研机构的兴趣。

今天,我们就来深入了解一下 Stable Diffusion 和 Stability AI,这支在 AI 领域异军突起的“第三种”力量。



/ 消费显卡,秒速生成,完全开源 /

Stable Diffusion 是一个文字转图片的生成模型。可以只用几秒钟时间就生成比同类技术分辨率、清晰度更高,更具“真实性”或“艺术性”的图片结果。

项目开发领导者有两位,分别是 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser,和慕尼黑大学机器视觉学习组的 Robin Romabach。这个项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜伏扩散模型 (Latent Diffusion Model) 研究。

另外,项目也得到了一些外部开发社区,以及 Stability AI 机构生成技术团队的支持,并且从 DALL·E 2、Imagen 等巨头模型项目当中获得和整合了一些经验参考。项目发布的时候有专门声明对这些“竞品”项目的感谢。

图片来源:Stability AI

在训练方面,模型采用了4000台 A100 显卡集群,用了一个月时间。训练数据来自大规模AI开放网络项目旗下的一个注重“美感”的数据子集 LAION-Aesthetics,包括近59亿条图片-文字平行数据。

虽然训练过程的算力要求特别高,Stable Diffusion使用起来还是相当亲民的:可以在普通显卡上运行,即使显存不到10GB,仍可以在几秒钟内生成高分辨率的图像结果。

模型专门面向消费级计算设备所做的优化,意味着更多入门级研究者、内容创作者,以及普通公众用户,都可以更加频繁接触和使用 Stable Diffusion,感受 AI 内容生成技术的最尖端能力,为他们的工作和生活带来极大的便利和乐趣。

在8月初,团队先是进行了一个大范围的公测,结果反响非常热烈,受到大批研究者和测试用户的欢迎。于是,团队很快就在上周一正式公开发布了 Stable Diffusion 模型。只要遵循 OpenRAIL-M 许可证的规定,并且不用于非法和非道德的场景,任何人都可以对该模型进行商业或非商业使用、改造和再发布。

Stable Diffusion 并不是 AI 内容创作、AI 艺术领域的第一个模型,很多人(包括前几周的硅星人)都曾以为它只是一个跟随者而已。

然而并不是这样!


Stable Diffusion 生成结果    图片来源:Stability AI

首先,和其它开放程度相似的项目(如 Craiyon、Disco Diffusion 等)相比,Stable Diffusion 的生成结果更为写实,完全不亚于 DALL·E、Imagen 等巨头开发的超大模型的结果。

其它同类模型在风格上往往会选择一种,比如之前我们写过的 TikTok AI绿幕模型,风格就明显更偏向油画。而 Midjourney 更像现代抽象艺术作品。谷歌 Imagen 具有明显的写实+渲染动画风格,DALL·E mini 则是一股”梗图”风。

并且,Stable Diffusion 的完全开放,以及在商业/非商业使用上超高的自由度,已经让它成为了一个“离群者” (outlier),和 DALL·E、Imagen 等封闭/半封闭产品之间,已经形成了一道巨大的鸿沟。

任何人都可以不花钱,拷贝一份 Stable Diffusion 的代码,按照自己喜欢的方式进行研究,并且用于处理自己需要的文字生成图片相关任务,甚至开发独立的应用或服务。

事实上自从 Stability AI 正式公开发布模型以来,已经有相当多人用它完成了自己的艺术创作,开发出各式各样的 demo、产品,以及非常有趣的小项目了。

比如下面这个由用户 Anthony Cao 开发的设计软件 Figma 插件,就是借助 Stable Diffusion 的能力,用一句话就可以生成用户界面元素。

图片来源:Antonio Cao

用户 Xander Steenbrugge 更厉害了:他进行了大量的尝试,最终锁定了36条连续的文字输入提示,成功调教了 Stable Diffusion 模型,输出了下面这样一个非常令人震撼的视频。他将视频取名为《穿越时空的旅行》: