Stable Diffusion

初心者でもわかる!Stable DiffusionをWindowsデスクトップにインストールして画像生成してみた

2023年9月11日

Stable Diffusionのインストール方法を、初心者向けに分かりやすく丁寧に解説します。画像生成AIコードに詳しくない方でも安心。手順を追って簡単にセットアップできる内容を紹介。AIの世界への第一歩をしっかりサポートします!

Stable Diffusionとは

Stable Diffusionは、ユーザーから入力されたテキストをもとに画像を生成する「訓練済のAIモデル(Diffusion Model)」を搭載した画像生成AIのことです。 ユーザーが生成したい画像イメージを、英単語で入力することで、様々な画像を生成することができます。

タイトルの画像は実際に私がStable Diffusionをインストールして初めて使ったその日に作成したものです。この程度の画像なら初心者の私でも作れてしまうすごいAIなんです。

Stable Diffusionを使うには

主な方法は2つあるようです。

①無料:自分のPCにStable Diffusionをインストールして使用する
②有料:Google colabの環境下で使用する

使ってみて分かったのですが、いろいろ入力するテキストを変更して、出力される画像を確認したくなるので、google colabの有料プランより無制限で自宅PCで出来る環境を構築した方がいいと思います。

必要なPCスペック

今回ご紹介する方法はWindowsにStable Diffusionを構築する方法なので条件は以下のとおり

   条件1 windows10か11
 条件2 VRAM6GB以上のGPU

画像生成の速度に一番関係するのはグラフィックカードのメモリ(VRAM)のようです。

VRAMは最低4GBあれば動かせるという話もありますが、今回使ったGTX 1660 Super(6GB)でも、画像生成されるまでの時間に少しストレスを感じてしまいました。

なので4GBでは試しに使ってみる程度はできるとは思いますが、厳しいと思います。

今回使用したPCのスペック

OS : windows 10(64bit)
CPU : corei3-10100F 3.6GHz
メモリ : 32GB(最低16GB以上あればいいみたい)
グラフィックカード(GPU) : GTX1660super(VRAM 6GB)

Pythonのインストール

Stable Diffusionの実行するためPython 3.10.6をインストールします。
違うバージョンのPythonが入っている人も、以前にインストールしたバージョンをすべて削除し、新たにインストールしてください。
ここからダウンロードできます→ https://www.python.org/downloads/windows/

ダウンロードしたファイルをダブルクリックします。

「Add Python 3.10 to PATH」にチェックを入れてください。
続いて、「Install Now」を押します。

セットアップ完了でこのような表示になります。
続いて、コマンドプロンプトでPythonのインストールの確認を行います。

コマンドプロンプトを起動するとこのような画面が出てきます。¥Users¥の後は、それぞれのPC毎に異なるユーザー名が出るとおもいます。

>に続いて「python --version」と入力してください。

このように、Python 3.10.6と出てくればOKです。

続いて、Gitのインストールを行います。

Gitのインストール

gitは、コンピューター上で作業しているファイルの"保存ポイント"を作り、変更点を記録しておくツールです。

プログラムを作る時、ファイルがどう変わったかを遡れるので、ミスがあった時も安心して前の状態に戻せます。また、複数の人と一緒に作業する際にも、各自の作業内容を綺麗にまとめる手助けをしてくれます。

簡単に言うと、作業の過程をキチンと整理しておくためのマネージャーのようなものです。
これにより、スムーズかつ安全な作業が可能になります。

Automatic 1111のインストールやアップデートを行う際に必要になるので、インストールを行います。

まず、gitのページへアクセスします→ https://git-scm.com/download/win

windows版のgitをダウンロードします。

インストールしていきます。最初の表示はそのまま進みます。

基本デフォルトのままで構わないと思うのですが、デスクトップにアイコンを作る項目だけ追加で選択しました。これは好みですね。

しばらくデフォルトのまま進みます。

最後は「Enable experimental built-in file system monitor」を選択して、Installを押します。

セットアップが完了するとこの画面が出ます。

自動でブラウザが起動してこれが表示されます。
特にやらないといけない作業はないです。

gitのインストールは完了です。

Stable Diffusion WebUI(Automatic 1111)のインストール

まず、インストールするフォルダを作ります。
Cドライブにフォルダ「Stable Diffusion202305」を作成します。
そのフォルダーを開いて、検索窓の空白部分を左クリックします。

するとこのように青く選択されるので、このまま「cmd」と入力します。

するとこうなりますので、Enterキーを押すとコマンドプロンプトが起動します。

C:¥stable diffusion202305>に続いて次の文字列を入力してEnterを押すとダウンロードが始まります。

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

終了するとこのような画面になります。
コマンドプロンプトを閉じて、フォルダの中にファイルが入っているか確認します。

さっきまで空のフォルダに、ファイルが格納されています。
これで、Stable Diffusion WebUI(Automatic 1111)のインストールは完了です。

モデル(checkpoint)のダウンロード

stable diffusionを使って絵を描くために、model(checkpoint)というものが必要になります。
どのmodelを使ってtable diffusionを動かすかによって、生成される絵が異なります。

ゲーム機がStable Diffusinだとすると、ゲームソフトがmodel(checkpoint)ということに例えると分かりやすかもしれません。

modelはcivitai.comで無料で手に入れることができますので好みのmodelを選択しダウンロードします。
modelはchekpointとのみ表記されているものをダウンロードしてください。
(ちなみに、checkpoint XLと書かれているものをダウンロードして使えませんでした)

いろいろなmodelがあって迷います。

ダウンロードしたcheckpointファイルは、
フォルダstable-diffusion-webui¥models¥Stable-diffusion
に移して下さい。

これですべての準備は完了です。

Stable Diffusion WebUI(Automatic 1111)の起動

それではStable Diffusin WebUIを起動しましょう。

このバッチファイルをダブルクリックしてStable Diffusion WebUIを起動します。

初回起動はかなり時間がかかります。30分くらいかかります。

自動でStable Diffusion WebUIが起動します。
左上のcheckpointに先ほどダウンロードしたmodelが選択されているか確認してください。
空欄の時は自分で選択してください。

画像生成してみる

promptの欄に「1woman,smile,」をプロットします。
negative promptの欄に適当な例を探してきて入力しました。
Generateを押して1分位経つと画像が出てきました。

1分くらいかかって、無事、画像が生成されました。
めでたしめでたし。

VRAMメモリ容量の違いによる生成時間の比較

グラフィックカードGTX1660 superなんですが、コンパクトで良かったのですがStable Diffusionをやるには少し能力不足のようです。使っていないRTX2080があったのでそちらに換装してみたいと思います。

GTX1660superのVRAMが6GBなのに対して、RTX2080ではVRAMが8GBとなっています。

早速、GTX1660suoperと同じ条件で画像生成してみます。

GTX1660superで58秒かかっていたのに対して、RTX2080では5.8秒と、約6分の1に短縮されていることが分かります。RTX2080でも生成する画像サイズを大きくしたり、Loraを使ったりすると生成時間が大幅に増加してしまいました。
なのでVRAMは12GBくらいあるといいのかなと思います。

このRTX2080は2年前のマイニングブームの最中に買ったものなので、中古で8万円しました。

最近ではだいぶGPUの相場も落ち着いてきていて、RTX3060(VRAM12GB)くらいが4万円程度で購入できるようになったので買い時です。これくらいの容量があればLoraを使ってもストレスなく画像生成できると思います。


[商品価格に関しましては、リンクが作成された時点と現時点で情報が変更されている場合がございます。]

GG-RTX3060-E12GB/OC/DF GALAKURO GAMING
価格:39,970円(税込、送料別) (2024/1/9時点)


Stable Diffusion

2024/2/25

Stable Diffusion Upscalerを使いこなそう!初心者向けの簡単スタートアップガイド

画像品質は、デジタル時代におけるコンテンツの鍵となる要素です。特にAIによって生成される画像は、その鮮明さとディテールが求められます。しかし、多くのAI生成技術、特にStable Diffusionは、標準的な解像度では限界があります。ここでAIアップスケーラーの役割が重要になります。この先進的なツールは、低解像度の画像を高品質の作品へと変換する力を持っています。 本記事では、AIアップスケーラーの必要性、機能、そしてその使用方法について詳しく説明します。また、ESRGANのようなAIアップスケーラーがど ...

ReadMore

Stable Diffusion

2024/2/24

CFGスケールとは何か? - 初心者向けに解説するStable Diffusionの基本

CFGスケール(Classifier Free Guidance Scale)は、近年話題のStable Diffusionという画像生成モデルにおいて重要な概念です。このスケールは、生成される画像がどの程度入力されたプロンプトや画像に忠実になるかを決定するパラメータです。しかし、このCFGスケールをどのように理解し、最適に使用するかは初心者にとって少々難しいかもしれません。本記事では、CFGスケールの基本的な役割とそれを最適に調整する方法について、初心者でも理解しやすいように丁寧に解説していきます。 C ...

ReadMore

Stable Diffusion

2024/1/17

Clip Skipのマスターガイド: Stable Diffusionでの画像生成の最適化

Clip Skipとは Clip Skipは、Stable Diffusion(1.xモデル)のテキスト埋め込み層であるCLIPモデル(1.xモデルに存在)の一部のレイヤー(層)を生成過程でスキップする機能です。これにより、画像のレンダリングも速くなり、ユニークで素早く生成される画像が得られます。Stable DiffusionのCLIPモデルは異なる情報を含む12の層から構成されており、各層は前の層よりも具体的な情報を持っています。そして、プロンプトの基本的な理解からより具体的な詳細まで、生成される画像 ...

ReadMore

Stable Diffusion

2024/1/15

【Stable Diffusion】画像をプロンプトとして使うIP-Adapterの活用ガイド

IP-Adapterとは何か IP-Adapterは、イメージプロンプトアダプターの略で、コントロールネットの新しいモデルです。従来のテキストベースのプロンプトに代わり、画像をプロンプトとして使用することで、画像生成や変更をより直感的かつ詳細に行うことができます。この技術により、クリエイティブな画像生成が可能になり、新たな表現の幅が広がります。 IP-Adapterの使い方 IP-Adapterの使用方法は比較的簡単です。まず、対応するコントロールネットをアップデートし、IP-Adapter用のモデルをダ ...

ReadMore

Stable Diffusion

2023/12/21

服装に関する参考プロンプト一覧

Stable Diffusionのプロンプトとは? Stable Diffusionプロンプトとは、画像生成AIであるStable Diffusionで画像を生成するために使用する、自然言語で記述された指示です。プロンプトは、画像の題材、構図、雰囲気など、生成したい画像の特徴を記述します。 服装のプロンプト プロンプト日本語意味DressドレスMiniskirtミニスカートMaxiskirtマキシスカートA-line skirtひざ丈のAラインスカートPencil skirtペンシルスカートSkortスカ ...

ReadMore

-Stable Diffusion