画像品質は、デジタル時代におけるコンテンツの鍵となる要素です。
特にAIによって生成される画像は、その鮮明さとディテールが求められます。
しかし、多くのAI生成技術、特にStable Diffusionは、標準的な解像度では限界があります。
ここでAIアップスケーラーの役割が重要になります。
この先進的なツールは、低解像度の画像を高品質の作品へと変換する力を持っています。
本記事では、AIアップスケーラーの必要性、機能、そしてその使用方法について詳しく説明します。
また、ESRGANのようなAIアップスケーラーがどのようにしてStable Diffusion生成画像のクオリティを向上させるのか、そのプロセスを解き明かします。
画像を次のレベルへ引き上げるための技術的知識を提供するとともに、具体的な使用方法とベストプラクティスを提供します。
Upscaler(アップスケーラー)の必要性とは?
AIアップスケーラーがなぜ必要なのか、その重要性について詳しく解説します。
AIアップスケーラーの重要性
デジタルイメージングの世界では、画像の品質が常に重要視されています。
AIによって生成された画像は特に、その品質と細部の明瞭さが求められます。
しかし、Stable DiffusionのようなAI生成技術はしばしば、基本的な解像度の制限に直面しています。
これが、AIアップスケーラーの必要性が生じる理由です。
Stable Diffusionと解像度の制限
Stable Diffusionは、非常に革新的なAI画像生成ツールですが、デフォルトの画像サイズは512×512ピクセルに限定されています。これは、現代のデジタル画像標準にはかなり低い解像度です。例えば、最新のスマートフォンやデジタルカメラでは、はるかに高い解像度の画像が一般的です。
低解像度の影響
低解像度の画像は、拡大や詳細表示時に品質が劣化しやすく、これがビジュアルコンテンツにとって大きな障害となります。特に、複雑なテクスチャーや細かいディテールが含まれる場合、これらの画像はぼやけてしまうことが多いです。
アップスケーラーの役割
アップスケーラーは、この問題に対処するために開発されました。これらのツールは、AIとディープラーニング技術を利用して、低解像度の画像を高解像度に変換します。画像の細部を損なうことなく、全体的な品質を向上させることができるのです。
アップスケーラーのメリット
アップスケーラーの最大のメリットは、画像の細部を鮮明に保ちながら解像度を向上させる能力です。
これにより、より鮮明でリアルなビジュアルが得られ、プリントメディアやデジタルディスプレイでの使用に適した画像が生成されます。
アップスケーラーの仕組み
AIアップスケーラーがどのようにして低解像度の画像を高品質に変換するか、その仕組みを深く掘り下げます。
AIアップスケーラーの基本原理
AIアップスケーラーは、低解像度の画像を高解像度に変換するための最先端技術です。これは、単にピクセルを増やすのではなく、画像の細部を精密に再現し、全体の品質を向上させるプロセスです。
ディープラーニングの役割
AIアップスケーラーの中核である、ESRGAN(Enhanced Super-Resolution Generative Adversarial Network)は、画像のサイズと解像度を向上させるために設計された深層学習モデルです。これは大量の画像データを使用して訓練され、低解像度の画像から高解像度の画像を生成する方法を学習します。
画像の解析と再構築
アップスケーラーはまず、低解像度の画像を解析し、その特徴やテクスチャーを把握します。次に、学習したデータを基に、欠けている細部を予測し、画像を再構築します。この過程では、画像の自然な外観を保ちながら、エッジやテクスチャーを鮮明にします。
高度なアルゴリズムの使用
AIアップスケーラーでは、複雑なアルゴリズムが使用されます。これにより、画像の細かいディテールや色彩を正確に再現し、リアルな高解像度の画像を生成することが可能になります。
リアルタイム処理の可能性
一部のAIアップスケーラーはリアルタイムでの処理も可能です。これにより、ビデオストリーミングやゲームなど、リアルタイムでの高品質なビジュアルが要求される分野での利用が現実的になります。
アップスケーラーの使い方
①img2imgでのアップスケール方法
AIアップスケーラーは、低解像度の画像を高解像度に変換する強力なツールです。
Stable diffusion WebUI(Automatic 1111)でのアップスケール方法ついて、以下のステップに従って解説していきます。
ステップ1:「MultiDiffusion」のインストール
①Extensions タブをクリックして
③Install from URL をクリック
③URL for extension’s git repository に以下のURLを入れます。
https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111
④installをクリックします。

最後に①Installed タブをクリックし、②Apply and restart UI をクリックで再起動しましょう。

ステップ2: 画像のアップロード
- アップスケールしたい画像を選択し、PNG infoタブのSource欄にアップロードします。

画像をアップロードすると、①Source欄にアップロードした画像が表示され、②のparameters欄に画像生成した時のプロンプト等の条件が表示されるようになります。

③Send to img2imgを選択すると、②のパラメーターが次のように、img2imgのプロンプトに反映されます。

ステップ3: アップスケール設定の選択
次のように、①Resize byと②scaleでアップスケールの比率(例: 2x、4xなど)を設定します。今回は2倍に設定しました。
③のところを確認すると、832×1312が2倍の1664×2624にサイズが多きくなっているのが分かります。

画像の種類や目的に応じて、適切なアップスケール方法を選択します。
まず、①Denoising strengthの値を設定します。値が小さいほど元の画像に忠実にアップスケールされます。反対に値が大きいと元の画像と少し変化が見られるようになります。今回は元の画像に忠実にアップスケールしたいので0.4に設定しました。
Tiled Diffusionの②Enable Tiled Diffusionにチェックを入れます。
③でアップスケーラーを選択します。今回はR-ESRGAN 4×を選択しました。

続いて、Tiled VAEの設定項目を開いて①~③までチェックを入れます。

ステップ4: アップスケーリングの実行
- 「Generate」ボタンをクリックして、プロセスを開始します。
- 処理には数秒から数分かかることがあります。
ステップ5: 結果の確認と保存
- アップスケールされた画像をプレビューし、品質を確認します。
- 満足できる結果であれば、画像を保存します。
アップスケールが完了すると赤い点線のところに画像が表示されます。

拡大して見てみましょう。

アップスケール後に明らかにきめ細かい描写になっているのが確認できます。
②txt2imgで「Hires.fix」を使ってアップスケールする方法
txt2imgページで生成された画像をHires fixでアップスケールする方法を説明します。これにより、すべての画像がオプションで自動的にアップスケールされます。
まず、①にチェックを入れます。これにより、画像生成後に自動でアップスケールされることになります。
②でアップスケーラーを選択します。アップスケーラーは後から追加でインストールすることも可能です。
③でアップスケールの倍率を設定します。最大で4倍まで拡大できます。
④Denoising strengthの設定の仕方については先ほどの説明と同じです。
⑤アップスケールする前の段階での画像のサイズをここで設定します。
あとはGenerateボタンを押せばアップスケールされます。

新しいアップスケーラーのインストール方法
AUTOMATIC1111 GUIで新しいアップスケーラーをインストールする方法を説明します。Open model databaseからモデルをダウンロードし、フォルダに配置すると、GUIを再起動した際に新しいアップスケーラーを選択できるようになります。
今回は、デフォルトでは入っていない「4x-Ultrasharp」というアップスケーラーを新たにインストールする方法を例に解説をします。
最初に、アップスケーラーのファイルをHugging FaceのHP(https://huggingface.co/lokCX/4x-Ultrasharp/tree/main)からダウンロードします。

赤い点線の中のボタンを押すとファイルがダウンロードされます。
ダウンロードしたファイルをmodels/ESRGANフォルダに保存します。WebUIを再起動するとUpscalerの選択肢の中に4x-UltraSharpが追加されます。これで、インストールは完了です。

アップスケーラーの種類
- LDSR (Latent Diffusion Super Resolution)
Stable Diffusion1.4で初めて紹介されました。低解像度のビデオでも品質を大幅に向上させることができます。 - ESRGAN 4x
任意のアップロードされた画像タイプで優れた結果を提供。4Kまでの画像をアップスケーリングするのに適しています。 - R-ESRGAN 4x
ESRGANの改良版で、AI生成画像や実写画像の復元に適しています。 -
4x_UltraSharp
4x-UltraSharpは、生成した画像の特徴を維持しながら、美しく高解像度化することが可能です。リアル系やアニメ系の画像でも、 元の画像の雰囲気を損なうことなく、高解像度化を行うことができます。 - Latent
他のアップスケーラーと比較して、Latentはディテールが豊かで色彩が鮮やかな画風になりやすいですが、元の画像からの変化が大きくなることもあります。Latentアップスケーラーは、イラストやアニメ風の画像に特に適しています。これは、その特有の画風がこれらのジャンルの画像にマッチするためです。ただし、Denoising strength(ノイズ除去強度)を高めに設定しないと、ノイズが残る傾向があります。適切な強度の設定が重要です。