【Conoha AI Canvas】Stable Diffusion WebUIの使い方【操作画面の見方】

2025年1月21日

Conoha AI CanvasのStable Diffusion WebUIの使い方が分かりません。

初めて聞く単語や専門用語が多く、設定項目が多いです。

どこをどう調整したら生成結果がどのように変化するのか、全くわからないので、使い方を覚えたいです。

この記事では、こういった要望にお答えします。

本記事の内容

【Conoha AI Canvas】Stable Diffusion WebUIの使い方

Stable Diffusion WebUIは、初めて触れる方にとって難しいですよね。設定項目は多く、どこをどう調整すればいいのか迷ってしまうポイントが沢山あります。

「プロンプト」ぐらいは分かると思いますが、「サンプリングステップ」や「バッチ回数」など、初めての方からすると意味が分からないと思います（筆者も最初のうちは意味が分かりませんでした）。

この記事では、Stable Diffusion WebUIの使い方を図解入りでまとめました。

Stable Diffusionはプロンプトを入力すればとりあえず画像は生成されますが、各設定項目の役割を理解していないと、思い描いたイメージにピッタリの画像を生成するのは難しいです。

「どの設定項目が生成結果にどのように影響するのか」が分かれば、思い描いたイメージにぴったりの画像を生成するコツが掴めるはずです。

コツが分かればAI画像生成がぐっと身近に、そして楽しくなりますので、Stable Diffusion WebUIの基本操作を覚えて、AI画像生成を楽しみましょう。

【Conoha AI Canvas】Stable Diffusion WebUIの使い方

Stable Diffusion WebUIの使い方を解説していきます。

①Stable Diffusionのcheckpoint
➁プロンプト
③ネガティブプロンプト
④サンプリング方法
⑤サンプリングステップ数
⑥幅・高さ
⑦バッチ回数・バッチサイズ
⑧CFGスケール
⑨シード
⑩スクリプト
⑪生成
⑫生成結果エリア
⑬生成結果エリア下のアイコン5つ

上記順に解説します。

①Stable Diffusionのcheckpoint

モデルデータの切り替えを行います。

モデルデータとは、AIが機械学習アルゴリズムを使って画像生成の過程で学習した画像の特徴を保存したデータのことを指します。
Stable Diffusionでは、モデルデータのことを「Checkpoint」という名称で呼んでいます。

モデルデータを切り替えることで、特定の画像スタイル（アニメ調や、Pixel Art調、リアルなアジア人女性など）をより正確に反映させることができます。

モデルデータは初期状態では1つ（V1-5-pruned-emaonly.safetensors）しかセットされていませんが、下記サイトでダウンロードできます。

参考リンク Civit AI

詳しい入手方法や、インストール方法は別記事の「Conoha AI CanvasのStable Diffusion WebUIにモデルをインストールする方法」をどうぞ。

➁プロンプト

プロンプト入力項目に、生成したい画像を表す単語や文章を入力します。

日本語入力も可能ですが、英語の方が生成結果がよいです。

③ネガティブプロンプト

ネガティブプロンプト入力項目に、生成結果に反映させたくない特徴を入力します。

プロンプト同様、なるべく英語で入力した方がいいです

ネガティブプロンプトを入力することで、イメージとは大きく異なる画像が生成されることを避けられます。

画像生成AIは勝手にいろいろな描写を追加してくることがあります。

例えば、犬の可愛い画像を生成するために「Cute Dog（かわいい犬）」と入力すると、犬の隣や背景に人物が描写されることがよくあります。

人物描写が不要な時は、ネガティブプロンプトに「No people（人がいない）」と入力すると、人物描写のない画像を生成できます。

④サンプリング方法

サンプリング方法とはノイズ除去プロセスのことで、生成される画像の品質、スタイル、生成速度に大きな影響を与えます。

サンプリング方法の選択

選択できるサンプラーは20以上ありますが、代表的なものを紹介しておきます。

DPM++ 2M Karras（デフォルト）：バランスの取れた品質と速度を持つ
DPM++ SDE Karras：ストキャスティック微分方程式（SDE）を使用し、高品質で安定した結果を提供
DDIM：高速かつ決定論的（同じ条件で同じ結果）。少ないステップ数でも高品質な結果を提供
Heun：シンプルで効率的な「Euler」よりも精度と安定性が向上した改良版。

それぞれのサンプラーには特有の特徴があり、目的や使用するモデルに応じて適切なものを選ぶことが重要です。

ひとまず、デフォルトの状態でOKです。

サンプリング方法とは

Stable Diffusioは下記の流れで画像生成を行います。

初期画像の作成：最初に、大まかな画像（ぼやけた画像）を生成します。
ノイズ除去：初期画像から、AIが少しずつノイズを除去していきます。
詳細の追加：入力されたテキストの意味を理解し、それに合ったディテールを画像に加えていきます。
高品質画像の完成：ノイズが完全に消えると、高品質な画像が完成します。

出典：Stable Diffusion Samplers: A Comprehensive Guide – Stable Diffusion Art

基本的には上図の流れでサンプリングを行いますが、サンプラーを選択することで、ノイズ除去プロセスに変化を与え、生成結果に変化を与えることが可能となります。

高解像度補助

高解像度補助は、画像を高解像度化する際に品質やスタイルを調整するために使用します。

アップスケーラー：画像を拡大する際に使用するアルゴリズムを選択します。デフォルトの「Latent」や「R-ESRGAN」などがあり、それぞれ異なる特徴があります。
- Latent：元画像の構図を保ちながら自然なディテールを追加
- R-ESRGAN：鮮明でシャープな仕上がりになることが多い
アップスケール倍率：画像をどのくらい拡大するかを指定します。例えば、倍率を「2」にすると、元画像の幅と高さがそれぞれ2倍になります（例：512×512 → 1024×1024）。
高解像度でのステップ数：高解像度化時に行う処理（サンプリング）の回数です。ステップ数が多いとディテールが緻密になりますが、生成時間も長くなります。
- 通常は10～20程度がおすすめ。
- 0に設定すると通常のサンプリングステップ数と同じ値になります
ノイズ除去強度：ノイズ除去の強さを調整します
- 値が低い場合（例：0.2～0.4）、元画像に忠実で大きな変化はない
- 値が高い場合（例：0.7～1.0）、元画像から大きく変化した新たなイメージが生成される可能性がある
サイズ変更後の幅・高さ：高解像度化後の画像サイズを直接指定します。例えば、「幅1024、高さ1024」と入力すれば、そのサイズで出力されます。アップスケール倍率と連動して計算される場合もあります。

⑤サンプリングステップ数

サンプリングステップ数はノイズ除去の回数を示した数値で、この数値を調整すると生成される画像の品質と処理時間のバランスをコントロールできます。

基本的に20のままでOKですが、より高品質な画像を生成したい場合、30～40ぐらいに上げてみるといいですよ。

数値が高い：品質の高い画像を生成できますが、生成速度は遅い
数値が低い：生成される画像の品質は低いが、生成速度は速い

一般的に、サンプリングステップ数は 20～25 が標準的と言われています。この範囲で十分に高品質な画像が生成されることが多いです。

高品質な画像：20～25
より高品質な画像生成：30〜40

使用するモデルによって数値の調整が必要です。

Refiner

Refinerは、画像生成プロセスの後半で画像のディテールや品質をさらに向上させるために使用される機能です。

Refinerの矢印をクリックすると、「Checkpoint」と「Switch at」という項目が出現します。

各項目の詳細は下記のとおりです。

Checkpoint（チェックポイント）：通常のBaseモデルとは異なる補助的なモデルを選択します。この補助モデルは、画像生成の後半で適用され、ディテールや画質を向上させる役割を果たします。
- 特定のスタイルやテーマに最適化されたモデルを選択することで、生成画像の細部や質感を調整します。
- 例えば、Baseモデルで全体の構図や雰囲気を作り、Refiner用のCheckpointで細部をリアルに仕上げることが可能です。
- 設定例：Baseモデルに「fudukiMix」（アニメ風）、Refinerに「Reproduction」（2Dイラスト向け）を設定すると、アニメ風の構図に2Dイラスト特有のディテールが加わります。
Switch at（スイッチアット）：生成プロセス中でBaseモデルからRefinerモデルへ切り替えるタイミングを指定するパラメーターです。値は0～1（または0～100%）で設定され、生成ステップ全体のどの段階で切り替えるかを制御します。
- Switch at = 0.8の場合：生成プロセス全体の80%まではBaseモデルが使用され、その後20%でRefinerモデルが適用されます。
- Switch at = 1の場合：Refinerは適用されず、Baseモデルのみが使用されます。
- 数値を小さくすると（例: 0.1）、生成プロセス全体にわたってRefinerモデルが強く影響します。一般的に「0.5～0.8」がバランス良い結果を得られるとされています。

⑥幅・高さ

生成する画像のサイズを設定します。

デフォルトは幅512px × 高さ512pxに設定されています。

サイズを大きくすると生成速度が遅くなります。
例えば、フルHD（1280×720）の画像を生成しようとすると、デフォルトサイズの倍近く時間がかかります（といっても、10秒ぐらいで生成されます）。

⑦バッチ回数・バッチサイズ

一度に複数枚の画像を生成したい時に設定します。

バッチ回数：連続して画像を生成する回数の指定（例えば、「10」に設定すると、10回の処理が行われ、それぞれで指定されたバッチサイズ分の画像が生成される）
バッチサイズ：同時に生成する画像の枚数を指定（例えば、「4」に設定すると、1回の処理で4枚の画像が生成される）

両者を組み合わせることで、一度に大量の画像を効率的に生成できます。

バッチ回数とバッチサイズの組み合わせ例

バッチ回数「5」、バッチサイズ「4」の場合 → 総生成枚数は 5×4 = 20 枚となります

一度に複数枚のイラストを生成したい時はバッチ回数の値を設定するのがおすすめです。バッチサイズは、数値を増やすとエラーの可能性が高くなる。

⑧CFGスケール

プロンプト追従性を示した数値です。

この数値を調整すると、プロンプトの影響力と画像の創造性のバランスを調整できます。

数値が高いほど、プロンプトに忠実な画像を生成します
数値が低いほど、ブロンプトの一致度が低くなり、創造的かつ抽象的な画像が生成される

一般的に、適正値の目安は7〜11とされています（多くのモデルでバランスが良い結果を得られる範囲）。

使用するモデルによって推奨値は異なります。

⑨シード

シードは、画像生成を行った際に付与される値（番号）です。

この値を利用することで、過去に生成した画像を呼び出して同じ条件で再生成できます。

例えば、気に入った画像が生成された場合、そのシード値を記録しておけば、後で同じ条件で再生成できますし、プロンプトや他のパラメーターを微調整しながら元の構図や雰囲気を維持したまま改良することも可能です。

デフォルトではランダムの「-1」に設定されています。

シードの設定方法

固定値の指定：シード値を手動で指定すると特定の画像を再現できます（例: 12345）。
ランダムシード：シード値を「-1」または空欄に設定すると、自動的にランダムなシードが選ばれます。これにより、多様な画像が生成されます。

シードの活用例

特定の画像の再現：気に入った画像が生成された場合、そのシード値を記録しておけば、後で同じ条件で再生成できます。
- 例えば、プロンプトや他のパラメーターを微調整しながら元の構図や雰囲気を維持したまま改良できます。
バリエーション生成：同じプロンプトで異なるシード値を試すことで、多様な構図やスタイルの画像を得ることができます。これにより、複数案を比較したり、新しいアイデアを探ることが可能です。
インクリメンタルな変更：シード値を少しずつ変更（例: 12345 → 12346）すると、元の画像と似た構図や要素を持つバリエーションが得られる場合があります。

その他

シードの横にある「その他」にチェックを入れると、4つのパラメーターが表示されます。

①バリエーションのシード

バリエーションシードは、元のシード値を基にして画像に微妙な変化を加えるために使用される追加のシード値です。デフォルトでは「-1」に設定されており、この場合はランダムな値が自動的に選ばれます。

用途：元の画像をベースにしながら、少し異なるバリエーションを生成したい場合に使用します。
- 例えば、キャラクターのポーズや背景を微調整したいときに便利です。
設定例：元のシード値を「12345」、バリエーションシードを「67890」に設定すると、両者を組み合わせた画像が生成されます。

➁バリエーションの強度

バリエーション強度は、元のシード値とバリエーションシード値のどちらに近づけるかを制御するパラメーターです。

値は0～1で設定可能で、以下のように動作します

0：元のシード値に完全に従った画像を生成。
1：バリエーションシード値に完全に従った画像を生成
0.1～0.9: 両者を混ぜた中間的な画像を生成

用途：微修正や細かい変化をつけたい場合に使用します。
- 例えば、キャラクターのポーズや背景を微調整したいときに便利です。
- 強度が低い場合（例: 0.1）、元画像に非常に近い結果が得られます。
- 強度が高い場合（例: 0.8）、大きな変化が加わります。
注意点：強度が高すぎると、予期しない変化や不安定な結果になることがあります。

③元の幅と対応するシードからのサイズ変更

通常、画像サイズを変更すると同じシード値でも全く異なる構図や内容になることがあります。

このオプションは、元画像の幅情報を基にしてサイズ変更後も構図をできるだけ維持するための機能です。

用途：元画像と似た構図や内容で解像度だけを変更したい場合に使用します。幅情報を指定することで、新しいサイズでも元画像と近い結果が得られます。

④元の高さと対応するシードからのサイズ変更

③と同じですが、高さ情報を基にしてサイズ変更後も構図を維持します。

用途：高さ方向で解像度を変更しつつ、元画像と似た構図や内容で生成したい場合に使用します。

⑩スクリプト

スクリプトは比較画像を作成する機能です。スクリプト選択することで、多様な比較画像の生成や生成プロセスの効率化が可能になります。

とはいえ、基本的には「None」のままでOKです。

スクリプト名	概要	用途
None	スクリプトなし。通常通り単一プロンプトで画像生成。	シンプルな画像生成
プロンプトマトリックス図	プロンプト要素の総当たり組み合わせで画像生成し、グリッド形式で出力。	異なる要素が画像に与える影響を見る
ファイルまたはテキストボックスからプロンプトを入力	テキストボックスまたはファイルから複数プロンプトを一括実行。	複数アイデアやテーマの効率的な試行
X/Y/Zプロット	最大3つのパラメータ（X/Y/Z）の違いによる比較表を生成	パラメータやモデルによる画像生成結果の分析・比較

⑪生成

生成をクリックすると、画像生成が実行されます。

生成中、「中断」と「スキップ」と表示されますが、各名称の意味は下記のとおりです。

中断：生成が中断されます
スキップ：中断されますが、途中までの生成結果は表示されます

矢印アイコン

最後に使用した「プロンプト」と「ネガティブプロンプト」を呼び出せます。

ゴミ箱アイコン

現在入力されている「プロンプト」と「ネガティブプロンプト」を一括で削除できます。

筆アイコン

プロンプトやスタイルを保存・管理するための機能です。

使用頻度の高いプロンプトを登録しておけば、作業効率が向上し、同じプロンプトを設定する際、入力の手間が省けます。

プロンプトとネガティブプロンプトをセットで管理できるため、一貫性のある画像生成が可能になります。

アイコンをクリックすると、下図のように「スタイル」、「プロンプト」、「ネガティブプロンプト」という項目が表示されます。

スタイル：特定のテーマや目的に応じたプロンプトセットを管理できます（例: ポートレート用、風景用など）。
プロンプト：生成したい画像の特徴や内容を入力します。
ネガティブプロンプト：生成結果に反映させたくない要素や、低品質な特徴を入力します。

⑫生成結果エリア

生成結果が表示されます。

下図のような感じです。

生成結果の右上にある小さなアイコンは、画像のダウンロードと削除（クリア）となっています。

ちなみに、削除（クリア）を押しても、画像は消えず、単に表示が小さくなるだけの挙動となっています。表示領域を整理するための簡易的な操作として機能している可能性あり。

⑬生成結果エリア下のアイコン5つ

アイコンが5つ並んでますが、それぞれの役割を解説します。

フロッピーアイコン：生成した画像をクラウドストレージに保存します（Conoha AI Canvasのファイルマネージャーに格納します）
PCアイコン：生成した画像をクラウドストレージに保存し、さらに画像をZip形式に圧縮して、PCでダウンロードできるよう、ダウンロードリンクを生成します。
- 例えば、4枚の画像を1度に生成して、まとめてダウンロードしたい時に使えます。
ギャラリーアイコン：画像と生成パラメータをimg2imgタブに送信します。
カラーパレットアイコン：画像と生成パラメータをimg2imgタブの「inpaint」に送信します。
三角定規アイコン：画像と生成パラメータをimg2imgタブの「その他（Extras）」に送信します。