「Stable Diffusionを始めてみたけれど、なかなか思った通りの画像が出ない」「ネットで見かけるようなハイクオリティなイラストを作りたいけれど、呪文が難しすぎて挫折しそう」そんな風に悩んでいませんか。画像生成AIは魔法の道具のようですが、その魔法を使いこなすには「プロンプト」という言葉のパズルを解く必要があります。
この記事では、初心者の方でも迷わず使いこなせるよう、Stable Diffusionのプロンプトの書き方を基礎から徹底解説します。アニメ調から実写リアル系まで、コピペでそのまま使えるおすすめの呪文集や、失敗作を防ぐネガティブプロンプトの設定まで網羅しました。これを読めば、AIへの指示出しが劇的に上手くなり、あなたの頭の中にあるイメージを自由自在に形にできるようになりますよ。
Stable Diffusionで思い通りの画像を出すためのプロンプトの書き方と基本ルール
画像生成AIにおいて、プロンプト(呪文)はAIに対する唯一の命令書です。しかし、ただ単語を並べればいいというわけではありません。AIが理解しやすい「文法」や「ルール」が存在します。まずは、思い通りの画像を生成するための基礎となる書き方の構造と、絶対に押さえておきたい基本ルールについて見ていきましょう。ここを理解するだけで、生成される画像のクオリティはぐっと上がります。
AIに伝わる呪文の構造と優先順位の付け方
プロンプトを書くとき、多くの人が陥りがちなのが「思いついた順に単語を並べてしまう」ことです。しかし、Stable DiffusionのAIは、プロンプトの先頭(左側)にある言葉ほど重要視し、後ろに行くほどその影響力が弱まるという性質を持っています。
つまり、絶対に描いてほしい要素は、必ず最初に持ってくる必要があります。基本的な構成としては、以下のような順番で記述するのが黄金パターンと言われています。
- 品質タグ(高画質、傑作など)
- 主題(女の子、猫、車などのメイン被写体)
- 詳細な特徴(髪型、服装、表情など)
- 背景(学校、森、宇宙など)
- 構図や画風(全身、アニメ塗り、実写風など)
- ライティングや追加要素(逆光、映画風など)
例えば、「公園にいる青い髪の女の子」を描きたい場合、単に「park, girl, blue hair」と書くよりも、「(best quality, masterpiece), 1girl, solo, blue hair, long hair, standing, park」のように、品質を保証する言葉を先頭に置き、その後にメインの女の子、そして特徴、場所と続けていくのがセオリーです。
このように情報を整理して伝えることで、AIは「まず最高品質で描くんだな」「メインは女の子だな」と理解し、迷いなく描画を進めることができます。まるで画家に注文をつけるときのように、大事なことから順に伝えてあげてくださいね。
日本語のプロンプトではダメ?英語入力が推奨される理由
「日本語で指示できたら楽なのに」と思うことはありませんか。実際に一部のツールやモデルでは日本語入力に対応しているものもありますが、Stable Diffusionの本家や多くの派生モデルでは、英語でのプロンプト入力が基本であり、推奨されています。
これには明確な理由があります。Stable Diffusionが学習に使っているデータセット(LAION-5Bなど)の大部分が、英語のタグ付けがされた画像だからです。つまり、AIにとっての母国語は英語なんですね。
日本語で「かわいい」と入力しても、AIがそれを翻訳する過程でニュアンスが変わってしまったり、そもそも理解されなかったりすることがあります。一方で「cute」や「kawaii」と英語(またはローマ字のミーム)で入力すれば、AIは学習データの中からダイレクトにその概念を引き出すことができます。
英語が苦手という方も安心してください。完璧な英文法で書く必要はありません。 「girl is eating an apple(女の子がリンゴを食べている)」という文章形式よりも、「1girl, eating apple」のように、単語をカンマ(,)で区切って並べる箇条書きスタイルの方が、AIにとってはむしろ分かりやすく、効果的に機能します。Google翻訳やDeepLを使いながら、単語レベルで変換して並べていけば十分ですよ。
カッコや数値を使って特定の要素を強調するテクニック
プロンプトを書いていると、「この要素をもっと強く出したい」「逆にこの要素は控えめにしたい」という場面が出てきます。そんな時に使えるのが、カッコ () や数値による強調テクニックです。これを使いこなせると、画像の微調整が自由自在になります。
Stable Diffusion(特にWebUIなど)では、一般的に以下のルールが使われます。
・丸カッコ (word) 単語を丸カッコで囲むと、その単語の影響力が1.1倍になります。重ねて ((word)) とすれば1.21倍と、効果が増幅します。 ・数値指定 (word:1.5) より細かく指定したい場合は、コロンと数値を組み合わせます。例えば (blue hair:1.5) と書けば、青髪の要素を通常の1.5倍の強さで指示できます。逆に (blue hair:0.8) とすれば、要素を弱めることも可能です。
例えば、「猫耳をつけた女の子」を作りたいけれど、猫耳が小さすぎて見えない場合、cat ears を (cat ears:1.3) に変更してみましょう。すると、AIは「猫耳は絶対に描かなきゃ!」と優先度を上げてくれます。
ただし、数値を上げすぎると(例えば2.0以上など)、画像が崩壊したり、色が変になったりする原因になります。基本的には1.1〜1.5くらいの範囲で調整するのが、きれいに仕上げるコツです。
コピペで即解決!Stable Diffusionのおすすめプロンプト例【アニメ・イラスト編】
ここからは実践編です。まずは、Stable Diffusionユーザーの中でも特に人気が高い「アニメ調・イラスト調」の画像を生成するためのおすすめプロンプトを紹介します。これらをベースに、髪色や服装を変えるだけで、あなただけのオリジナルキャラクターが簡単に作れますよ。
高品質なキャラクターを描くための「クオリティ系」単語セット
どんなイラストを描く場合でも、まず最初に入れておくべき「おまじない」のようなプロンプトがあります。これを入れるだけで、書き込み量が増え、線画がはっきりし、プロのイラストレーターが描いたような仕上がりに近づきます。これらは基本的にプロンプトの先頭に入れてください。
【クオリティアップ用プロンプト(コピペ推奨)】 masterpiece, best quality, high quality, ultra detailed, highres, 8k, absurdres
それぞれの単語の意味を解説します。
・masterpiece(傑作) AIに対して「最高傑作を描いて」と指示する最もポピュラーな単語です。 ・best quality(最高品質) 全体的なクオリティを底上げします。 ・ultra detailed(超詳細) 髪の毛一本一本や服のシワなど、細部の書き込みを増やします。 ・absurdres(不条理なほどの解像度) 直訳すると変な意味ですが、AI界隈では「超高解像度」を指定する強力なタグとして使われています。
これらをまとめて (masterpiece, best quality:1.2), ultra detailed のように記述しておくと、ぼやけた絵になるのを防げます。とりあえずこのセットを入れておけば、土台となる画力は保証されたも同然です。
アニメ塗りの画風を指定する具体的なキーワード
一口にアニメ絵と言っても、セル画のようなパキッとした塗りから、水彩風の淡いタッチ、厚塗りのような重厚なイラストまで様々ですよね。画風を指定するプロンプトを使い分けることで、画像の雰囲気をコントロールできます。
【定番のアニメ塗り・セルルック】 anime, anime coloring, cel shading, flat color くっきりとした影と明るい色が特徴の、一般的なアニメスタイルです。「cel shading(セルシェーディング)」を入れるのがポイントです。
【ゲームCG・厚塗り風】 impasto, oil painting, thick painting, game cg, 3d render 筆のタッチを残したような重厚感や、ソーシャルゲームの美麗カードイラストのような質感を出したい時に使います。
【繊細で透明感のあるタッチ】 water color, watercolor media, soft light, pastel color 水彩画のような滲みや、パステルカラーを使った柔らかい雰囲気にしたい場合におすすめです。
さらに、Studio Ghibli style(ジブリ風)や Makoto Shinkai style(新海誠風)のように、有名なスタジオや監督の名前を入れることで、その画風に寄せることも可能です(ただし、モデルによっては効きにくい場合もあります)。自分の作りたい世界観に合わせて、これらの単語を組み合わせてみてください。
かわいい表情やポーズを指定する定番プロンプト
キャラクターの魅力を引き出すのは、なんといっても表情とポーズです。棒立ちの無表情ではもったいないですよね。ここでは、アニメキャラによく合う、かわいさを演出するプロンプトをいくつかピックアップします。
【表情(Face)】 ・blush(赤面):頬を赤らめる、鉄板のかわいい要素です。 ・smile / grin(笑顔 / にっこり):基本の笑顔です。 ・winking(ウインク):片目をつぶってアピール。 ・open mouth(口を開ける):楽しそうな雰囲気が出ます。 ・looking at viewer(こちらを見ている):視線をカメラに向けさせます。これを入れないと、明後日の方向を見がちです。
【ポーズ(Pose)】 ・peace sign(ピースサイン):Vサインを作ります。ただし指が崩れやすいので、ネガティブプロンプトとセットで使うのがコツです。 ・hands on hips(腰に手を当てる):自信ありげなポーズ。 ・crossed arms(腕組み):ちょっと怒った顔と合わせるとツンデレ風に。 ・cat pose(猫のポーズ):手を招き猫のようにします。 ・sitting(座る) / kneeling(ひざまずく):全身を見せたい時におすすめです。
例えば、(blush:1.2), smile, looking at viewer, peace sign と組み合わせれば、こちらを見て赤面しながらピースしてくれる、王道の可愛い画像が出来上がります。
写真のような実写を作る!Stable Diffusionのおすすめプロンプト例【リアル・実写編】
Stable Diffusionのもう一つの醍醐味は、まるで写真と見分けがつかないようなリアルな美女や風景を生成できることです。「AIグラビア」と呼ばれるジャンルもこれにあたります。リアル系を目指す場合は、アニメ系とは使うプロンプトがガラリと変わります。ここでは、実写系生成の肝となるキーワードを紹介します。
肌の質感や光の当たり方をリアルにする呪文
イラストと実写の最大の違いは、肌の質感(テクスチャ)と光の表現です。ここを言葉で補ってあげることで、AI特有の「のっぺり感」や「ビニール人形っぽさ」を消すことができます。
【肌の質感を高めるプロンプト】 realistic skin, skin texture, detailed skin, pore 「pore(毛穴)」という単語を入れるのが意外なコツです。毛穴まで描写させることで、作り物ではない人間の肌のリアリティが生まれます。
【光と影を操るプロンプト】 cinematic lighting, natural light, volumetric lighting, ray tracing ・cinematic lighting:映画のようなドラマチックな照明効果を与えます。 ・natural light:窓から入る光のような、自然で柔らかい明るさになります。 ・ray tracing:最新の3Dゲーム技術のように、光の反射を正確に計算したような描写になります。
これらを組み合わせることで、肌に落ちる影や、瞳の中の光(キャッチライト)がリアルになり、画像に命が吹き込まれます。
日本人女性やモデル風の人物を生成するコツ
海外製のモデルを使っていると、どうしても顔立ちが欧米風になりがちです。日本人らしい顔立ちや、アイドルのような整った容姿を作りたい場合には、国籍や年齢、特徴を具体的に指定する必要があります。
【日本人っぽさを出す単語】 japanese, asian, japanese idol, k-pop idol シンプルに japanese girl と入れるだけでなく、japanese idol や k-pop idol と入れると、メイクや髪型が洗練され、現代風の美少女になりやすい傾向があります。
【顔立ちを整える単語】 beautiful face, detailed face, cute face, symmetrical face, makeup symmetrical face(左右対称の顔)を入れると、顔の歪みが減り、整った顔立ちになります。また、年齢を指定する 20 years old なども有効です。
【服装のリアリティ】 casual clothes, fashion model, off shoulder, sweater 服装も fashion model などの単語を入れると、カタログ写真のようなおしゃれなコーディネートになりやすいです。
例えば、1girl, japanese, 20 years old, japanese idol, cute face, realistic skin, cinematic lighting というプロンプトなら、かなり精度の高い実写風の日本人女性が生成されるはずです。
まるで一眼レフで撮ったような背景ボケを作るカメラ用語
実写系画像のクオリティを一気に引き上げるのが、「カメラ用語」の活用です。プロのカメラマンが使う機材や設定をプロンプトとして入力すると、AIはその画作りを模倣してくれます。特に「背景ボケ」は、被写体を際立たせるために非常に重要です。
【背景をぼかす(被写界深度)】 depth of field, bokeh, blurry background depth of field(被写界深度)を入れると、ピントが合っている場所以外がボケて、一眼レフで撮影したような空気感が出ます。bokeh はその名の通り、ボケ味を強調します。
【高画質写真であることを伝える】 photo, photograph, raw photo, dslr, 8k uhd, fujifilm, canon ・raw photo:未加工の生データのような、情報の詰まった写真画質を指定します。 ・dslr:デジタル一眼レフカメラのことです。 ・fujifilm / canon:カメラメーカー名を入れることで、そのメーカー特有の色味(富士フイルムなら記憶色、キヤノンなら肌色が綺麗など)が出ることもあります。
また、構図を指定する際に shot on 35mm lens(35mmレンズで撮影)や wide angle(広角)などのレンズ指定を入れると、より意図した通りのパース(遠近感)がついた画像になります。
失敗作を防ぐために必須のネガティブプロンプト設定と使い方
ここまで「描いてほしいもの」を指定するポジティブプロンプトについて解説してきましたが、実はそれ以上に重要なのが「描いてほしくないもの」を指定する「ネガティブプロンプト」です。これを設定しないと、どれだけ良い呪文を唱えても、低画質だったり体が崩れたりする画像ばかりが出てきてしまいます。ここでは、どんな画像生成時にも必ず入れておくべき「守りの呪文」を紹介します。
指の崩れや多すぎる手足を防ぐ「EasyNegative」等の活用
AI画像生成の最大の弱点、それは「指」と「手足」です。指が6本あったり、腕が3本生えていたり、関節が変な方向に曲がっていたり…。これらを完全に防ぐのは難しいですが、強力なネガティブプロンプトである程度抑制することは可能です。
【身体構造の崩れを防ぐ基本セット】 bad anatomy, bad hands, missing fingers, extra digit, fewer digits, extra arms, extra legs, mutated hands, poorly drawn hands, malformed limbs これらは「解剖学的な間違い」「悪い手」「指の欠損」「余分な指」などを意味します。これらを羅列することで、AIに「人間の体はこうじゃないよ」と教えるわけです。
さらに、Stable Diffusionには「Embeddings(エンベディング)」という便利な機能があります。有志が作成した「EasyNegative」や「DeepNegative」といったファイルをダウンロードして導入し、プロンプトに EasyNegative と一言書くだけで、上記の長々としたネガティブプロンプトを全部書いたのと同じ(あるいはそれ以上の)効果を得られます。初心者はまずこの EasyNegative の導入を目指すのが、失敗を減らす一番の近道です。
低画質やぼやけた画像を除外する基本のネガティブセット
せっかく良い構図なのに、全体的にボヤッとしていたり、ノイズが乗っていたりするとがっかりしますよね。これらを防ぐためのプロンプトも、定型文として登録しておきましょう。
【画質劣化を防ぐセット】 low quality, worst quality, out of focus, blurry, jpeg artifacts, lowres, error ・low quality / worst quality:低品質、最悪の品質を除外します。これを (worst quality:1.4), (low quality:1.4) のように強調して入れるのが一般的です。 ・jpeg artifacts:JPEG圧縮ノイズのような汚れを防ぎます。 ・blurry / out of focus:ピンボケを防ぎ、シャープな画像にします。
これらを常に入れておくことで、AIは「低品質な画像を作ってはいけない」と認識し、結果として高品質な画像だけが出力されるようになります。
不要な文字や署名を消すための除外ワード
AIは学習データに含まれている「文字」や「サイン(署名)」も、画像の一部として覚えてしまっています。そのため、意図せず背景に謎の文字が入ったり、画像の隅にアーティストのサインのようなものが描かれたりすることがあります。
【文字・ロゴ排除セット】 text, signature, watermark, username, artist name, title ・text:文字全般。 ・signature / watermark:署名や透かし(ウォーターマーク)。 ・username:SNSのユーザー名のような文字列。
特に商用利用や資料作成で画像を使いたい場合、著作権的に問題になりそうなロゴや透かしが入るのは避けたいですよね。このセットを入れておけば、クリーンで使いやすい素材が生成されます。
構図やアングルを指定してプロっぽい仕上がりにする方法
キャラクターや画質が良くなっても、いつも「顔のアップ」や「直立不動」ばかりでは飽きてしまいます。プロのイラストレーターや写真家のような、魅力的な構図を作るためのプロンプトを使いこなしましょう。カメラの距離、角度、そして光を操ることで、表現の幅は無限に広がります。
全身、バストアップ、顔のアップを使い分ける距離の指定
被写体をどの距離から撮るかを指定することで、画像の印象をコントロールします。AIは指定がないと顔のアップを描きたがる傾向があるので、全身を出したい時は強く指定する必要があります。
・full body(全身):頭のてっぺんからつま先までをフレームに入れます。靴や衣装全体を見せたい時に必須です。ただし、顔が小さくなる分、顔の描写が崩れやすくなるので、高解像度化(Hires. fix)と併用するのがコツです。 ・upper body(上半身):腰から上のショット。表情と服装の両方がバランスよく見えます。 ・cowboy shot(カウボーイショット):膝から上のショット。アメリカの西部劇で拳銃が見える範囲だったことに由来します。立ち絵として非常に使いやすい構図です。 ・portrait / close-up(ポートレート / 接写):顔のアップ。表情を強調したい時に使います。extreme close-up にすると、目元だけなどの超アップになります。
これらを使い分けるだけで、「いつも顔ばかり」というマンネリから脱却できます。
視点を変えてダイナミックに見せるカメラアングルの単語
普通の目線の高さ(アイレベル)だけでなく、上から見下ろしたり、下から見上げたりすることで、物語性を感じさせる画像になります。
・from above / high angle(俯瞰・ハイアングル):上から見下ろす構図。キャラクターの上目遣いを誘発しやすく、可愛らしさや儚さを演出できます。 ・from below / low angle(煽り・ローアングル):下から見上げる構図。キャラクターを大きく、力強く見せたり、脚の長さを強調したりするのに適しています。 ・from side / profile(横顔):横からのアングル。ミステリアスな雰囲気を出したい時に。 ・from behind(背後):後ろ姿。背中で語るようなシチュエーションや、振り返り美人(looking back)と組み合わせると効果的です。
特に dutch angle(ダッチアングル)というプロンプトはおすすめで、カメラをあえて斜めに傾けることで、躍動感や不安定さを表現し、アクションシーンのような迫力を出すことができます。
ライティング効果で雰囲気をガラリと変える照明プロンプト
最後に、画像の「雰囲気(ムード)」を決定づけるのがライティングです。同じキャラクターでも、光の当て方一つで、爽やかにもホラーにもなります。
・backlighting(逆光):背後から光が当たり、キャラクターの輪郭が輝きます。エモーショナルでドラマチックな絵になります。 ・rim lighting(リムライト):被写体の縁を光らせる手法。背景が暗い場合に被写体を際立たせます。 ・soft lighting(ソフトライティング):柔らかい光。優しい、ふんわりとした雰囲気のイラストやポートレートに最適です。 ・hard lighting(ハードライティング):強い光と影。コントラストが強くなり、クールでカッコいい印象になります。 ・god rays / crepuscular rays(木漏れ日・薄明光線):雲の隙間や木々の間から差し込む光の筋。神々しい風景や幻想的なシーンを作るならこれです。
おすすめのプロンプト管理方法と効率化ツール
ここまでたくさんのプロンプトを紹介してきましたが、「こんなに覚えられないよ!」と思った方も多いかもしれません。安心してください。プロのAI術師たちも、すべてを暗記しているわけではありません。便利なツールや管理方法を使って、効率よく制作しているのです。
Civitaiなどで他人のプロンプトを参考にする方法
世界最大級のAIモデル・画像投稿サイト「Civitai(チビタイ)」は、まさに宝の山です。ここには世界中のユーザーが作ったハイクオリティな画像が投稿されており、その多くには「生成に使ったプロンプト」がそのまま公開されています。
画像の右下にある「i」マークや詳細情報をクリックすると、Positive Prompt、Negative Prompt、使ったモデル、設定値などが全て見られます。気に入った画像があれば、そのプロンプトをコピーして、自分のStable Diffusionに貼り付けて生成ボタンを押すだけ。まずは「真似る」ことから始めるのが、上達への一番の近道です。
ただし、モデル(Checkpoint)が違うと全く同じ画像にはならないので、そこだけは注意してくださいね。
よく使う呪文を辞書登録して時短するテクニック
毎回「masterpiece, best quality…」と入力するのは面倒ですし、スペルミスの原因にもなります。そこで、よく使うプロンプトのセットをPCの辞書登録や、Stable Diffusionの機能である「Styles(スタイル)」に保存してしまいましょう。
WebUIを使っている場合、「Save style」ボタンを押して、今のプロンプトに名前をつけて保存できます。次からはそのスタイルを選ぶだけで、長大な呪文が一瞬で呼び出せます。 また、シンプルな方法として、Google KeepやNotionなどのメモアプリに、「基本セット」「金髪美少女セット」「サイバーパンクセット」のようにカテゴリ分けして保存しておき、必要な時にコピペするのも手軽でおすすめです。
まとめ
Stable Diffusionのプロンプト作成は、最初は難しく感じるかもしれませんが、基本の型さえ覚えてしまえば、決して怖いものではありません。
- 基本ルールを守る:重要な単語は先頭に、英語で記述し、カッコで強調を調整する。
- コピペから始める:今回紹介した「クオリティ系」や「ネガティブプロンプト」のテンプレをまずはそのまま使ってみる。
- 少しずつ変える:慣れてきたら、髪色を変えたり、構図を指定したりして、自分好みにアレンジしていく。
この3ステップを繰り返すうちに、あなたはいつの間にか「プロンプトエンジニア」としてのスキルを身につけているはずです。ぜひ、この記事のプロンプトを参考にして、あなたの頭の中にある想像の世界を、一枚の画像として出力してみてください。AIという相棒がいれば、描けなかったはずの景色が、すぐ目の前に現れますよ。




























