Stable Diffusion, un célèbre générateur d’images de synthèse, a besoin d’invites textuelles pour créer une image. Parfois, il fait un travail remarquable et génère exactement ce que vous voulez avec une invite vague. D’autres fois, vous obtenez des résultats sous-optimaux. Voici quelques conseils et astuces pour obtenir des résultats idéaux.
Comment rédiger une invite de diffusion stable ?
Si vous avez passé un peu de temps avec des générateurs d’images AI, comme Stable Diffusion, DALL-E ou MidJourney, vous aurez remarqué qu’une invite bien formulée est essentielle. Une invite bien formulée fait la différence entre transformer votre idée en une image géniale et obtenir une monstruosité de la vallée de l’étrange avec beaucoup trop de doigts qui vous regardent.
Depuis le lancement de Diffusion Stable en août 2022, les gens essaient de trouver les meilleurs moyens d’obtenir des résultats idéaux, et ils continueront de « forger des invites » ou de « concevoir des invites » dans les années à venir. Cela est d’autant plus probable que les points de contrôle qui informent sur la façon dont la Diffusion Stable génère les images recevront des mises à jour périodiques. L’invite idéale sera une cible mouvante dans un avenir prévisible.
Comment exécuter la diffusion stable localement avec une interface graphique sur Windows
Soyez aussi précis que possible
Diffusion Stable a tendance à se développer sur des invites spécifiques, en particulier par rapport à quelque chose comme MidJourney. Vous devez lui dire exactement ce que vous voulez. Voici un exemple utilisant les animaux préférés des internautes : Les chats mignons.
Un panel de 6 personnes a sorti des images de Stable Diffusion en utilisant l’invite « Chat mignon ».
Invite : « Chat mignon », Échantillonneur = PLMS, CFG = 7, Pas d’échantillonnage = 50
D’accord, ils sont plutôt mignons, sauf peut-être le pauvre type en haut au milieu qui a l’air d’avoir passé trop de temps à regarder l’abîme. Mais que faire si vous voulez des chats gris, et non un mélange de chats ? Eh bien, vous devez le préciser. Utilisez plutôt « Mignons chats gris » comme invite.
Un panel de 6 images de sortie de Diffusion Stable utilisant l’invite « Chat gris mignon ».
Invite : « Chat gris mignon », Échantillonneur = PLMS, CFG = 7, Pas d’échantillonnage = 50
Maintenant, la Diffusion Stable renvoie tous les chats gris. Vous pouvez continuer à ajouter des descriptions de ce que vous voulez, y compris l’accessoirisation des chats dans les images.
Un autre panel de 6 images de sortie de Diffusion Stable utilisant l’invite « Chat gris mignon aux yeux bleus, portant un nœud papillon ».
Invite : « Chat gris mignon aux yeux bleus, portant un nœud papillon », Échantillonneur = PLMS, CFG = 7, Pas d’échantillonnage = 50
Ceci s’applique à tout ce que vous voulez que la Diffusion Stable produise, y compris les paysages. Soyez descriptif, et lorsque vous essayez différentes combinaisons de mots-clés, notez mentalement comment l’image change. Certains mots et certaines phrases ont tendance à influencer plus fortement une image que d’autres mots, et vous devrez peut-être ajuster votre message en conséquence.
Nommez des styles d’art ou des médiums spécifiques
Le besoin de spécificité ne s’arrête pas à la description complète du contenu de l’image que vous souhaitez. Vous pouvez (et devez) également préciser le style que vous souhaitez. Pour cela, nous nous en tiendrons à notre proposition « Chat gris mignon ». Disons que nous voulons de jolis chats gris, mais que nous voulons aussi qu’ils aient l’air d’être une peinture acrylique. La première chose à faire est d’ajouter « peinture acrylique » comme mot-clé suivant dans votre demande, de sorte qu’elle se lise comme suit : « Chat gris mignon, peinture acrylique. »
Il est généralement préférable de commencer avec le moins de mots-clés possible pour se rapprocher de ce que vous voulez, puis d’en ajouter d’autres pour se concentrer sur l’esthétique recherchée.
6 chats gris de Stable Diffusion qui ressemblent à des peintures acryliques.
Prompt : « Chat gris mignon, peinture acrylique », Échantillonneur = PLMS, CFG = 7, Pas d’échantillonnage = 50
La diffusion stable reconnaît des dizaines de styles différents, allant des dessins au crayon aux modèles en argile en passant par le rendu 3d d’Unreal Engine.
Un autre exemple de chats gris dans le style « Unreal Engine ».
Prompt : « Chat gris mignon, rendu Unreal Engine », Échantillonneur = PLMS, CFG = 7, Pas d’échantillonnage = 50
Ces exemples d’invites sont extrêmement simples, mais vous pouvez utiliser des dizaines de mots-clés pour affiner vos résultats. Si vous voulez des modèles de poulets en argile bizarres et aux couleurs psychédéliques dans un Walmart, vous devez spécifier tous ces termes.
Nommez des artistes spécifiques pour guider la diffusion stable
La diffusion stable est capable de faire plus que d’imiter des styles ou des médiums spécifiques ; elle peut même imiter des artistes spécifiques si vous voulez le faire. Cet exemple utilise Pablo Picasso.
Si vous ne l’avez pas encore fait, vous devriez vraiment essayer d’ajouter « par (nom de l’artiste) » à vos messages. Cela a tendance à produire des résultats spectaculaires. N’ayez pas non plus peur de combiner des artistes qui ne vont normalement pas ensemble. Souvent, Stable Diffusion combinera leurs styles respectifs de manière excitante et imprévisible.
Pesez vos mots-clés
Bien sûr, vous ne pouvez pas vous contenter d’insérer des mots-clés dans votre message. Que se passe-t-il si vous avez tous les bons éléments dans votre invite, mais qu’ils ne sont pas correctement proportionnés ?
Stable Diffusion prend en charge la pondération des mots-clés d’invite. En d’autres termes, vous pouvez lui indiquer qu’il doit vraiment prêter attention à un ou plusieurs mots-clés spécifiques et moins aux autres. C’est pratique si vous obtenez des résultats qui correspondent à peu près à ce que vous recherchez, mais pas tout à fait.
Dans la version en ligne de commande de Stable Diffusion, il suffit d’ajouter un deux-points suivi d’un nombre décimal au mot que vous voulez accentuer. Les nombres décimaux sont des pourcentages, leur somme doit donc être égale à 1.
Revenons à notre invite « Chat gris mignon ». Imaginons qu’elle produise correctement des chats mignons, mais que peu d’images de sortie présentent des chats gris. Vous pourriez modifier l’invite comme suit : « mignon, chat gris:0.7 » à la place, et il accorderait la plus grande attention au chat gris, puis appliquerait automatiquement la différence à « mignon ». Vous pouvez également attribuer des pondérations à chaque mot de l’invite manuellement si vous souhaitez un contrôle plus fin, comme « Mignon:0.10, Chat gris:0.60, rendu Unreal Engine:0.30 » par exemple.
La plupart des interfaces graphiques disponibles pour Stable Diffusion gèrent la pondération sans vous demander d’entrer des pourcentages explicites. Vous pouvez généralement ajouter des parenthèses autour d’un terme dans votre invite pour le mettre en valeur, et des crochets pour diminuer l’importance d’un terme. Ainsi, le précédent « mignon, chat gris » pourrait ressembler à « [mignon],((chat gris)) ».
Trouvez l’inspiration ailleurs
La diffusion stable et d’autres générateurs d’art IA ont connu un pic de popularité explosif. Vous pouvez trouver ce type d’art IA un peu partout. Cela signifie qu’il y a maintenant au moins quelques millions d’images générées par les utilisateurs qui flottent sur l’internet, et la plupart du temps, les gens incluent l’invite qu’ils ont utilisée pour obtenir leurs résultats.
Voici quelques ressources pour vous aider à trouver l’inspiration si vous n’êtes pas sûr de ce que vous voulez créer :
Avertissement : Tous ces sites sont potentiellement NSFW.
Lexica – un référentiel d’images générées à l’aide de la diffusion stable et de l’invite correspondante. Recherche par mot-clé.
Études sur le style des artistes de Diffusion Stable – Une liste non exhaustive d’artistes que Diffusion Stable pourrait reconnaître, ainsi que des descriptions générales de leur style artistique. Il existe un système de classement pour décrire la façon dont la diffusion stable répond au nom de l’artiste dans le cadre d’une invite.
Études des modificateurs de la Diffusion Stable – une liste de modificateurs qui peuvent être utilisés avec la Diffusion Stable, tout comme la page de l’artiste.
La liste des modificateurs d’art AI – Une galerie de photos présentant certains des modificateurs les plus puissants que vous pouvez utiliser dans vos invites, et ce qu’ils font. Ils sont triés par type de modificateur.
Les 500 premiers artistes représentés dans la diffusion stable – Nous savons exactement quelles images ont été incluses dans l’ensemble d’entraînement de la diffusion stable, il est donc possible de dire quels artistes ont le plus contribué à l’entraînement de l’IA. En règle générale, plus un artiste est représenté dans les données d’entraînement, plus Stable Diffusion répondra à son nom en tant que mot-clé.
Le subreddit de Stable Diffusion – Le subreddit de Stable Diffusion a un flux constant de nouvelles invites et de découvertes amusantes. Si vous cherchez de l’inspiration ou des idées, vous ne pouvez pas vous tromper.
Modifiez d’autres paramètres importants
Une bonne invite est la partie la plus difficile de l’utilisation de Stable Diffusion, mais il y a quelques autres paramètres qui changeront radicalement les résultats.
CFG : Détermine dans quelle mesure la Diffusion Stable suit votre invite. Plus les chiffres sont élevés, plus l’invite est respectée, tandis que des chiffres plus bas donnent plus de liberté à l’IA. Essayez d’abord de régler ce paramètre.
Méthode d’échantillonnage : Comment l’image est raffinée à partir du bruit en formes reconnaissables. Essayez-en quelques-unes. Euler_a, k_LMS, et PLMS semblent être des choix populaires.
Étapes d’échantillonnage : Le nombre de fois qu’une image sera échantillonnée avant d’obtenir un résultat final. Parfois, vous obtenez de bons résultats avec 30 pas, parfois vous devez aller jusqu’à 50 ou 80. En général, vous n’obtenez pas de meilleurs résultats au-delà de 150 pas. Commencez par moins d’étapes et augmentez-les.
Quelques-uns de nos prompts stylisés préférés
Voici quelques-unes de nos propositions préférées, car elles ont tendance à fonctionner de manière très fiable. Il suffit d’introduire un sujet de votre choix et quelques modificateurs. Tous les autres paramètres de diffusion stable sont restés les mêmes que pour les exemples ci-dessus.
(Sujet), 35mm, net
Choisissez un sujet, et cette invite renvoie de manière fiable des résultats photoréalistes de personnes, d’animaux et de paysages.
Le Mont Katahdin vu de l’autre côté d’un lac, selon Stable Diffusion.
Prompt : photographie du Mont Katahdin avec un beau lac, 35mm, nette, heure dorée.
(Sujet), rendu 3d low poly, couleurs pastel vibrantes, tilt shift, grain de film.
Entrez un sujet et vous l’obtiendrez dans l’esthétique « Art of Rally ».
Une voiture très colorée.
(Sujet), (Description de l’environnement), cinématique, dramatique, composition, ciel ensoleillé, brutaliste, hyperréaliste, échelle épique, sentiment d’émerveillement, hypermaximaliste, niveau de détails insensé, artstation HQ.
Il suffit d’introduire un sujet et une description de l’environnement pour que cette invite fournisse de superbes images d’art conceptuel de la ville avec un effet environnemental de votre choix. Voici un exemple utilisant la ville de New York comme sujet et une tempête de poussière comme description environnementale :
Une journée de temps moyennement mauvais à New York City.
prompt : new york city, dust storm, cinematic, dramatic, composition, sunny sky, brutalist, hyper realistic, epic scale, sense of awe, hypermaximalist, insane level of details, artstation HQ
Kermit n’importe quoi
La diffusion stable donne d’excellents résultats avec Kermit. Essayez-le partout.
Kermit avec une muppet maléfique derrière lui.
Pourquoi est-ce ainsi que la Diffusion Stable interprète « Kermit au Mordor », et qui est la chose rouge maléfique de Kermit qui se tient derrière notre vaillant héros ? Aucune idée.
Rappelez-vous, n’ayez pas peur de supprimer ce que vous pensez être un terme clé de votre texte. Certains mots, comme « magnifique », influenceront fortement l’aspect d’une image, même s’ils n’ont pas de signification précise. Au fur et à mesure que vous passerez du temps avec Stable Diffusion, vous découvrirez comment il réagit à certains mots, et vous constaterez rapidement que la rédaction d’une bonne invite est un art en soi.