Comment améliorer une image avec l’IA grâce à la diffusion stable

By Flavien ROUX

Vous êtes déçu par la faible résolution de vos travaux de diffusion stable ? Ou peut-être souhaitez-vous mettre à l’échelle de « vraies » vieilles photos ? L’interface Web de Stable Diffusion est équipée d’outils qui vous aideront à y parvenir. Nous partagerons également quelques conseils et astuces que nous avons appris en cours de route.

Comment mettre à l’échelle vos images dans Stable Diffusion

Stable Diffusion WebUI peut être utilisé pour convertir de vieilles photos scannées, de vieilles photos numériques ou des images générées par l’IA en basse résolution. Il suffit de suivre les étapes ci-dessous.

1. Télécharger une image

Stable Diffusion dispose d’un certain nombre d’outils de mise à l’échelle qui sont disponibles dans l’onglet « Extras ». Cliquez dessus pour faire apparaître l’option de mise à l’échelle.

Vous pouvez également envoyer une image à Extras si elle est déjà générée. Si vous préférez, vous pouvez faire glisser votre image et la déposer dans le champ Extras.

Si vous souhaitez mettre à l’échelle plusieurs images, vous pouvez sélectionner « Traitement par lots », puis déposer les images une par une. Cette méthode ne semble pas toujours fonctionner.

Étape 2 : Choisissez votre taille

Utilisez le « curseur de redimensionnement » pour définir la taille de l’image de sortie souhaitée. Par défaut, l’onglet « Scale By » multiplie la résolution existante de l’image par un nombre spécifié. Si, par exemple, vous sélectionnez 2 et que la taille de l’image d’entrée est de 512×512, elle sera redimensionnée à 1024×1024.

En utilisant le curseur « Scale By Number », sélectionnez le multiple que vous souhaitez mettre à l’échelle.

A lire également :  Que sont les oreillettes intelligentes ?

Vous pouvez également sélectionner l’onglet « Mettre à l’échelle » et saisir la résolution de votre choix. Veillez à respecter le rapport hauteur/largeur de votre image. Vous pouvez décocher l’option « Recadrer pour adapter » si les bords ne doivent pas être supprimés.

Si vous envisagez de créer un fond d’écran, sachez que la plupart des téléphones utilisent aujourd’hui un format 9:16. Les tablettes ont un rapport de 4:3, tandis que les ordinateurs utilisent le rapport 16:9 (bien que certains moniteurs ultra-larges prennent en charge jusqu’à 21:9).

Étape 3 – Sélection d’un convertisseur

C’est ici que vous commencez à vous sentir un peu dépassé. Il existe plusieurs algorithmes différents pour l’upscaling, chacun portant un nom énigmatique, et vous devrez en choisir un.

Vous devez choisir l’algorithme à utiliser en fonction de l’aspect que vous souhaitez donner à l’image. Il peut s’agir d’une photo d’une peinture de style anime ou d’un autre type d’œuvre d’art de type dessin animé. Les algorithmes n’ont pas tous la même vitesse, et votre choix peut donc dépendre de l’urgence que vous ressentez.

Stable Diffusion WebUI – Liste déroulante affichant les upscalers disponibles.

Qualcomm fait fonctionner la diffusion stable sur un téléphone

Quel est le meilleur upcaler pour Stable Diffusion ?

Stable Diffusion propose un certain nombre d’upscalers intégrés. La seule façon de déterminer lequel vous convient le mieux est d’expérimenter avec chacun d’entre eux. Cependant, si vous souhaitez faire une recommandation, celle-ci est généralement la bonne :

Photos : ESRGAN_4x

Peintures : R-ESRGAN 4x+

Anime : R-ESRGAN 4x+ Anime6B

Étape 4 Mise à l’échelle

Une fois que vos paramètres sont en place, vous pouvez maintenant passer à l’échelle supérieure. Appuyez sur le gros bouton « Generate » pour commencer.

A lire également :  Wifi connecté mais pas internet Android

Stable Diffusion doit télécharger des modèles pour exécuter l’algorithme la première fois. Par conséquent, vous pouvez vous attendre à ce que l’exécution initiale prenne un peu plus de temps (cela dépend en partie de votre connexion).

Les images de sortie se trouvent dans le sous-répertoire extrasimages de votre dossier outputs.

Conseils pour améliorer les résultats de l’upscaling

Stable Diffusion propose des fonctions d’upscaling que vous pouvez utiliser pour obtenir de meilleurs résultats.

Combo de mise à l’échelle

Vous pouvez également sélectionner un second upscaler qui appliquera ses effets aux mêmes images. La sortie des deux upscalers est alors mélangée. La résolution de sortie ne sera pas doublée par un second upscaler. Ceci est pratique si vous découvrez que deux upscalers ont des effets différents.

Lors de mes tests, ESRGAN_4x a préservé au mieux les détails, mais SwinIR a également introduit des artefacts de tuiles. J’ai trouvé que la meilleure solution était d’utiliser ESRGAN_4x avec 0.5 Visibility comme upscaler primaire. SwinIR serait l’upscaler secondaire.

Corriger les mauvais rapports d’aspect avec l’outpainting

L’outil « outpainting » de Stable Diffusion peut aider à résoudre ce problème. Vous avez une image upscalée que vous voulez utiliser, mais elle est trop grande pour être recadrée sans beaucoup de travail. Cet outil vous permet de créer « plus », en ajoutant de nouvelles images sur les côtés ou en haut et en bas de l’image.

Choisissez Poor Man’s ou Outpainting dans la liste déroulante Script. Si vous devez ajuster les paramètres, cliquez sur « Générer ».

Comme vous l’apprendrez bientôt, le surpeint des images est difficile et il est préférable de le laisser pour un autre guide. Ceci s’applique particulièrement aux images complexes telles que les personnes et les animaux. En fin de compte, en faisant un peu n’importe quoi et en n’apportant aucune modification majeure à mon image, j’ai réussi à obtenir ce panorama qui semble, au moins à première vue, à moitié crédible.

A lire également :  Neo Qled vs Oled : Quelle différence entre OLED et Neo QLED ?

CodeFormer ou GPFGAN restaurent les visages déformés

Lorsque vous agrandissez une image, le visage de cette personne peut être tellement déformé qu’il est impossible de le reconnaître. La diffusion stable crée des rendus de visages assez horribles. Dans les deux cas, vous devrez déplacer les curseurs CodeFormer et GPFGAN. Chaque méthode de mise à l’échelle applique une couche de correction faciale.

CodeFormer vous permet également de contrôler le « poids » ou l’intensité de ses effets. Ceci est similaire à la manière dont vous ajusteriez la transparence (alors que le curseur de visibilité agit comme un nivellement par le haut de la couche de correction). CodeFormer tente de corriger davantage à mesure que le poids augmente. Cela peut améliorer l’image finale ou la dégrader en fonction de votre situation. Il se peut que vous ayez à faire quelques essais et erreurs avant d’obtenir un résultat parfait.

GPFGAN vs. CodeFormer pour la restauration faciale

GPFGAN a tendance à être meilleur pour restaurer la structure du visage d’une personne (les yeux, en particulier), alors que CodeFormer fait un meilleur travail pour fixer la texture de la peau. Si vous voyez que GPFGAN donne à votre peau une texture inhabituelle, utilisez CodeFormer. Vous pouvez également combiner les deux pour obtenir le meilleur des deux mondes. L’essentiel est d’expérimenter.

En utilisant les diapositives GFPGAN/CodeFormer, vous pouvez ajouter une correction faciale aux images mises à l’échelle.

En termes de vitesse, CodeFormer est plus rapide. Si vous recherchez l’upscaling le plus rapide, GPFGAN sera votre meilleur choix.

Laisser un commentaire