Depuis quelques années, l’intelligence artificielle (IA) s’est imposée dans la création d’images numériques. Des noms comme DALL·E, Midjourney ou Stable Diffusion sont désormais connus pour produire des visuels à partir de simples descriptions textuelles. Les avancées rapides dans ce domaine soulèvent autant d’enthousiasme que de questions. Nous allons chercher à savoir comment fonctionne cette technologie dans les grandes lignes.

image générée par le moteur DALLE-3, prompt: “IA génératrice d’image”, style libre

Pour répondre à cette question, il est d’abord nécessaire de parler de plusieurs prouesses technologiques…

Le domaine de l’IA regroupe toutes les techniques visant à faire réaliser par des machines des tâches traditionnellement humaines, en particulier celles estimées comme «  intelligentes  » : reconnaître des objets, jouer à des jeux, etc. Ces dernières années, une branche précise a émergé : le machine learning (apprentissage automatique), et plus particulièrement le deep learning. Ces méthodes sont aujourd’hui à la base des grandes avancées en IA, notamment pour l’analyse d’images.

Apprendre à reconnaître, puis à créer

Prenons un exemple simple : entraîner un programme à reconnaître un objet sur une image. On commence par lui fournir des milliers d’images avec leur étiquette (chat, voiture, humain…). Par un principe appelé apprentissage supervisé, l’algorithme ajuste ses paramètres pour prédire la bonne catégorie devant chaque nouvelle image. Cette technique alimente une grande partie des applications actuelles du machine learning : reconnaissance d’images, tri du spam, etc.

Mais générer des images pose un plus grand défi. Si la reconnaissance part d’une masse d’informations (des millions de pixels) pour aboutir à une réponse compressée (nom de l’objet), la génération procède en sens inverse : elle part d’une instruction simple (“génère une image”) pour créer une image riche et complexe. Impossible de juste « inverser » l’apprentissage supervisé : une IA entraînée de cette manière donnerait toujours la même image (ou une moyenne des images) pour une demande donnée, sans créativité.

Les réseaux adversariaux génératifs (GAN)

Une des premières techniques efficaces pour produire de nouvelles images a été présentée en 2014 : les GAN (Generative Adversarial Networks). L’idée étant de mettre en compétition deux réseaux de neurones : l’un (réseau générateur) crée des images à partir de rien, l’autre (réseau discriminateur) doit deviner si une image est “vraie” (issue de la base de données) ou “fausse” (inventée). Petit à petit, les deux réseaux progressent, produisant des images de plus en plus réalistes à tel point qu’il devient difficile de distinguer le vrai du faux. Ces GAN ont donné naissance à des applications célèbres comme « This Person Does Not Exist », qui génère des visages fictifs à partir d’une grande base de données.

De la génération assistée au texte-image avec les modèles de diffusion

Les GAN sont très performants pour créer des images de catégories bien précises (des chats, des voitures, des petits poneys…), mais ils sont plus limités dès qu’il s’agit de générer des images à partir de descriptions textuelles. C’est là qu’entrent en scène les modèles de diffusion, comme Stable Diffusion ou DALL-E.
Leur fonctionnement de base est de partir d’une image complètement bruitée (chaque pixel généré aléatoirement) et de la “débruiter” progressivement pour obtenir une image qui correspond à ce qu’on veut. Pour apprendre, l’algorithme s’entraîne à “nettoyer” des images bruitées pour revenir à l’originale, puis une fois entraîné, on peut lui fournir une image de pur bruit et il hallucinera, par étapes, une nouvelle image crédible.

Pour aller plus loin et permettre une génération à partir de phrases libres, les IA actuelles associent le principe de la classification d’image avec les modèles de diffusion.
Pour cela, elles associent chaque description à un “plongement de mots” (embedding) : une série de nombres qui encode le sens du texte. L’algorithme de diffusion est alors “conditionné” par ce plongement, via la requête de l’utilisateur, ce qui lui permet d’halluciner à partir de bruit une image correspondant à une description comme « une personne qui cuisine une pièce de viande, style réaliste ». Plus il ingère d’images différentes et légendées lors de son entraînement, plus il devient performant à inventer des visuels à partir de textes.

image générée par le moteur “Seedream” intégré à Perplexity, utilisant des modèles de diffusion génératifs. Prompt: “une personne qui cuisine une pièce de viande, style réaliste”

Pour aller plus loin sur le sujet, regardez la vidéo: “Comment ces IA inventent-elles des images ?” de David Louapre sur sa chaîne youtube Science Étonnante, ou le billet de blog associé pour des détails techniques et sources supplémentaires.

Sources:

https://fr.wikipedia.org/wiki/Intelligence_artificielle_g%C3%A9n%C3%A9rative#Technologies_sous-jacentes

1 Comment

  1. Sow

    Pleine de leçons à tirer.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *