Dall·e — Un artiste fait de maths et de code

édité le 27/10

Les intelligences artificielles et leurs progrès sont très à la mode. Elle fascinent en posant la question “Quelles capacités réputées strictement humaines pourraient elles en fin de compte acquérir” ? Dans quels domaines où l’Homme se croit supérieur à toute autre créature pourraient-elles nous dépasser ? Restera-t’il quelque qualité qui nous serait propre ?

L’Art est un de ces domaines souvent cité. Les capacités créatrices étaient réputées purement humaines (en ignorant parfois le comportement troublant de certains animaux).

On voit pourtant apparaître des IA qui créent. La musique est un bon exemple : on trouve maintenant des plateformes de composition “automatiques”, à but commercial, proposant de générer en un instant des morceaux entier pour accompagner nos vidéos (un exemple).

Mais récemment, j’ai découvert le projet d’OpenAI baptisé DALL·E 2 (en hommage bien sûr au peintre), un robot-artiste. Le concept est saisissant de simplicité et stupéfiant de résultats.

DALL·E : Dessinateur à la demande

Via le site internet qui sert d’interface au logiciel, on se voit présenté un simple invité de commande avec l’instruction Start with a detailled description. Décrivez-y ce que vous souhaitez voir déssiné, et le robot se mettra au travail pendant quelques secondes pour vous présenter son interprétation de votre consigne. Et les résultats sont… incroyables.

A city under see with a large monster above it, digital art

A comic book cover of a supergirl running in the sunset

A dark realistic oil painting portrait of a rabbit dressed as a doctor

A sailboat flying into a black hole, digital art

An impressionist painting of a dog surfing on a submarine

Quelques œuvres de DALL·E. (En titre, la description demandée)

Le logiciel est capable de comprendre des concepts pourtant éloignées et de les interpréter, les mêler les uns aux autres d’une façon qui laisse perplexe.

il comprend le sujet de l’œuvre : un chien, la tour Eiffel…
la relation entre plusieurs objets : le chien surfe sur le sous-marin, le lapin est habillé comme un docteur…
il comprend le style artistic qui lui est demandé : une peinture à l’huile, de l’art digital, une couvertue de comics, un dessein à main levée…
et il réussi à coordonner les éléments de façon à les rendre harmonieux entre eux

Ajoutons à cela que la description se fait en langage naturel, c’est à dire sans syntaxe spécifique. Pas besoin de programmation ni de définition de ce que l’on cherche. On écrit simplement ce que l’on cherche comme on l’écrirait dans un texto… ou une commande passée à un artiste humain.

Bien sûr, toutes les œuvres ne sont pas réussies. Celles présentées plus haut sont une sélection parmi celles que j’ai généré. A chaque description, la machine génère 4 images. Pour avoir un résultat précis, il faut apprendre à être spécifique et à guider l’algorithme. Il faut parfois deux ou trois essais pour y arriver.

La machine a aussi parfois un peu de mal à imiter certains styles d’artistes ou certains types d’images. Je trouve personnellement que le robot est le plus fort pour créer des images digitales (digital art) et des desseins à main levée (hand drawn sketch). Les peintures à l’huile (oil painting) sont soit très réussies, soit bizarrement dérangeantes…

Néanmoins, chaque fournée ne prend qu’un instant, et la diversité des images produites est remarquable. Essayez de jouer un peu avec, et vous serez saisis par certains résultats.

Essayer DALL·E

Vous devrez créer un compte sur le site pour accéder au service. Vous vous verrez offert 50 crédits, chacun permettant de générer 4 images par une description. Cet acompte vous permettra déjà de découvrir de belles images et de jouer avec le système un moment. Tout les mois, vous regagnerez 15 crédits gratuits qui semblent non cumulables.

Bien sûr, il vous faudra faire vos demande en anglais. Mais des phrases simples, et quelques mots de vocabulaire obtenues sur des sites de traduction, seront suffisants pour profiter de l’application.

Je vous conseille de jeter un œil aux exemples pour vous faire une idée de la diversité des styles et mots-clefs disponibles… Il ne faut pas avoir peur d’être trop spécifique, car un simple adjectif peut transformer une image !

Le fonctionnement

DALL·E est un projet de recherche qui avait abouti à DALL·E1 et a progressé depuis. Le fonctionnement est détaillé dans une publication¹. Pour résumer, un Neural Network, entraîné par deep-learning sur de nombreuses images et leurs description, a réussi apprendre le lien entre les objets et à les placer dans des contextes différents selon la demande qui lui est faite.

Il commence par générer une amas aléatoire de pixels (donnant un bruit), puis le modifie peu à peu afin qu’il ressemble de plus en plus à la description fournie. Il est même capable de partir d’image déjà existantes pour les modifier, ajoutant ou soustrayant certains éléments.
Pour en savoir plus, consultez la page du projet.

Vidéo officielle du projet

Vidéo par Computerphile

Une vidéo où Dr Mike Pound explique le mode de fonctionnement de Dalle·E, sur Youtube (en anglais 🇬🇧).

En conclusion

Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125. ↩︎

DALL·E : Dessinateur à la demande#

Essayer DALL·E#

Le fonctionnement#

Vidéo officielle du projet#

Vidéo par Computerphile#

En conclusion#