Le Bon LMM

Carnet de code et de réflexions autour de l’IA générative à la française

CodeCorpusContributionsConversationsLexiqueFaqRecherche

Communauté

Pour échanger, demandez l’accès au :

Infolettre

Nous avons le projet d’une infolettre, seriez-vous intéressé ?

Misc

TwitterLinkedIn

Contact

Mentions légales
test

TintinIA : ré-entraîner un modèle de génération d’images, sdxl

Code

05/09/23

Pierre-Carl Langlais

Pierre-Carl Langlais

Cet été, Stable Diffusion a publié un nouveau modèle de génération d’images, sdxl. En France, cette actualité est passée à peu près inaperçue, peut-être aussi à cause de la vogue des LLM qui prennent toute l'attention. Comme le nom l’indique, sdxl peut créer des images en définition élevée (jusqu’à 1024 pixels) et de bien meilleure qualité. En pratique, sdxl rend possible beaucoup de choses dont… TintinAI, un premier modèle visuel tintinesque exclusivement entraîné par Le bon LLM.

TintinIA est capable de générer à la demande des cases d’album imaginaires dans le style d’Hergé avec une représentation relativement fidèle de Tintin, Milou et – dans une moindre mesure – du Capitaine Haddock. Avec un peu de traitement sur Gimp ou Photoshop, il est facile d’en tirer des memes de bonne facture, idéal pour briller sur les réseaux sociaux.

Comment ça marche ?

La version actuelle du modèle a été entraîné sur 124 cases numérisées à partir de quatre albums de Hergé : Les 7 Boules de Cristal, Le Temple du Soleil, L’Affaire Tournesol et les Bijoux de la Castafiore. Dans leur grande majorité, les cases se composent de portraits de Tintin, Haddock ou Milou, sous différents angles.

Pour chaque case, nous avons créé une courte description en anglais spécifiant le type de représentation (comic panel) et le nom des personnages. Ces annotations sont volontairement rudimentaires et visent juste à assimiler un nouveau “concept”. Paradoxalement, il vaut mieux ne pas être trop détaillé : le fine-tuning est à la fois un processus de mémorisation mais aussi d’oubli, comme le modèle va “écraser” une partie de ses connaissances antérieures. Nous avions tenté une annotation plus détaillée (tel personnage est assis sur une chaise, paysage en arrière-plan, etc.) qui n’a pas du tout donné de bons résultats.

Les annotations représentent l’essentiel du travail de création du modèle. Le fine-tuning lui-même est très rapide et peu coûteux : environ 2h de location d’un GPU A100. Il ne porte en effet pas sur l’ensemble du modèle mais sur une petite partie qui va ensuite guider la représentation. Tout l’écosystème assez riche du fine-tuning de LLM (pour les textes) ou de modèles de diffusion (pour les images) repose aujourd’hui sur ce principe.

Le modèle a été entraîné en deux étapes. Une première version de test a été entraînée pendant une vingtaine de minutes sur 35 images du Temple du Soleil. La comparaison avec la version finale est assez instructive : les personnages sont moins reconnaissables et nous avons davantage d’images complètement ratées (voire “cursed”) comme le modèle peine à articuler ses nouvelles connaissances avec la base antérieure.

D’après d’autres projets similaires, un bon modèle nécessiterait l’annotation d’environ 500 images, notamment pour intégrer les autres personnages principaux et étoffer un peu le répertoire visuel de ceux qui sont déjà présents. Si Tintin commence à être un peu stabilisé, le capitaine Haddock reste… perfectible. À notre grand regret, nous doutons que l’on puisse intégrer Chiquito (eh oui, Chiquito…) faute d’exemples en nombre suffisants…

Est-ce légal ?

Le développement des IA génératives suscite énormément de débats autour du respect des droits d’auteur, aussi bien en amont (peut-on utiliser des corpus protégés pour entraîner les IA ?), qu’en aval (qui est l’auteur d’une création générée ?). Dans le cas particulier du modèle Tintin, il y a en réalité peu d’ambiguïtés : Tintin est une licence protégée, la dernière version du modèle produit des incarnations facilement identifiables de Tintin qui constituent vraisemblablement des œuvres dérivées. 

Si l’usage commercial est évidemment totalement exclu, les exceptions existantes devraient aussi pouvoir s’appliquer. Tintin n’entrera dans le domaine public avant les années 2050, mais il fait déjà partie intégrante de la culture collective, et est depuis quelques années devenu une star de la scène meme francophone, avec d'innombrables détournements sur les réseaux sociaux et dans les groupes de Neurchi.

En l’absence de toute perspective de commercialisation, le modèle n’est pas en concurrence avec les illustrateurs professionnels, et ces créations peuvent s’appuyer sur le droit de parodie ou de pastiche : l’intention humoristique voire satirique est quasi-systématique. Pour cette publication, nous avons pris soin de ne sélectionner que des exemples qui ressortent de cet usage.

Ivan P. Yamshchikov : "Il nous manque actuellement une méthodologie solide pour évaluer les LLM"
Ivan P. Yamshchikov : "Il nous manque actuellement une méthodologie solide pour évaluer les LLM"
Conversation

11/10/23

Pour optimiser votre expérience, nous collectons des données de navigation en utilisant les cookies (lire les mentions légales).
Êtes-vous d'accord ?
/