VintageLLM : entraînez le LLM du 17e siècle

ChatGPT et les autres LLM ouverts ou fermés ont un biais contemporain : par commodité, les grands corpus d’entraînements proviennent tous de sources numériques récentes compilées à partir des archives du web. Ce biais n’est pas irrémédiable.

Opsci présente une nouvelle collection d’instructions historiques, VintageLLM. Ces instructions ont été élaborées à partir d’extraits de textes numérisés du début de la période moderne (1500-1800) avec pour l’instant une préférence pour le 17e siècle. Elles comprennent deux principaux corpus :

Aſtrée (disponible sur HuggingFace), 2 000 instructions issues de 157 romans en français du 17e siècle.
English-eebo-1, 1 669 instructions issues de 659 monographies en anglais principalement publiées entre 1 500 et 1 700.

Chaque extrait est associé à une instruction en langage contemporain générée par ChatGPT. Nous détaillerons notre méthodologie dans un futur article mais pour résumer l’essentiel, nous demandons à ChatGPT de générer une question ou une instruction (du style “écrivez un article”) qui doit déboucher sur l’exemple de texte fourni.

Même si ce set d'instruction n'est pas (encore ?) destiné aux voyages dans le temps, mais il a déjà une vocation pédagogique : illustrer l'effet considérable du fine-tuning sur le modèle de base. Les deux corpus aujourd’hui disponibles sont de petite taille et néanmoins, les deux LLM que nous avons testé (Falcon et LLaMa) s’imprègnent très vite du style et des manières d’écrire de l’époque.

Le succès de cette méthode est en partie une surprise. Les LLM ont de toute évidence très peu de sources historiques dans leur corpus d’entraînement en dehors de quelques œuvres littéraires communément partagées en ligne et souvent dans une orthographe modernisée. Et pourtant, ChatGPT n’a quasiment aucune difficulté à interpréter ces textes anciens et Falcon ou LLaMa s’adaptent assez bien à ce nouveau corpus. Il y a une résilience des LLM.