Pourquoi LebonLLM ? Rassembler la communauté francophone élargie de la fabrique des LLM

ChatGPT existe depuis un peu plus de six mois, un temps court mais une petite éternité à l’échelle des grandes transformations de l’IA. Après l’effet de sidération initial, tout est un peu plus compliqué. À l’idéal porté par OpenAI d’une application universelle, succède un paysage riche et contrasté où ChatGPT n’est plus seul.

Pour les spécialistes, ChatGPT est moins une révolution qu’une évolution. En leur sens actuel, les “grands modèles de langues” existent depuis 2017, même si le premier d’entre eux, BERT, ne paraît plus si grand aujourd’hui. Et ils incorporent des innovations beaucoup plus anciennes : la “fenêtre contextuelle” est imaginée juste après la Seconde guerre mondiale, les techniques de tokenisations aujourd’hui utilisés remontent au début du traitement industriel des corpus textuels, et la notion d’espace sémantique s’est lentement imposée depuis les années 1980 jusqu’à l’émergence des word embeddings… Ce que ChatGPT représente en réalité, c’est le premier LLM de masse : l’entrée soudaine d’un ensemble de techniques expérimentales et de nouvelles représentations de la communication dans le quotidien de millions de gens.

Depuis le début de l’année, diverses visions des LLM ont émergé. Avec l’ouverture de LLaMa par Meta aux usages de recherche en février, tout un écosystème s’est graduellement structuré autour de modèles plus légers et plus agiles. Grâce aux gains d’optimisation des projets open source, ces alternatives à ChatGPT peuvent de plus en plus souvent tourner sur des ordinateurs personnels. Et surtout, elles sont adaptables. LLaMa, Falcon ou MPT peuvent se transformer en modèles spécialisés dans un domaine ou pour une tâche précise, à partir de quelques centaines ou milliers d’exemples (les “instructions”).

En parallèle, les LLM sont progressivement rattrapés par les exigences nouvelles qui s’imposent à toute technologie utilisée en masse. Le mois dernier, l’Union Européenne a voté l’AI Act, une régulation inédite des usages “à hauts risques” de l’intelligence artificielle, qui cible tout particulièrement les LLM (ou modèles dits “fondationnels”).

Paradoxalement à l’ère des “grands” modèles de langues, il est peut-être temps de penser “petit” et de proposer une approche d’artisan des LLM. Un bon LLM se doit d’expérimenter au-delà des sentiers battus que sont les collectes génériques d’archives du web sur Common Crawl. Et l’enjeu est peut-être de moins en moins de trouver de grands gisements de données que d’identifier des ressources pertinentes et de haute qualité : quelques centaines ou quelques milliers d’exemples suffisent déjà amplement pour un bon projet de fine-tuning et leur traitement prend moins d’une dizaine de minutes avec un GPU standard.

Nous pensons que le tournant de l’open source représente une opportunité inédite pour repenser la conception et le design des LLM à l’heure de leur massification. Aujourd’hui, GPT-3 et GPT-4 restent modelés par un corpus principalement anglophone, numérique et récent : les deux modèles ont vu suffisamment de textes en français pour bien parler la langue, mais n’arrivent pas à appréhender la diversité des références culturelles et des registres de langues. Ce qui est vrai à l’échelle d’une langue l’est aussi à l’échelle des usages. L’ambition de produire un modèle pour tout le monde se heurte de plus en plus à la variété des besoins. La modération intégrée par défaut (via le RLHF) n’est pas forcément bienvenue pour un journaliste.

Les LLM et leurs usages sont tellement intriqués dans les langues des corpus que la promotion d'une vision francophone distincte constitue un enjeu culturel, donc politique, majeur. Pour la porter, le champ de création des LLM doit s’élargir au-delà de son cercle initial de chercheurs et d’ingénieurs en NLP, et rassembler des professionnels des sciences humaines, des linguistes, des experts des cultures numériques, de l'open data, des entrepreneurs... la french touch de l'IA.

C’est la vocation qui anime Opsci et Datactivist pour LebonLLM : recenser et publier des programmes, des corpus et des modèles facilement réutilisables à même de faire vivre une communauté francophone élargie de la fabrique des LLM, dans des domaines très variés. Être un centre de ressources de référence, et un espace d'expressions ouvert.

Stay (fine-)tuned!