Ivan P. Yamshchikov : "Il nous manque actuellement une méthodologie solide pour évaluer les LLM"

Pierre-Carl : Bonjour Ivan, pouvez-vous vous présenter ?

Ivan : Je suis né et j’ai grandi à Saint-Pétersbourg. J'ai obtenu mon premier master en physique, suivi d'un second master en mathématiques financières en Suède, avant de compléter mon doctorat en mathématiques appliquées en Allemagne.

Pierre-Carl : Pourquoi vous intéressez-vous au domaine de l'IA ?

Ivan : Ma passion pour les TAL (traitement automatique des langues) et les larges modèles de langage (LLM) s'est éveillée en 2016 lorsque j'ai expérimenté la génération de poésie avec un LSTM (un type de réseau de neurones). J'étais ébloui par la qualité des résultats ; il pouvait composer de la poésie mieux que la plupart des personnes que je connais. Il m'est apparu clairement que cette technologie représentait l'avenir et je voulais contribuer à son développement. Aujourd’hui, je suis ravi de constater la fascination massive pour ce domaine autrefois marginal.

Pierre-Carl : En quoi consiste votre travail ?

Ivan : Je suis professeur en « traitement sémantique des données » au Centre d'IA et de Robotique de Würzburg, une nouvelle institution de recherche financée par l'initiative bavaroise sur l'IA. Elle regroupe cinq centres d'IA, incluant Würzburg, Ingolstadt et Augsbourg, dédiés à la recherche avant-gardiste. Je fais partie des membres fondateurs de ce centre, et nous le construisons, pour ainsi dire, à partir de zéro.

Je conseille également des startups émergentes dans le domaine des LLM. Je collabore notamment avec Toloka AI qui est un ancien service interne d'étiquetage de données chez Yandex. Avec le début de la guerre en Ukraine, Yandex s'est scindé en deux entités : celle restée en Russie et l'autre, opposée à la guerre, qui s'est expatriée. Toloka AI appartient à ce dernier groupe et c'est ainsi que j'ai commencé à collaborer avec eux. Actuellement, ils sont basés à Amsterdam et Belgrade.

Ma mission principale consiste à développer de nouveaux produits et stratégies de collaboration avec les producteurs de LLM ouverts. Si la contribution humaine demeure essentielle pour contrôler la qualité et gérer les hallucinations, l'annotation de données s’est transformée avec les LLM. Cette mutation va nécessiter un groupe différent de labelers, doté de compétences spécifiques et d'un modèle commercial revisité. C'est une évolution fascinante car le contrôle de qualité, la production de données et l'évaluation des performances prennent une importance croissante, non seulement en TAL, mais dans de nombreux domaines axés sur les données. À mon avis, il nous manque actuellement une méthodologie solide pour évaluer les LLM, au-delà du simple nombre de paramètres.

Pierre-Carl Langlais : Je voudrais justement partager une réflexion quelque peu provocatrice : j'ai l'impression que nous vivons actuellement une sorte de "crise d'évaluation" liée aux LLM. Nous avons des modèles très fermés - comme par exemple GPT ou Claude de l'entreprise Anthropic - et nous n'avons pas beaucoup d'informations sur la manière dont ils ont été entraînés. Pour ce qui concerne les LLM ouverts, il y a aussi beaucoup de critiques entourant les classements et les méthodologies d'évaluation (comme celles de HuggingFace), en particulier dans des domaines comme la compréhension de texte. S'ajoute à cela le problème de la contamination avec certains modèles fermés qui ont été altérés et optimisés pour les évaluations, intentionnellement ou non. Combler le fossé entre ce que mesurent les benchmarks en TAL et ce que nous voulons réellement voir dans ces modèles est un défi majeur. Est-ce que vous partagez ces mêmes préoccupations et, si c'est le cas, pensez-vous que ce soit un problème soluble ? Comment pouvons-nous aborder efficacement ces défis ?

Ivan P. Yamshchikov : La "crise de l'évaluation" n'est pas un problème spécifique des LLM, mais un problème plus général et persistant de la recherche en deep learning. Une excellente initiative a été lancée par "Papers with code" (une plateforme communautaire de partage d'articles de recherche à la pointe du domaine du machine learning) appelée "Reproducibility Challenge" (Défi de Reproductibilité). Je voulais d'ailleurs participer à cette initiative avec mes étudiants cette année, mais j'ai découvert que personne ne la supervisait.

Il y a quelques années, nous avons travaillé avec certains collègues sur un article axé sur le transfert de style et la réécriture de texte. Au lieu de simplement rapporter un chiffre unique, nous avons introduit des intervalles de confiance, ce qui était considéré comme révolutionnaire à l'époque. Étonnamment, de nombreux travaux antérieurs dans le domaine, que nous avons cités, n'incluaient pas ce type d'évaluation dans leurs rapports. Cela vient en partie du fait que le monde du machine learning n’est pas habitué à réaliser des expériences contrôlées qui permettent de tester la validité de la procédure sur un échantillon, quand dans les sciences expérimentales l'idée que des échantillons aléatoires peuvent se comporter différemment est plus courante.

Ce qui est nouveau, c'est la difficulté de mettre en place une méthodologie d'évaluation unifiée et fiable face à la complexité croissante des modèles. Nous avions auparavant l'habitude d'avoir des métriques largement acceptées comme fiables. À ce titre, Ilya Sutskever (informaticien spécialisé dans le deep learning) a une fois mentionné de manière provocatrice que ces modèles étaient "légèrement conscients", ce qui a suscité un débat important au sein de la communauté. Un autre changement de paradigme tourne autour du concept d'ouverture et de fermeture. Ces tendances sont évidentes à l'échelle mondiale, mais au sein de la communauté informatique et connectée, on accorde une grande importance à la science ouverte et au partage global d'informations. La tendance à collecter davantage de données par mesure de précaution est évidente, mais l'absence d'un modèle et le manque d'un benchmark standalone imposent des coûts supplémentaires à tous ceux qui cherchent à évaluer ces systèmes.

Par exemple, en France il y a l'Institut Français qui certifie la compétence linguistique. Pour assurer une évaluation fiable des LLM, nous avons besoin d'organismes similaires qui préparent de nouveaux tests permettant aux gens de certifier leur modèle à un coût raisonnable. Chez Toloka AI, nous sommes en train de prototyper un tel outil en ce moment, l’évaluation est participative avec les annotations de la communauté, et nous voulons lancer la première version en septembre. Une de nos idées est de recueillir des prompts des utilisateurs de manière dynamique plutôt que d'avoir un ensemble fixe de prompts. Ces derniers sont générés par des êtres humains et les résultats sont également évalués par des êtres humains côte à côte. Il existe des défis pour prévenir la triche, mais l'idée de base est de créer une boîte noire humaine qui peut être utilisée pour des évaluations à la fois fiables et sécurisées, accessibles par exemple via une API.

Pierre-Carl Langlais : Pouvez-vous en dire plus sur votre projet de benchmark ?

Ivan P. Yamshchikov : Notre objectif est de créer un système similaire à Alpaca Eval mais avec la participation humaine pour évaluer les modèles open source. Nous prévoyons également d'établir une procédure pour la soumission des modèles. Si un modèle commercial nécessite une évaluation, nous voulons l'offrir comme un produit aux entreprises commerciales. Pour les modèles open source, nous souhaitons mettre en place un système de vote où la communauté peut prioriser les LLM à évaluer, car il existe de nombreux modèles disponibles. Nous voulons prendre en compte des facteurs comme le nombre d'étoiles sur GitHub, mais nous savons que cette métrique peut ne pas refléter la valeur réelle d'un modèle. Nous envisageons donc de développer un système de vote qui combine ces métriques et d'ajouter régulièrement de nouveaux modèles, à une fréquence qui reste à définir en fonction de l'intérêt de la communauté.

Pierre-Carl Langlais : Votre projet semble se concentrer sur les LLM open source, tout en intégrant les objectifs et besoins des entreprises. Il souligne l'importance d'une création collaborative entre différentes communautés, pas seulement les experts en machine learning, mais aussi celles axées sur la sécurité et l'ergonomie. Votre approche favorise une utilisation et un développement ouverts et collaboratifs, au-delà de la communauté uniquement open source.

Ivan P. Yamshchikov : Je ne suis pas du tout contre Open AI et les LLM fermés. Open AI a joué un rôle crucial dans la facilitation de ces progrès grâce à ses avancées rapides. On ne peut pas ignorer l'aspect financier non plus. Je ne veux pas minimiser l'importance d'être un pionnier, mais si les gens parlent souvent de l'avantage du premier arrivant, il y a aussi des inconvénients associés à cette position. Personnellement, j'apprécie les deux efforts. Sur le plan idéologique, je suis un fervent défenseur de l’open source et des systèmes ouverts. Ils sont résilients, favorisent la créativité et tendent à réduire les coûts d'utilisation. Les écosystèmes fermés, en revanche, ont tendance à être coûteux. La comparaison du prix d'un MacBook à celui d'un ordinateur portable plus abordable illustre bien cela. Si nous voulons que la technologie se propage et devienne mainstream, nous avons besoin de systèmes ouverts qui encouragent le développement. Je crois que les systèmes fermés et ouverts peuvent coexister. Par défaut, les systèmes fermés ne permettent pas à des passionnés comme moi de contribuer. Cela ne me laisse donc pas d'autre choix que de contribuer à des systèmes ouverts où je suis le bienvenu. C'est un autre avantage des systèmes ouverts. Si cela vous intéresse, vous pouvez créer un modèle LLM qui parle français du XVIIe siècle, et il pourrait s'avérer utile pour quelqu'un d'autre intéressé par le sujet. C'est la beauté de la créativité humaine collective.

Pierre-Carl Langlais : Comment les LLM évoluent-ils en termes de prise en charge de plusieurs langues, en particulier les langues moins représentées ou qui disposent d'une documentation limitée ?

Ivan P. Yamshchikov : Tout d'abord, je pense qu'à l'échelle mondiale, il y a un effort pour adapter les LLM à différentes langues, mais je considère que cet effort est principalement réalisé par des entreprises disposant de ressources considérables. Néanmoins, il existe quelques orientations intéressantes dans le domaine. Par exemple, l'atelier WMT, en collaboration avec des organisations comme l'Alan Institute et Facebook, travaille sur des langues rares ou éteintes. En 2022, ils ont accordé une attention particulière aux langues africaines disposant d'une documentation écrite limitée. La plupart des langues européennes, comme le français, disposent d'une richesse de textes pour former efficacement les LLM, et de nombreuses entreprises comme Microsoft tentent d'intégrer d'autres langues européennes comme le français, l'espagnol et l'allemand pour en faire un avantage concurrentiel. Selon moi, tant que vous avez un grand nombre de locuteurs natifs, vous aurez un bon LLM dans cette langue, car il répond à leur besoin et à l'économie de marché.

Bien sûr, certaines langues ne disposent pas d'un tel corpus, et pour ces dernières, il semble que la seule façon de rendre la technologie accessible est de s'appuyer sur l'idée que "lorsque vous apprenez dix langues, la onzième sera beaucoup plus facile". Nous le constatons chez les êtres humains. Les personnes qui connaissent plusieurs langues étrangères apprennent la suivante plus facilement. Dans les LLM, nous pouvons observer un schéma similaire. Je pense donc que l'idée de modèles multilingues avec un haut degré de multilinguisme est la voie à suivre. De mon côté, je pourrais citer un projet pour lequel nous avons développé un LLM en grec ancien. En collaboration avec l'historienne Charlotte Schubert de l'Université de Leipzig, nous avons commencé à y travailler pour explorer les mystères entourant l'authenticité de certains scripts attribués à Plutarque. En affinant un modèle linguistique générique sur un sous-ensemble de données en grec ancien, nous avons pu produire un modèle qui comprend et classe (dans une certaine mesure) le texte en grec ancien. En incluant certains facteurs supplémentaires dont même les historiens n'étaient pas conscients, nous avons également pu amener le modèle à identifier l'origine géographique de l'auteur - une approche novatrice dans la recherche en histoire ancienne. Je suis convaincu que les progrès dans l'apprentissage par transfert et la disponibilité croissante des données nous aident à couvrir un ensemble plus large de langues dans nos modèles.

Pierre-Carl Langlais: Avez-vous actuellement des projets personnels liés à l'IA générative ?

Ivan P. Yamshchikov : Je suis impliqué dans plusieurs projets créatifs en ce moment. L'un d'eux concerne l'utilisation de l'IA générative pour un film sur une personne ayant des problèmes de perception, en particulier des dommages au cortex visuel, ce qui affecte sa capacité à percevoir visuellement. Il est basé sur un cas réel documenté. Nous explorons l'utilisation de l'IA générative pour créer une vue à la première personne pour ce personnage au lieu des CGI traditionnels.

Nous avons aussi une idée de collaboration robotique : nous sommes en contact avec un artiste argentin spécialisé dans la peinture en direct, et notre projet est de créer un robot capable de peindre aux côtés d'un humain. Vous connaissez ces machines à peindre industrielles qu'on utilise pour les voitures, à l’allure intrigante, comme de gigantesques serpents métalliques ? Ici l’artiste et le robot peindraient à l’aérosol ensemble, en synchronisation. Nous cherchons des entreprises de robotique qui pourraient être intéressés à s'associer !