LiveCodeBench Pro How Do Olympiad Medalists Judge LLMs in Competitive Programming?

Ce document présente LiveCodeBench Pro, un benchmark évaluant la performance des grands modèles de langage (LLMs) dans la programmation compétitive, en comparant leurs capacités à celles d'experts humains. Les résultats montrent que, malgré certains succès dans les tâches d'implémentation, les LLMs peinent encore à raisonner de manière nuancée ou à gérer des cas complexes, soulignant un écart significatif avec les grands maîtres humains. L'étude met en évidence que les performances élevées des modèles actuels sont principalement dues à leur précision dans l'exécution et à l'utilisation d'outils, plutôt qu'à une véritable capacité de raisonnement. Ces insights sont importants pour orienter l'amélioration future des LLMs dans des tâches de programmation et d'intelligence artificielle.