Le Bon LMM

Carnet de code et de réflexions autour de l’IA générative à la française

CodeCorpusContributionsConversationsLexiqueFaqRecherche

Communauté

Pour échanger, demandez l’accès au :

Infolettre

Nous avons le projet d’une infolettre, seriez-vous intéressé ?

Misc

TwitterLinkedIn

Contact

Mentions légales
test

FRinstruct : premier set de près de 100 000 instructions francophones ouvertes

Corpus

18/07/23

Pierre-Carl Langlais

Pierre-Carl Langlais

Nous publions FRinstruct, un premier set d'instructions francophones ouvertes, de nature très diverse :

  • 9 083 instructions nativement en français dans les bases de références (Alpaca, Guanaco, ShareGPT, OpenAssistant…).

  • 68 359 instructions traduites en français des principaux corpus en anglais (Alpaca, ShareGPT). La traduction automatique a été réalisée pour le projet Vicogne.

  • Une sélection de 4 613 d'instructions extraites depuis l'Oracle, un projet de questions-réponses collaboratif de la Wikipédia francophone (licence CC-By-SA).

  • 6 000 extraits de romans français dans le domaine public publiés de 1600 à 1700.

  • 5 598 extraits de romans français dans le domaine public publiés de 1815 à 1940.

Par cette initiative, nous voulons soutenir le développement d'une communauté élargie de chercheurs, professionnels, éducateurs ou simples bricoleurs de LLM dans le monde francophone.

Vous pouvez notamment utiliser ces instructions pour ré-entraîner deux références des LLM ouverts : Falcon et LLaMa.

Les corpus d'instructions ont une forme très simple développée par Stanford pour le projet Alpaca : une instruction (généralement une question posée ou un ordre donné), une réponse (output) que le modèle doit s'attacher à reproduire et optionnellement un exemple de texte (input) fourni à titre complémentaire.

La forme est peut-être d'ailleurs un peu trop simple : les métadonnées élémentaires (langue, identifiant pérenne, catégorisation) font généralement défaut. Pour un autre projet, nous sommes en train de compiler l'ensemble des instructions aujourd'hui disponibles pour des langues européennes hors anglais.

Ivan P. Yamshchikov : "Il nous manque actuellement une méthodologie solide pour évaluer les LLM"
Ivan P. Yamshchikov : "Il nous manque actuellement une méthodologie solide pour évaluer les LLM"
Conversation

11/10/23

Pour optimiser votre expérience, nous collectons des données de navigation en utilisant les cookies (lire les mentions légales).
Êtes-vous d'accord ?
/