FRinstruct : premier set de près de 100 000 instructions francophones ouvertes

Nous publions FRinstruct, un premier set d'instructions francophones ouvertes, de nature très diverse :

9 083 instructions nativement en français dans les bases de références (Alpaca, Guanaco, ShareGPT, OpenAssistant…).
68 359 instructions traduites en français des principaux corpus en anglais (Alpaca, ShareGPT). La traduction automatique a été réalisée pour le projet Vicogne.
Une sélection de 4 613 d'instructions extraites depuis l'Oracle, un projet de questions-réponses collaboratif de la Wikipédia francophone (licence CC-By-SA).
6 000 extraits de romans français dans le domaine public publiés de 1600 à 1700.
5 598 extraits de romans français dans le domaine public publiés de 1815 à 1940.

Par cette initiative, nous voulons soutenir le développement d'une communauté élargie de chercheurs, professionnels, éducateurs ou simples bricoleurs de LLM dans le monde francophone.

Vous pouvez notamment utiliser ces instructions pour ré-entraîner deux références des LLM ouverts : Falcon et LLaMa.

Les corpus d'instructions ont une forme très simple développée par Stanford pour le projet Alpaca : une instruction (généralement une question posée ou un ordre donné), une réponse (output) que le modèle doit s'attacher à reproduire et optionnellement un exemple de texte (input) fourni à titre complémentaire.

La forme est peut-être d'ailleurs un peu trop simple : les métadonnées élémentaires (langue, identifiant pérenne, catégorisation) font généralement défaut. Pour un autre projet, nous sommes en train de compiler l'ensemble des instructions aujourd'hui disponibles pour des langues européennes hors anglais.