Le projet BigScience lance l’entraînement de son modèle multilingue #

L'équipe du projet BigScience est heureuse d'annoncer que l'entraînement du modèle multilingue BigScience a officiellement démarré. Cette initiative exceptionnelle est le seul projet à ce jour à être entièrement open source, et vous pourrez découvrir comment se déroule l’entraînement d’un modèle de langue de grande taille et suivre l’ensemble des étapes du processus !

L’équipe BigScience

Ce lancement est le résultat d’un an de collaboration, brainstorms, expérimentations et discussions menés avec la participation de plus de 1000 chercheurs à travers le monde. Ce projet mène ainsi à la finalisation du modèle de langue : un modèle transformer de 176 milliards de paramètres qui sera entraîné sur environ 340 milliards de tokens en 46 langues différentes.

La phase d’entraînement du modèle durera 3 à 4 mois, et nous partagerons nos découvertes durant cette période (le bon comme le mauvais, y compris les avancées de performance, les comportements inattendus du modèle, dysfonctionnements sur un noeud du cluster, etc.) : vous pourrez suivre l’aventure sur le compte Twitter @BigScienceLLM ou en direct sur TensorBoard. Le 24 mars sera l’occasion de lancer officiellement avec vous l’aventure et une session “Ask Me Anything” aura lieu le même jour à 17h (heure française) sur Reddit.

Le modèle multilingue de BigScience

Les modèles de langue de grande taille (en anglais “large language models” ou LLM) ont de plus en plus de potentiel, mais peu d’organisations ont la capacité de les entraîner. Étant données les conséquences du développement de ces technologies et leurs applications potentielles, il est essentiel d’ouvrir la discussion sur ces sujets, afin de partager davantage d’informations sur la manière dont les modèles de langues sont construits, fonctionnent et peuvent être améliorés. Jusqu’alors, une grande partie de ces connaissances était réservée à des entreprises ou laboratoires de recherche privés qui pour diverses raisons (financières, juridiques, éthiques) n’étaient pas en mesure de partager les résultats de leur recherche avec la communauté scientifique en dehors d’articles scientifiques résumant uniquement les grandes lignes de leurs travaux.

Étant données les conséquences du développement de ces technologies et leurs applications potentielles, il est essentiel d’ouvrir la discussion sur ces sujets, afin de partager davantage d’informations sur la manière dont les modèles de langues sont construits, fonctionnent et peuvent être améliorés.

BigScience est une initiative de science ouverte collaborative. Des chercheurs du monde entier travaillent ensemble pour entraîner un grand modèle de langue. Le maître mot est l’ouverture : la participation au projet est ouverte, les résultats de recherche sont partagés avec l’ensemble de la communauté scientifique. L’initiative BigScience a été conçue comme un projet de recherche interdisciplinaire rassemblant des chercheurs - universitaires, industriels et indépendants - ayant une diversité d'intérêts - IA, traitement du langage naturel, sciences sociales, droit, éthique et politiques publiques. Grâce au soutien généreux de GENCI et à l'utilisation du cluster Jean Zay basé en France, BigScience est une initiative inédite dans l’histoire de l’IA, intégrant la participation de plus de 1000 chercheurs à la création d’un modèle et d’un jeu de données uniques. Le modèle que nous commençons à entraîner est actuellement le premier et seul modèle multilingue entièrement accessible de manière ouverte à cette échelle.

En quoi le projet BigScience est-il une initiative inédite ?

Le projet BigScience s'inspire d'autres initiatives de science ouverte où des chercheurs ont mis en commun leur temps et leurs ressources pour augmenter collectivement l’impact de leurs projets. Des mégaprojets tels que le LHC (Large Hadron Collisionneur ou accélérateur de particules) mené au CERN, ou le télescope Hubble, mené à la NASA, ont abouti à des découvertes et réalisations importantes. Le modèle de langue multilingue BigScience, à une échelle plus petite, vise à jouer un rôle similaire dans la recherche sur l'intelligence artificielle. Il ne s'agit en aucun cas du premier modèle de langue à grande échelle, mais il présente des caractéristiques qui le distinguent de précédents projets en IA :

Ouverture : l’ensemble du projet est conçu pour être le plus ouvert possible (discussions, documents de travail, code). Les échanges et les résultats de recherche sont partagés, le code est ouvert, et les discussions autour des licences proposent une approche “open by design”. La conférence organisée par l’Association pour la linguistique informatique (ACL) en mai 2022, événement de premier plan dans le domaine du traitement automatique du langage naturel, sera l’occasion de présenter et de discuter des résultats. De nombreux articles de recherche réalisés par des centaines de collaborateurs ont déjà été publiés dans le cadre du projet et nous espérons en publier d’autres
Multilinguisme et diversité : le modèle sera entraîné sur des données issues de 46 langues différentes représentant des sources géographiquement variées. Il s'agit d'un choix de conception spécifique alors que la plupart des autres modèles de cette (très grande) taille sont monolingues. Plus d’informations ici.
Accessibilité : Bien que la licence exacte du modèle soit encore en cours de rédaction par le groupe de travail sur l'éthique et l'accessibilité, l'accent est mis sur l'ouverture et l’usage responsable, et les paramètres du modèle devraient être accessibles aux chercheurs à des fins d'expérimentation. Des dispositions sont également prévues pour que le modèle lui-même soit accessible via une API simple d’utilisation, prévoyant les cas pour lesquels les chercheurs n'auraient pas accès à suffisamment de ressources informatiques pour exécuter le modèle eux-mêmes.
Gouvernance des données : tout au long du projet BigScience, nous portons une attention particulière aux enjeux de gouvernance. Le jeu de données est construit selon une démarche consciencieuse qui nous permet de faire avancer et de mieux implémenter le statut juridique et les licences pour les données en machine learning. Les chercheurs seront en capacité d’explorer les sources des données pour l’entraînement du modèle et d’en réutiliser une grande partie dans de futurs projets.
Collaboration : le modèle BigScience est le résultat de travaux collectifs réalisés par 30 groupes de travail, représentant au total environ 1000 personnes engagées et plusieurs centaines de participants actifs.

Quelles sont les spécifications techniques ?

Le modèle de langue aura 176B (milliards) de paramètres et consommera plus de 340 milliards de mots pendant la phase d’entraînement. Les données seront traitées de manière plus responsable, provenant de sources diverses, en 46 langues. La taille du modèle a été déterminée en fonction des capacités de calcul dont nous disposons (18 semaines de capacités de calculs sont disponibles) :

Le modèle sera entraîné sur Jean Zay, le supercalculateur français géré par GENCI et situé à l’IDRIS (Institut du développement et des ressources en information scientifique), le centre national de calcul géré au sein du CNRS. Il utilisera 384 Nvidia A100 GPU avec 80 Go de mémoire chacun, pendant une durée de plusieurs mois (environ 1,2 million d'heures GPU).

Pour plus d’informations techniques sur les choix d’architectures, vous pouvez consulter un papier de recherche dédié et suivre les “BigScience chronicles” de Stas Bekman, responsable technique au sein du projet. Quelques articles qui approfondissent les spécifications :

Comment suivre la phase d’entraînement et les actualités de BigScience?

Dans la mesure où BigScience est une initiative open source, tout le monde peut suivre le projet! Nous espérons que cela ne sera pas le cas, mais il est possible que nous découvrions des choses inattendues pendant l’entraînement. Dans tous les cas, vous avez la possibilité de rester informés de différentes manières :

Les chercheurs IA utilisent TensorBoard pour suivre l’entraînement et vous pouvez suivre celui du modèle de BigScience
Les plus avertis pourront suivre les logs en utilisant cet extrait en ligne de commande
Vous pouvez suivre les comptes Twitter du projet BigScience @BigScienceW et du modèle BigScience @BigScienceLLM
Explorer le site de l’initiative BigScience, notamment la catégorie “About”. Vous pouvez également découvrir notre organisation ici.

Pour toute demande presse: bigscience-contact@googlegroups.com.