En quoi le projet BigScience est-il une initiative inédite ?
Le projet BigScience s'inspire d'autres initiatives de science ouverte où des chercheurs ont mis en commun leur temps et leurs ressources pour augmenter collectivement l’impact de leurs projets. Des mégaprojets tels que le LHC (Large Hadron Collisionneur ou accélérateur de particules) mené au CERN, ou le télescope Hubble, mené à la NASA, ont abouti à des découvertes et réalisations importantes. Le modèle de langue multilingue BigScience, à une échelle plus petite, vise à jouer un rôle similaire dans la recherche sur l'intelligence artificielle.
Il ne s'agit en aucun cas du premier modèle de langue à grande échelle, mais il présente des caractéristiques qui le distinguent de précédents projets en IA :
- Ouverture : l’ensemble du projet est conçu pour être le plus
ouvert possible (discussions, documents de travail, code). Les échanges et les résultats de
recherche sont partagés, le code est ouvert, et les discussions autour des licences proposent
une approche “open by design”. La conférence organisée par l’Association pour la linguistique
informatique (ACL) en mai 2022, événement de premier plan dans le domaine du traitement
automatique du langage naturel, sera l’occasion de présenter et de discuter des résultats.
De nombreux articles de recherche réalisés par des centaines de collaborateurs
ont déjà été publiés dans le cadre du projet et nous espérons en publier d’autres
- Multilinguisme et diversité : le modèle sera entraîné sur des données
issues de 46 langues différentes représentant des sources géographiquement variées. Il s'agit
d'un choix de conception spécifique alors que la plupart des autres modèles de cette
(très grande) taille sont monolingues. Plus d’informations ici.
- Accessibilité : Bien que la licence exacte du modèle soit encore en cours de rédaction par le groupe de travail sur l'éthique et l'accessibilité, l'accent est mis sur l'ouverture et l’usage responsable, et les paramètres du modèle devraient être accessibles aux chercheurs à des fins d'expérimentation. Des dispositions sont également prévues pour que le modèle lui-même soit accessible via une API simple d’utilisation, prévoyant les cas pour lesquels les chercheurs n'auraient pas accès à suffisamment de ressources informatiques pour exécuter le modèle eux-mêmes.
- Gouvernance des données : tout au long du projet BigScience, nous portons une attention particulière aux enjeux de gouvernance. Le jeu de données est construit selon une démarche consciencieuse qui nous permet de faire avancer et de mieux implémenter le statut juridique et les licences pour les données en machine learning. Les chercheurs seront en capacité d’explorer les sources des données pour l’entraînement du modèle et d’en réutiliser une grande partie dans de futurs projets.
- Collaboration : le modèle BigScience est le résultat de travaux collectifs réalisés par 30 groupes de travail, représentant au total environ 1000 personnes engagées et plusieurs centaines de participants actifs.
Quelles sont les spécifications techniques ?
Le modèle de langue aura 176B (milliards) de paramètres et consommera plus de 340 milliards de mots pendant la phase d’entraînement. Les données seront traitées de manière plus responsable, provenant de sources diverses, en 46 langues. La taille du modèle a été déterminée en fonction des capacités de calcul dont nous disposons (18 semaines de capacités de calculs sont disponibles) :
Le modèle sera entraîné sur
Jean Zay, le supercalculateur français géré par
GENCI et situé à l’IDRIS (Institut du développement et des ressources en information scientifique), le centre national de calcul géré au sein du CNRS. Il utilisera 384 Nvidia A100 GPU avec 80 Go de mémoire chacun, pendant une durée de plusieurs mois (environ 1,2 million d'heures GPU).
Pour plus d’informations techniques sur les choix d’architectures, vous pouvez consulter
un papier de recherche dédié et suivre les
“BigScience chronicles” de Stas Bekman, responsable technique au sein du projet. Quelques articles qui approfondissent les spécifications :