Comment développer une intelligence artificielle en langue arabe quand les dialectes qui font vivre cette langue au quotidien demeurent invisibles sur le web et que les talents formés fuient vers d’autres horizons ? Lors du panel « L’intelligence artificielle méditerranéenne : enjeux d’ancrage, de pluralité et de responsabilité » organisé dans le cadre du Forum MED IA le 21 novembre 2025, Wissam Antoun, doctorant au sein de l’équipe Almanach au Liban, a exposé le paradoxe d’une région qui dispose d’une richesse linguistique considérable mais peine à la transformer en souveraineté numérique, coincée entre l’inaccessibilité des données dialectales, des budgets académiques dérisoires et une hémorragie des compétences.
Le constat de départ demeure inchangé depuis les travaux pionniers menés entre 2020 et 2021. Lorsque Wissam Antoun et son équipe ont lancé les premiers modèles AraBERT, puis développé une version arabe de GPT-2 en réponse aux modèles multilingues de Google, ils défendaient déjà la nécessité d’un modèle centré exclusivement sur la langue arabe, sans dilution avec d’autres idiomes. Cette conviction s’est heurtée à un obstacle qui perdure aujourd’hui avec la même acuité : l’absence de données reflétant la diversité dialectale des pays arabes.
Les données en arabe standard moderne abondent relativement, mais les dialectes demeurent invisibles dans l’espace numérique ouvert. Cette carence ne relève pas d’un manque d’existence de ces contenus, mais de leur localisation. Les dialectes vivent sur les réseaux sociaux, dans les émissions télévisées, les interviews et les diffusions publiques, autant de contenus qui appartiennent aux sociétés de radiodiffusion publique ou aux entreprises privées. L’équipe de recherche, limitée en effectifs et en moyens, n’a pas pu accéder aux journaux des différents pays. Les journaux égyptiens intégrés au corpus ne reflétaient d’ailleurs pas l’arabe dialectal recherché, illustrant l’écart entre la langue écrite standardisée et les pratiques orales réelles.
Cette situation appelle une démarche de licenciement des données auprès de fournisseurs d’intelligence artificielle souverains, soulevant directement la question de la souveraineté numérique et de l’exploitation de ces ressources pour renforcer la culture et l’identité propres. Wissam Antoun a articulé cette ambition autour de trois niveaux distincts de souveraineté, constituant autant d’étapes progressives vers l’autonomie technologique.
Le premier niveau, qu’il juge le plus facilement atteignable, consiste simplement à posséder ses données et à contrôler leur traitement sur son propre territoire ou sous sa propre supervision. Cette étape fondamentale établit les bases d’une maîtrise minimale mais essentielle des ressources informationnelles.
Le deuxième niveau implique de posséder au moins le processus d’affinage des modèles, c’est-à-dire la capacité d’adapter des modèles fondamentaux open source aux besoins et dialectes locaux. Wissam Antoun a salué l’approche égyptienne qui illustre précisément cette démarche en modifiant des modèles existants pour y injecter l’histoire, la culture, la langue et les dialectes du pays. Cette étape présente l’avantage d’être relativement accessible car elle ne nécessite pas une puissance de calcul considérable, rendant possible sa mise en œuvre à l’échelle nationale.
Le troisième niveau représente le défi le plus complexe : posséder la création même du modèle fondamental. Le chercheur a rappelé qu’à ses débuts dans ce domaine, il travaillait sur des modèles de 1,5 milliard de paramètres, considérés aujourd’hui comme modestes alors qu’ils étaient jugés importants à l’époque. Passer à ce niveau de modèles fondamentaux représente un effort colossal qui doit être entrepris au moins à l’échelle d’un pays pour collecter les données nécessaires. L’acquisition des processeurs graphiques et de la puissance de calcul requise doit même se faire à l’échelle régionale, tant l’investissement est considérable et nécessite une prise de conscience collective.
Au-delà des infrastructures et des données, la question du talent occupe une place centrale dans cette équation. Wissam Antoun a souligné que la création de ces modèles, bien qu’étiquetée comme relevant de l’informatique, s’apparente davantage à une alchimie informatique. Le processus exige une expérimentation considérable, des millions d’échecs, et la capacité de se permettre ces tâtonnements pour progresser. Une fois qu’un talent a été formé, a appris de ces erreurs et s’est développé, sa rétention locale devient cruciale. Sans cela, le risque est grand de voir ce talent partir travailler ailleurs et faire bénéficier d’autres entités de l’investissement consenti dans sa formation, vidant ainsi la région de ses compétences les plus précieuses précisément au moment où elle en aurait le plus besoin pour construire sa souveraineté numérique.
L’article IA en langue arabe : un chantier freiné par la pénurie de données dialectales est apparu en premier sur Leconomiste Maghrebin.