Souveraineté numérique et culturelle : le défi des IA arabes
Dans une tribune publiée par Nature Middle East, Karim Derouich, chercheur au Qatar Computing Research Institute, alerte sur les risques culturels et technologiques de la dépendance aux intelligences artificielles occidentales.
Alors que les géants technologiques américains et chinois se livrent une guerre sans merci dans le domaine de l’intelligence artificielle générative, le monde arabe prend conscience des enjeux de souveraineté liés à cette révolution technologique. Dans une analyse publiée par Nature Middle East, Karim Derouich, membre de l’équipe Fanar du Qatar Computing Research Institute (QCRI), plaide pour le développement urgent de modèles linguistiques arabes capables de concurrencer les solutions internationales.
Un impératif culturel et stratégique
Le chercheur met en garde contre les risques d’une dépendance excessive envers des modèles comme GPT-4 d’OpenAI ou Gemini de Google, entraînés majoritairement sur des données en anglais et imprégnés de valeurs culturelles occidentales. « Cet excès de dépendance envers des modèles d’IA linguistiques qui ne reflètent pas nécessairement les valeurs et la culture arabes dépasse la simple question technique pour devenir une question de souveraineté culturelle et technologique », affirme-t-il.
La question revêt une importance cruciale alors que ces technologies influencent progressivement les perceptions et les idées des utilisateurs. Derouich souligne que « les réponses fournies par les IA internationales restent souvent ambiguës ou inadaptées lorsqu’il s’agit de sujets touchant aux spécificités culturelles arabes », comme les relations sociales ou certaines questions politiques.
Des initiatives prometteuses mais des obstacles majeurs
Plusieurs pays arabes ont déjà lancé des projets ambitieux pour développer leurs propres modèles linguistiques. Les Émirats arabes unis ont présenté Jais, l’Arabie saoudite a développé Ace (علام), tandis que le Qatar, via le QCRI, travaille sur le modèle Fanar. Ces initiatives s’inscrivent dans une « vision stratégique de localisation de la technologie et de renforcement de l’identité culturelle et de l’indépendance technologique ».
Cependant, ces projets se heurtent à d’importants défis techniques et financiers. La rareté du contenu arabe de haute qualité sur internet constitue un obstacle majeur. « Malgré la collecte d’un demi-milliard de mots arabes pour entraîner le modèle Fanar, ce volume reste limité comparé aux billions de mots utilisés pour les modèles internationaux », précise le chercheur.
Le coût exorbitant de l’entraînement de ces modèles représente un autre défi de taille. Derouich révèle que « l’apprentissage d’un modèle de 7 milliards de paramètres nécessite l’utilisation de 220 unités de traitement GPU H100 pendant plus d’un mois », des ressources difficilement accessibles pour de nombreuses institutions de recherche de la région.
Une mobilisation collective nécessaire
Face à ces défis, le chercheur appelle à une collaboration régionale et internationale renforcée. « La solution ne peut venir d’un seul acteur », estime-t-il, plaidant pour un investissement accru des institutions académiques dans la recherche sur le traitement de la langue arabe.
Les gouvernements sont encouragés à soutenir financièrement ces projets stratégiques et à développer les infrastructures nécessaires.
Les entreprises privées et les startups ont quant à elles un rôle crucial à jouer en « adoptant ces modèles linguistiques arabes pour développer des applications et services répondant aux besoins de la société arabe ».
Enfin, Derouich insiste sur l’importance de la création d’un contenu numérique arabe de qualité, appelant les institutions culturelles et médiatiques à « fournir un contenu arabe numérique diversifié et de haute qualité qui peut être utilisé pour former ces modèles ».
Le développement de modèles linguistiques arabes performants apparaît ainsi comme une condition indispensable pour « garantir la participation effective du monde arabe dans la formation de l’avenir de l’intelligence artificielle », tout en préservant sa richesse culturelle et linguistique.