initiative · livev0.1 · phase fondationa3f9·c1b

Mbote.Construire l'infrastructure IApour 350M locuteurs bantous.

Datasets ouverts, modèles NLP/ASR/TTS et outils linguistiques pour les 500+ langues bantoues parlées en Afrique centrale, orientale et australe — en commençant par le lingala.

langues
500+
dans la famille
locuteurs
350M
à travers l'afrique
datasets
1+
en publication
bli://datasets/lingala/specimen.json live
specimen / 001iso 639-3 · lin
Mbote
[mboˈte] · Lingala · CG · CD

famille
Bantou (Niger-Congo)
locuteurs
~350 millions
langues
500+
licence
CC-BY-4.0

lingala-corpus-base62%
lingala-asr-seed14%
swahili-fr-parallel05%
huggingface.co/BantuLanguagesInitiativeouvrir ↗
↑ specimen système live
feuille-de-route.feed · auto-refresh
[lin]Lingala70M locuteurs○ en cours
/
[swa]Swahili200M locuteurs· prévu
/
[kon]Kikongo8M locuteurs· prévu
/
[lua]Tshiluba6M locuteurs· prévu
/
[kin]Kinyarwanda12M locuteurs· prévu
/
[sna]Shona10M locuteurs· prévu
/
[zul]Zulu12M locuteurs· prévu
/
[lug]Luganda10M locuteurs· prévu
/
[sot]Sesotho6M locuteurs· prévu
/
[xho]Xhosa8M locuteurs· prévu
/
[nya]Chichewa12M locuteurs· prévu
/
[tso]Tsonga4M locuteurs· prévu
/
[lin]Lingala70M locuteurs○ en cours
/
[swa]Swahili200M locuteurs· prévu
/
[kon]Kikongo8M locuteurs· prévu
/
[lua]Tshiluba6M locuteurs· prévu
/
[kin]Kinyarwanda12M locuteurs· prévu
/
[sna]Shona10M locuteurs· prévu
/
[zul]Zulu12M locuteurs· prévu
/
[lug]Luganda10M locuteurs· prévu
/
[sot]Sesotho6M locuteurs· prévu
/
[xho]Xhosa8M locuteurs· prévu
/
[nya]Chichewa12M locuteurs· prévu
/
[tso]Tsonga4M locuteurs· prévu
/
scope.metrics · v2026.q2dernière sync · live
/ 02 · l'absence, en chiffres

L'échelle d'une absence.

Des centaines de millions de locuteurs. Quasi-aucune représentation dans les grands systèmes d'IA. Les deux chiffres sont réels.

locuteurs01/4
0M+
Locuteurs des langues bantoues
afrique centrale · orientale · australe
langues02/4
0+
Langues bantoues distinctes
lingala · swahili · zulu · shona · …
datasets03/4
0 / many
Datasets en publication
premières releases en 2026
secteurs04/4
0
Secteurs d'impact
fin · santé · édu · gouv · tec
/ 03 · pourquoi ça compte

Tout un continent de voix — absent de la machine.

Les plus grands modèles de langage au monde sont entraînés sur des données massivement anglaises, mandarines, et issues d'une poignée de langues européennes. Quand 350 millions de personnes qui parlent une langue bantoue tentent d'utiliser un assistant vocal, un chatbot, un moteur de recherche — les systèmes ne font même pas semblant d'écouter.

Ce n'est pas un caprice de la technologie. C'est une question de quelles voix ont été jugées dignes d'être enregistrées. Nous existons pour changer cette réponse — pas en agitant des slogans sur l'« IA pour l'Afrique », mais en livrant le travail patient et précis qui fait vraiment l'infrastructure : datasets propres, pipelines reproductibles, benchmarks publics.

Si on ne peut pas l'entraîner dessus, l'évaluer, et l'améliorer en open source — ça n'existe pas pour l'IA. C'est ce qu'on change.

$ tree --bantu --depth=2glottolog 5.x
proto-bantu/
├─ northwest/ [3]
├─ duala.lang
├─ bubi.lang
└─ yaoundé.lang
├─ central/ [3]
├─ lingala.lang← active
├─ kikongo.lang
└─ tshiluba.lang
├─ east/ [3]
├─ swahili.lang
├─ kikuyu.lang
└─ luganda.lang
└─ southern/ [4]
├─ zulu.lang
├─ xhosa.lang
├─ shona.lang
└─ sesotho.lang
$ _
famille · niger-congo · phylumtotal ~500 langues
/ 04 · pipeline d'infrastructure

D'une voix enregistrée à Kinshasa à un dataset ouvert sur lequel le monde peut entraîner.

01étape

Collecter

Textes, audios, transcriptions. Sourcés auprès des communautés, archives, médias et partenaires académiques.

texteaudiométadonnées
02étape

Traiter

Nettoyage, normalisation, annotation, alignement. Pipelines reproductibles, scripts publics, versionnés.

pipelineQAalignement
03étape

Publier

Release ouverte sur Hugging Face, avec model cards, licence, data sheets et guide de contribution.

HF datasetsCC-BY-4.0
04étape

Intégrer

Modèles NLP, ASR, TTS de référence. APIs, SDKs et partenariats avec les builders du continent.

modèlesAPIoutils
/ 05 · secteurs d'impact

Ce que des modèles de langue qui marchent rendent possible.

L'infrastructure est fondamentale. Les applications qu'elle rend possibles touchent toutes les sphères de la vie publique et économique.

FIN01 / 6

Banque & Finance

KYC vocal, interfaces mobile money et chatbots dans les langues que les clients parlent vraiment.

Cas d'usage
HLT02 / 6

Santé

Assistants médicaux vocaux, traduction de diagnostics, interfaces patient accessibles dans les zones reculées.

Cas d'usage
EDU03 / 6

Éducation

Outils d'apprentissage en langue maternelle, applis d'alphabétisation, ressources augmentées pour les enseignants du primaire.

Cas d'usage
GOV04 / 6

Gouvernance

Services publics accessibles dans les langues locales : traduction officielle, agents IA citoyens.

Cas d'usage
TEC05 / 6

Tech & Startups

APIs et SDKs prêts à l'emploi pour les builders africains qui livrent des applis localisées.

Cas d'usage
CUL06 / 6

Médias & Culture

Sous-titrage, archivage, préservation linguistique. Outils pour journalistes, diffuseurs et conteurs.

Cas d'usage
/ 06 · première langue

Pourquoi nous commençons par le lingala.

Le lingala est la lingua franca de Kinshasa — ville de quinze millions d'habitants et l'une des plus dynamiques au monde — et de la majeure partie du bassin du Congo. Il est chanté à travers l'Afrique, diffusé sur des dizaines de radios, et utilisé chaque jour dans les marchés, les bureaux, les écoles et les ministères.

Il est aussi fonctionnellement invisible pour les systèmes d'IA qui médient de plus en plus la banque, l'éducation et la santé. Commencer ici est un choix de poids : une grande langue africaine, une riche tradition orale et écrite, et un écart mesurable que nous pouvons combler.

Fiche linguistiqueLingala
70M
locuteurs en Afrique centrale
Locuteurs
70 millions+
Statut
Langue officielle en RDC et au Congo
Famille
Bantoue / Niger-Congo
Code (ISO 639-3)
lin
Couverture NLP
Quasi-nulle dans les grands LLMs
Échantillon

« Mbote na yo, ndenge nini ozali ? »

Bonjour, comment vas-tu ? · [mbote na jo, ndenge nini oˈzali]

/ 07 · system.activity

Construit en public. Documenté en public.

changelog complet →
2026.06
RELEASE

lingala-corpus-base · v0.1

Premier corpus textuel ouvert du lingala en preview. Scripts de nettoyage et de tokenisation publiés en parallèle.

ref ↗
2026.05
INFRA

Mise en ligne de la scaffolding du pipeline

Pipelines de traitement reproductibles + CI sur l'organisation GitHub publique. Guide contributeur rédigé.

ref ↗
2026.04
MILESTONE

Initiative fondée

BantuLanguages Initiative officiellement créée. Hubs fondateurs à Brazzaville et Kinshasa.

ref ↗
2026.Q3
RESEARCH

Rapport État-du-NLP-bantou (en rédaction)

Rapport public de référence cartographiant l'écart entre la couverture LLM actuelle et la famille des langues bantoues.

ref ↗
/ 08 · rejoindre

Faites partie
de la fondation.

Chercheurs, développeurs, linguistes, fondations, ministères — nous construisons une communauté aussi multilingue que les langues qu'elle sert. Recevez les prochaines releases, les appels à contribution et les notes de recherche par email.

Pas plus d'un email par mois. Aucun tracking, aucune revente — c'est une association à but non lucratif open source.