Cinq cents langues. Une famille.
La famille des langues bantoues est l'une des plus vastes au monde, étendue du Cameroun à l'Afrique du Sud sur des millénaires de migrations. Nous commençons par les plus parlées et les plus mal servies, puis nous étendons.
- Famille 01
- Bantoue
- Phylum 02
- Niger-Congo
- Langues 03
- 500+
- Locuteurs 04
- 350M+
Parlées de l'Atlantique à l'océan Indien.
Les langues bantoues sont apparues dans l'actuel Cameroun et le Nigeria il y a environ 3 000 à 4 000 ans. La grande expansion bantoue les a portées vers le sud et l'est, où elles ont évolué en plus de 500 langues distinctes, parlées aujourd'hui à travers l'Afrique centrale, orientale et australe.
Malgré leur portée, seul le swahili bénéficie d'une représentation significative dans les datasets NLP modernes. Le reste — lingala, kikongo, tshiluba, shona, sesotho et des centaines d'autres — est fonctionnellement absent.
Où nous en sommes, où nous allons.
La feuille de route est itérative. De nouvelles langues sont priorisées au fur et à mesure que les contributeurs et partenaires rejoignent.
Swahili
Kikongo
Tshiluba
Kinyarwanda
Shona
Zulu
Luganda
Sesotho
Système à sept voyelles (i, e, ɛ, a, ɔ, o, u). Tonal : tons hauts et bas distinguent le sens. Clusters consonantiques limités.
Agglutinante. Système de classes nominales caractéristique des langues bantoues, avec préfixes singulier/pluriel appariés et accord de classe sur verbes et adjectifs.
Alphabet latin, plusieurs conventions en usage. Le marquage tonal est inconstant à l'écrit du quotidien — un défi connu pour les systèmes ASR et TTS.
Corpus de qualité rares, code-switching avec le français, variation dialectale entre Kinshasa et le lingala fluvial, données vocales limitées.