bli://leslanguesquenousservonsv0.1
/ Les langues que nous servons

Cinq cents langues. Une famille.

La famille des langues bantoues est l'une des plus vastes au monde, étendue du Cameroun à l'Afrique du Sud sur des millénaires de migrations. Nous commençons par les plus parlées et les plus mal servies, puis nous étendons.

Famille
01
Bantoue
Phylum
02
Niger-Congo
Langues
03
500+
Locuteurs
04
350M+
/ 01 · Distribution

Parlées de l'Atlantique à l'océan Indien.

Les langues bantoues sont apparues dans l'actuel Cameroun et le Nigeria il y a environ 3 000 à 4 000 ans. La grande expansion bantoue les a portées vers le sud et l'est, où elles ont évolué en plus de 500 langues distinctes, parlées aujourd'hui à travers l'Afrique centrale, orientale et australe.

Malgré leur portée, seul le swahili bénéficie d'une représentation significative dans les datasets NLP modernes. Le reste — lingala, kikongo, tshiluba, shona, sesotho et des centaines d'autres — est fonctionnellement absent.

Régions des langues bantoues · approximatifLingala
/ 02 · Langues couvertes

Où nous en sommes, où nous allons.

La feuille de route est itérative. De nouvelles langues sont priorisées au fur et à mesure que les contributeurs et partenaires rejoignent.

Lingala

ISO 639-3 · lin
En cours
RégionRDC · République du Congo
Locuteurs70M+
Première langue en publication

Swahili

ISO 639-3 · swa
Planifié
RégionAfrique orientale · Lingua franca
Locuteurs200M+
Langue bantoue la plus parlée

Kikongo

ISO 639-3 · kon
Planifié
RégionRDC · Angola · Congo
Locuteurs8M+

Tshiluba

ISO 639-3 · lua
Planifié
RégionRDC (Kasaï)
Locuteurs6M+

Kinyarwanda

ISO 639-3 · kin
Planifié
RégionRwanda · RDC
Locuteurs12M+

Shona

ISO 639-3 · sna
Planifié
RégionZimbabwe · Mozambique
Locuteurs10M+

Zulu

ISO 639-3 · zul
Planifié
RégionAfrique du Sud
Locuteurs12M+

Luganda

ISO 639-3 · lug
Planifié
RégionOuganda
Locuteurs10M+

Sesotho

ISO 639-3 · sot
Planifié
RégionLesotho · Afrique du Sud
Locuteurs6M+
Première langue

Gros plan sur le lingala.

Ouvrir le dataset sur Hugging Face ↗
Phonologie

Système à sept voyelles (i, e, ɛ, a, ɔ, o, u). Tonal : tons hauts et bas distinguent le sens. Clusters consonantiques limités.

Morphologie

Agglutinante. Système de classes nominales caractéristique des langues bantoues, avec préfixes singulier/pluriel appariés et accord de classe sur verbes et adjectifs.

Orthographe

Alphabet latin, plusieurs conventions en usage. Le marquage tonal est inconstant à l'écrit du quotidien — un défi connu pour les systèmes ASR et TTS.

Défis NLP

Corpus de qualité rares, code-switching avec le français, variation dialectale entre Kinshasa et le lingala fluvial, données vocales limitées.