La couche de données. Publique, documentée, réutilisable.

Chaque release vit sur Hugging Face sous BantuLanguagesInitiative. Code source et pipelines sur GitHub. Standards documentés et appliqués.

Hébergé sur: Hugging Face
Licence par défaut: CC-BY-4.0
Code: GitHub · Open
Première release: 2026

/ 01 · Catalogue

Ce qui est en pipeline.

Voir sur Hugging Face ↗

lingala-corpus-base

○ en cours

Premier corpus textuel ouvert du lingala contemporain, issu de sources publiques, de diffusions et de contributions communautaires.

Langue

Lingala

Type · Taille

texte · —

Ouvrir ↗

lingala-asr-seed

○ prévu

Corpus vocal initial pour amorcer la reconnaissance automatique de la parole en lingala.

Langue

Lingala

Type · Taille

audio + transcription · —

Ouvrir ↗

swahili-french-parallel

○ prévu

Phrases parallèles bilingues pour l'entraînement et l'évaluation de la traduction automatique.

Langue

Swahili / Français

Type · Taille

corpus parallèle · —

Ouvrir ↗

kikongo-lexicon-base

○ prévu

Base lexicale fondamentale avec annotations phonétiques et morphologiques.

Langue

Kikongo

Type · Taille

lexique · —

Ouvrir ↗

/ 02 · Comment contribuer

Standards de qualité.

Mieux vaut un dataset bien documenté que dix scrapings inutilisables. Chaque contribution est tenue à la même barre.

GitHub · Contribuer ↗Proposer un dataset

Documenter la source.

Chaque dataset est livré avec une data sheet : provenance, méthode de collecte, consentement, biais connus.

Le rendre reproductible.

Les scripts de nettoyage et de traitement vivent dans le repo public. N'importe qui peut rejouer le pipeline.

Licencier pour la réutilisation.

Par défaut, CC-BY-4.0. Si une licence plus restrictive est nécessaire, on l'explique sur la dataset card.

Créditer les contributeurs.

Les contributeurs sont nommés sur la page du dataset. Les communautés qui fournissent des données sont consultées et reconnues.