lingala-corpus-base
○ en coursPremier corpus textuel ouvert du lingala contemporain, issu de sources publiques, de diffusions et de contributions communautaires.
Chaque release vit sur Hugging Face sous BantuLanguagesInitiative. Code source et pipelines sur GitHub. Standards documentés et appliqués.
Premier corpus textuel ouvert du lingala contemporain, issu de sources publiques, de diffusions et de contributions communautaires.
Corpus vocal initial pour amorcer la reconnaissance automatique de la parole en lingala.
Phrases parallèles bilingues pour l'entraînement et l'évaluation de la traduction automatique.
Base lexicale fondamentale avec annotations phonétiques et morphologiques.
Mieux vaut un dataset bien documenté que dix scrapings inutilisables. Chaque contribution est tenue à la même barre.
Chaque dataset est livré avec une data sheet : provenance, méthode de collecte, consentement, biais connus.
Les scripts de nettoyage et de traitement vivent dans le repo public. N'importe qui peut rejouer le pipeline.
Par défaut, CC-BY-4.0. Si une licence plus restrictive est nécessaire, on l'explique sur la dataset card.
Les contributeurs sont nommés sur la page du dataset. Les communautés qui fournissent des données sont consultées et reconnues.