bli://datasetsouvertsv0.1
/ Datasets ouverts

La couche de données. Publique, documentée, réutilisable.

Chaque release vit sur Hugging Face sous BantuLanguagesInitiative. Code source et pipelines sur GitHub. Standards documentés et appliqués.

Hébergé sur
01
Hugging Face
Licence par défaut
02
CC-BY-4.0
Code
03
GitHub · Open
Première release
04
2026
/ 01 · Catalogue

Ce qui est en pipeline.

Voir sur Hugging Face ↗

lingala-corpus-base

○ en cours

Premier corpus textuel ouvert du lingala contemporain, issu de sources publiques, de diffusions et de contributions communautaires.

Langue
Lingala
Type · Taille
texte ·
Ouvrir ↗

lingala-asr-seed

○ prévu

Corpus vocal initial pour amorcer la reconnaissance automatique de la parole en lingala.

Langue
Lingala
Type · Taille
audio + transcription ·
Ouvrir ↗

swahili-french-parallel

○ prévu

Phrases parallèles bilingues pour l'entraînement et l'évaluation de la traduction automatique.

Langue
Swahili / Français
Type · Taille
corpus parallèle ·
Ouvrir ↗

kikongo-lexicon-base

○ prévu

Base lexicale fondamentale avec annotations phonétiques et morphologiques.

Langue
Kikongo
Type · Taille
lexique ·
Ouvrir ↗
/ 02 · Comment contribuer

Standards de qualité.

Mieux vaut un dataset bien documenté que dix scrapings inutilisables. Chaque contribution est tenue à la même barre.

01

Documenter la source.

Chaque dataset est livré avec une data sheet : provenance, méthode de collecte, consentement, biais connus.

02

Le rendre reproductible.

Les scripts de nettoyage et de traitement vivent dans le repo public. N'importe qui peut rejouer le pipeline.

03

Licencier pour la réutilisation.

Par défaut, CC-BY-4.0. Si une licence plus restrictive est nécessaire, on l'explique sur la dataset card.

04

Créditer les contributeurs.

Les contributeurs sont nommés sur la page du dataset. Les communautés qui fournissent des données sont consultées et reconnues.