Un agenda de recherche pour l'horizon long.

Les datasets sont la fondation. L'agenda de recherche, c'est ce qu'ils rendent possible : systèmes NLP, ASR, MT et TTS pour des langues qui n'ont aujourd'hui aucun modèle vraiment fonctionnel — tous publiés en open source.

/ 01 · Agenda

Quatre tracks, une direction.

NLPtrack 01

Traitement du langage naturel

Modèles de fondation, tokeniseurs et benchmarks adaptés à la morphologie des langues bantoues — y compris l'accord de classe nominale et les phénomènes tonals.

R&D tokeniseur
Analyseurs morphologiques
Benchmarks publics

ASRtrack 02

Reconnaissance automatique de la parole

Systèmes speech-to-text robustes à la variation dialectale, au code-switching avec le français et l'anglais, et aux ressources audio limitées disponibles aujourd'hui.

Corpus initiaux
Modèles acoustiques
Évaluation code-switching

MTtrack 03

Traduction automatique

Modèles de traduction ouverts entre langues bantoues et grandes langues européennes, avec corpus parallèles et suites d'évaluation partagées.

Corpus parallèles
Modèles de référence
Benchmarks style FLORES

TTStrack 04

Synthèse vocale

Synthèse vocale qui respecte le ton, la prononciation et la prosodie — avec des contributeurs vocaux natifs rémunérés et crédités.

Banques de voix
Modélisation tonale
Cadre contributeur vocal

/ 02 · Publié

Livré, pas seulement prévu.

Notre premier modèle est sorti. D'autres suivront à mesure que les datasets mûrissent.

ASR · LIVE

BLI ASR 0

Reconnaissance automatique de la parole en lingala — Whisper large-v3 adapté avec LoRA, entraîné sur le corpus Waxal Lingala.

CER · normalisé

0.1703

Voir la page du modèle →

/ 03 · Publications

En écriture.

Les premières publications sont en préparation. Les drafts seront partagés sur l'organisation GitHub à mesure qu'ils avancent.

2026

À venir

Un rapport de fondation sur l'état des langues bantoues dans le NLP moderne.

Rapport

2026

À venir

Lingala-001 : un corpus de base et une suite d'évaluation.

Article dataset

2027

Planifié

Stratégies de tokenisation pour la morphologie bantoue agglutinante.

Méthodes

/ 04 · Collaboration académique

Cherche partenaires universitaires, particulièrement en Afrique.

Nous construisons des relations de travail avec les départements de linguistique, les labos d'informatique et les groupes de recherche appliquée d'Afrique centrale et australe — et avec les chercheurs de la diaspora partout ailleurs. Si votre équipe travaille sur le NLP africain ou aimerait s'y mettre, on aimerait en discuter.

Nous écrire pour la recherche →