bli://recherchev0.1
/ Recherche

Un agenda de recherche pour l'horizon long.

Les datasets sont la fondation. L'agenda de recherche, c'est ce qu'ils rendent possible : systèmes NLP, ASR, MT et TTS pour des langues qui n'ont aujourd'hui aucun modèle vraiment fonctionnel — tous publiés en open source.

/ 01 · Agenda

Quatre tracks, une direction.

NLPtrack 01

Traitement du langage naturel

Modèles de fondation, tokeniseurs et benchmarks adaptés à la morphologie des langues bantoues — y compris l'accord de classe nominale et les phénomènes tonals.

  • R&D tokeniseur
  • Analyseurs morphologiques
  • Benchmarks publics
ASRtrack 02

Reconnaissance automatique de la parole

Systèmes speech-to-text robustes à la variation dialectale, au code-switching avec le français et l'anglais, et aux ressources audio limitées disponibles aujourd'hui.

  • Corpus initiaux
  • Modèles acoustiques
  • Évaluation code-switching
MTtrack 03

Traduction automatique

Modèles de traduction ouverts entre langues bantoues et grandes langues européennes, avec corpus parallèles et suites d'évaluation partagées.

  • Corpus parallèles
  • Modèles de référence
  • Benchmarks style FLORES
TTStrack 04

Synthèse vocale

Synthèse vocale qui respecte le ton, la prononciation et la prosodie — avec des contributeurs vocaux natifs rémunérés et crédités.

  • Banques de voix
  • Modélisation tonale
  • Cadre contributeur vocal
/ 02 · Publications

En écriture.

Les premières publications sont en préparation. Les drafts seront partagés sur l'organisation GitHub à mesure qu'ils avancent.

2026
À venir

Un rapport de fondation sur l'état des langues bantoues dans le NLP moderne.

Rapport
2026
À venir

Lingala-001 : un corpus de base et une suite d'évaluation.

Article dataset
2027
Planifié

Stratégies de tokenisation pour la morphologie bantoue agglutinante.

Méthodes
/ 03 · Collaboration académique

Cherche partenaires universitaires, particulièrement en Afrique.

Nous construisons des relations de travail avec les départements de linguistique, les labos d'informatique et les groupes de recherche appliquée d'Afrique centrale et australe — et avec les chercheurs de la diaspora partout ailleurs. Si votre équipe travaille sur le NLP africain ou aimerait s'y mettre, on aimerait en discuter.