Un agenda de recherche pour l'horizon long.
Les datasets sont la fondation. L'agenda de recherche, c'est ce qu'ils rendent possible : systèmes NLP, ASR, MT et TTS pour des langues qui n'ont aujourd'hui aucun modèle vraiment fonctionnel — tous publiés en open source.
Quatre tracks, une direction.
Traitement du langage naturel
Modèles de fondation, tokeniseurs et benchmarks adaptés à la morphologie des langues bantoues — y compris l'accord de classe nominale et les phénomènes tonals.
- R&D tokeniseur
- Analyseurs morphologiques
- Benchmarks publics
Reconnaissance automatique de la parole
Systèmes speech-to-text robustes à la variation dialectale, au code-switching avec le français et l'anglais, et aux ressources audio limitées disponibles aujourd'hui.
- Corpus initiaux
- Modèles acoustiques
- Évaluation code-switching
Traduction automatique
Modèles de traduction ouverts entre langues bantoues et grandes langues européennes, avec corpus parallèles et suites d'évaluation partagées.
- Corpus parallèles
- Modèles de référence
- Benchmarks style FLORES
Synthèse vocale
Synthèse vocale qui respecte le ton, la prononciation et la prosodie — avec des contributeurs vocaux natifs rémunérés et crédités.
- Banques de voix
- Modélisation tonale
- Cadre contributeur vocal
En écriture.
Les premières publications sont en préparation. Les drafts seront partagés sur l'organisation GitHub à mesure qu'ils avancent.
Lingala-001 : un corpus de base et une suite d'évaluation.
Article datasetStratégies de tokenisation pour la morphologie bantoue agglutinante.
MéthodesCherche partenaires universitaires, particulièrement en Afrique.
Nous construisons des relations de travail avec les départements de linguistique, les labos d'informatique et les groupes de recherche appliquée d'Afrique centrale et australe — et avec les chercheurs de la diaspora partout ailleurs. Si votre équipe travaille sur le NLP africain ou aimerait s'y mettre, on aimerait en discuter.