Vydrin, Valentin & Maslinsky, Kirill & Méric, Jean Jacques & Rovenchak, Andrij. (2011–2018) Corpus Bambara de Référence.

Le Corpus Bambara de Référence fait partie d'un macro-projet Corpora Mandeica qui regroupe des corpus de plusieurs langues mandé, c’est un corpus massif de textes annotés en langue bambara. Cette langue du groupe mandingue, famille linguistique Mandé, macro-famille Niger-Congo est parlée par 12 à 14 millions de locuteurs en République du Mali. Le Corpus se compose des textes des genres différents, publiés (périodiques, belles lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses…) ou non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs…) dont les auteurs proviennent des zones dialectales différentes. Cela permet de penser que le Corpus, avec sa croissance, représentera toujours mieux le bambara standard dans sa diversité, tout en tenant compte des origines différentes de ses locuteurs.

Lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots, dont environ 28.000 dans le sous-corpus désambiguïsé. Tout le Corpus comporte l'annotation morphologique automatique (les marques des parties de discours, les gloses françaises et l'analyse des formes dérivées et composées), et dans le sous-corpus désambiguïsé, l'homonymie produite au cours de l'annotation morphologique automatique est éliminée manuellement. A partir du février 2018, le sous corpus non-désambiguïsé est traité par un logiciel de désambiguïsation partiel basé sur une base de données des expressions figées bambara créée par Jean Jacques Méric, ce qui permet d'éliminer plus d'une moitié des analyses homonymiques.

Le volume du Corpus progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure. Notre objectif est d’atteindre 7 à 10 millions de mots. En avril 2018, on a dépassé le seuil d'1 million de mots dans le sous-corpus désambiguisé qui avait été fixé au début du projet.

En avril 2018, un sous-corpus annoté syntaxiquement a été publié (au moment de publication il comportait 11381 mots constituant 956 phrases) où, à part de l'analyse morphologique, la structure syntaxique des textes est présentée. L'annotation est effectuée dans le format d'Universal Dependencies. Le sous-corpus syntaxiquement annoté est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbama UD).
Au même moment, la publication d'un corpus parallèle bambara-français et français-bambara a eu lieu ; sa dimension initiale a été 99 163 mots dans la partie bambara et 116 177 mots dans la partie équivalent française. Dans ce corpus sont inclus des textes existant dans les deux langues. Il peut s'agit des textes originaux bambara traduits en français, ou des textes originaux français traduits en bambara ; il y a aussi des textes traduits d'une langue tierce indépendamment en bambara et en français, comme le Coran. Des segments (le plus souvent, des phrases) d'un texte bambara sont mis en correspondance (« synchronisés ») aux segments du texte français. Le corpus parallèle est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbamafara, pour la recherche par une forme bambara, ou Accès au corpus – Corpus – Corfarabama, pour la recherche par une forme française).

Mise à jour, le 15 novembre 2022

Mise à jour du dictionnaire Bamadaba :

L’orthographe standardisée

Une nouvelle version du dictionnaire Bamadaba vient d’être mis en ligne, orientée vers la norme orthographique.

Cette version inclut toutes les corrections et additions liées aux travaux menés depuis la dernière version il y a deux ans : travaux de recherche sur la langue, travaux alimentant le Corpus de référence Bambara, etc.

Parmi ces chantiers, l'analyse des fréquences d'emploi de plus de 4.000 mots et de leurs ~6.000 variantes a conduit à des propositions de normalisation ; celles-ci ont été discutées lors d'un séminaire de trois semaines à Bamako.

Cette version, le dictionnaire orthographique Bamadaba, intègre les conclusions de ce séminaire.

Cette version de Bamadabe représente du coup un dictionnaire orthographique bambara. Elle intègre les résultats de l'analyse statistique des occurrences des variantes de lexèmes dans le Corpus Bambara de Référence, fait par Valentin Vydrin et Jean-Jacques Méric, finalisée à l'Atelier sur le dictionnaire orthographique bambara (Bamako, le 28 mai - 17 juin 2022, financé par le projet de Lacuna Fund : Machine Learning and Automated Speech Recognition Dataset Development for Manding Languages). Pour chaque lexème ayant des variantes graphiques, une seule variante a été sélectionnée comme "récommandée". Certains lexèmes peuvent avoir aussi des "variantes tolérées" ; ces variantes apparaissent en gris, avec les renvois aux formes « récommandées ». Toutes les autres variantes (non-"récommandées" et non-"tolérées") sont présentes dans Bamadaba, mais elles sont barrées ; ces variantes sont "à éviter". Grâce à ce triage des variantes phonétiques, Bamadaba peut être utilisé comme un dictionnaire prescriptif, et en même temps, il donne l'information sur l'existence des formes non-standards.

Le contenu multimedia (audios, images, vidéos) de cette version a été plus que doublé pour atteindre près de 2.000 illustrations.

Anciennes mises à jour

Veuillez cliquer ici pour accéder à l’historique des mises à jour.