Présentation

Le Corpus Bambara de Référence est un corpus massif de textes annotés en langue bambara. Cette langue du groupe mandingue, famille linguistique Mandé, macro-famille Niger-Congo est parlée par 12 à 14 millions de locuteurs en République du Mali.

Lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots, dont environ 100.000 dans le sous-corpus désambiguïsé.
Ce chiffre progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure.
Notre objectif est d’atteindre 7 à 10 millions de mots, dont environ 1 million dans le sous-corpus désambiguisé.

Composition du corpus

Le Corpus est composé de textes de genres différents, publiés (périodiques, belles-lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses etc.) et non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs etc.) dont les auteurs proviennent de zones dialectales différentes.

Cette diversité permet de penser que le Corpus, en se développant, représentera plus fidèlement le bambara standard dans sa diversité.

Mise à jour de décembre 2013

Le volume total du corpus a atteint 1 681 154 mots.

Sous-corpus non-désambiguïsé:

Le sous-corpus non-désambiguïsé comporte
1 452 323 mots. De nouveaux textes y ont été ajoutés:

  • Denw ka balo. DNAFLA, 455 mots.
  • Sar, Mamadu. Poyi ko di sa? [Bamakɔ,] 1977, 8369 mots.
Périodiques :
  • Kolonkisɛ 10, 1998, 3770 mots
  • Saheli 4, 1994, 6719 mots

sous-corpus desambiguïsé:

Le sous-corpus desambiguïsé comporte 228 831 mots. Un nouveau texte y a été ajouté :

  • Görög-Karady, Veronika; Meyer, Gérard. Contes bambara. Mali et Sénégal Oriental. Paris, Fleuve et Flamme, 1985, 174 p., 11733 mots

Anciennes mises à jour

Veuillez cliquer ici pour accéder à l’historique des mises à jour.