Vydrin, Valentin & Maslinsky, Kirill & Méric, Jean Jacques & Rovenchak, Andrij. (2011–2018) Corpus Bambara de Référence.

Le Corpus Bambara de Référence fait partie d'un macro-projet Corpora Mandeica qui regroupe des corpus de plusieurs langues mandé, c’est un corpus massif de textes annotés en langue bambara. Cette langue du groupe mandingue, famille linguistique Mandé, macro-famille Niger-Congo est parlée par 12 à 14 millions de locuteurs en République du Mali. Le Corpus se compose des textes des genres différents, publiés (périodiques, belles lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses…) ou non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs…) dont les auteurs proviennent des zones dialectales différentes. Cela permet de penser que le Corpus, avec sa croissance, représentera toujours mieux le bambara standard dans sa diversité, tout en tenant compte des origines différentes de ses locuteurs.

Lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots, dont environ 28.000 dans le sous-corpus désambiguïsé. Tout le Corpus comporte l'annotation morphologique automatique (les marques des parties de discours, les gloses françaises et l'analyse des formes dérivées et composées), et dans le sous-corpus désambiguïsé, l'homonymie produite au cours de l'annotation morphologique automatique est éliminée manuellement. A partir du février 2018, le sous corpus non-désambiguïsé est traité par un logiciel de désambiguïsation partiel basé sur une base de données des expressions figées bambara créée par Jean Jacques Méric, ce qui permet d'éliminer plus d'une moitié des analyses homonymiques.

Le volume du Corpus progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure. Notre objectif est d’atteindre 7 à 10 millions de mots. En avril 2018, on a dépassé le seuil d'1 million de mots dans le sous-corpus désambiguisé qui avait été fixé au début du projet.

En avril 2018, un sous-corpus annoté syntaxiquement a été publié (au moment de publication il comportait 11381 mots constituant 956 phrases) où, à part de l'analyse morphologique, la structure syntaxique des textes est présentée. L'annotation est effectuée dans le format d'Universal Dependencies. Le sous-corpus syntaxiquement annoté est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbama UD).
Au même moment, la publication d'un corpus parallèle bambara-français et français-bambara a eu lieu ; sa dimension initiale a été 99 163 mots dans la partie bambara et 116 177 mots dans la partie équivalent française. Dans ce corpus sont inclus des textes existant dans les deux langues. Il peut s'agit des textes originaux bambara traduits en français, ou des textes originaux français traduits en bambara ; il y a aussi des textes traduits d'une langue tierce indépendamment en bambara et en français, comme le Coran. Des segments (le plus souvent, des phrases) d'un texte bambara sont mis en correspondance (« synchronisés ») aux segments du texte français. Le corpus parallèle est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbamafara, pour la recherche par une forme bambara, ou Accès au corpus – Corpus – Corfarabama, pour la recherche par une forme française).

Mise à jour, le 18 mai 2023

Après la mise à jour du Corpus Bambara de Référence le 3 mai 2023, les données numériques sont comme suit :

Volume total du corpus : 11 945 742 mots,
Dont le sous-corpus désambiguïsé : 2 038 277 mots.
Le corpus parallèle bambara-français : 839 074 mots (66 088 phrases) dans la partie bambara, 860 355 mots (63 398 phrases) dans la partie française.
Le corpus parallèle bambara-français ajusté : 201,090 mots, 15 692 phrases.
Le sous-corpus bambara annoté syntaxiquement : 13,526 mots, 1155 phrases.
Depuis la dernière mise à jour, des nombreux textes ont été intégrés dans le corpus désambiguïsé. Grâce à une subvention de Lacuna Fund (une initiative du Rockefeller Foundation, Google.org et Canada’s International Development Research Centre), un effort particulier a été fait pour développer le Corpus parallèle, ce qui a permis de l’augmenter considérablement. D’autre part, un « sous corpus parallèle ajusté » a été développé. Il s’agit soit des traductions françaises des textes bambara faites par les membres de notre équipe (surtout Jean-Jacques Méric et Sékou Coulibaly), soit des variantes des textes français édités de la façon à ce qu’ils deviennent plus proches des textes bambara correspondants (la segmentation en phrases, les traductions plus directes…).
Une autre innovation consiste à passer à une nouvelle version de l’interface de recherche NoSketchEngine qui a beaucoup d’avantages par rapport à l’ancienne version. Nous espérons que les utilisateurs pourront s’habituer assez vite à cette nouvelle interface, et qu’ils vont l’apprécier.

Des nouveaux textes ont été ajoutés au sous-corpus désambiguïsé :

  • Balo, Massama. Daa Monson ni Ɲɛnama. Traduit par Dramé, Tieblé; Samaké, Raymond Paul. Bamako: École Normale Supérieure, 1979, 9512 mots.
  • Bambéra, Taïrou. Faamanjè ni Faantannjè. In : Annik Thoyer (éd.). Le riche et le pauvre et autres contes bamanan du Mali. Paris : L’Harmattan, 1997, pp. 11-89., 13178 mots.
  • Camara, Moïse. Textes d’apprentissage du bambara pour l'INALCO, 2011. 2640 mots.
  • Danba, Fanta. Miniyanba. Bärenreiter-Musicaphon – BM 30 L 2506, 1970. 351 mots.
  • Diakité, Maliki. Famori et sa mère sorcière. Paris: l’Harmattan, 2000, 2475 mots.
  • Diallo, Youssoufou; Doumbia, Amadou Tamba; Dumestre, Gérard; Haïdara, Mamadou-Lamine; Konta, Mahamadou; Niakaté, Mamadou; Simpara, Sidiki; Traoré, Samba. Bamanankan mabɛn (ka ɲɛsin karamɔgɔw ma). Bamako : Université de Bamako - Université d'Oslo, 2006, 199 p. Ɲɛbila, chapitres 1-16, 13547 mots.
  • Diarra, Tiéman. Chants à l'occasion de la circoncision et de l'excision dans le Beledugu - Mali: Idéologie, cris oedipiens, voix ou voies de la sacralité? 141 p., 5580 mots.
  • Dukure & Duguet, Vincent. Waati nataw n'a miiriya gɛlɛnw. 361 mots.
  • Dumestre, Gérard & Kesteloot, Lylian. La prise de Djonkoloni. Paris : Classiques Africaines, 1975, 183 p., 15088 mots.
  • Fané, Noumouba. La pêche de Fabaly: marigot sacré de Farako. Bamako : École Normale Supérieure, 1980, 149 p. 1961 mots.
  • Fane, Baba. Cikèla ni bara. In : Annik Thoyer (éd.). Le riche et le pauvre et autres contes bamanan du Mali. Paris : L’Harmattan, 1997, pp. 123-132, 8856 mots.
  • Gindo. Munna warabilen ni mɔgɔ bɔra ɲɔgɔn fɛ ? https://www.conte-moi.net/contes/mali 310 mots.
  • Diarra, Ousmane. Falatɔnin ni duguden juguw, https://www.conte-moi.net/contes/mali, 508 mots.
  • Diarra, Ousmane. Sinamuso jugu. https://www.conte-moi.net/contes/mali, 502 mots.
  • Diarra, Ousmane. Teriw saba. https://www.conte-moi.net/contes/mali, 332 mots.
  • Jarasuba, Caka. Koorokaara y'a ta juru sara cogo min suruku la. Bamako : Fayida, 1991, 16 p., 824 mots.
  • Keïta, Boniface. Fɔlɔ Kita Maninkaw. Cape Town: Centre for Advanced Studies of African Society, 2003, 149 p. 39654 mots.
  • Keita, Daouda Nambala; Koyaté, Sidiki. Naréna pendant notre enfance. (Bamako) 1997, 23 p., 1733 mots.
  • Kitabu senu: Laidukɔrɔ ni Layidukura. (traduction catholique). 1. Mace : 27901 mots.
  • Koné, Tiémoko. Soundiata. Trad. par Lassana Doucouré et Mme Marta. Bamako : Institut des sciences humaines – Niamey : Centre régional de documentation pour la tradition orale, (1970). 26121 mots.
  • Mayiga, Sidibela & Kadija Awudu. Kunnafoni jɛlenw jɛɲɔgɔnya kan (Lumière sur la vie sexuelle). Tr. par Sidibe, Tumani Yalam. Bamako: Jamana, 1994, 59 p., 17502 mots.
  • Morales, José. 1996. J’apprends le bambara. Paris : ACCT-Karthala. Dialogues 1-10, 20, 30, 40, 50-61. 7887 mots.
  • Sangare, Cèman. Suruku ni kònyòmusow. In : Annik Thoyer (éd.). Le riche et le pauvre et autres contes bamanan du Mali. Paris : L’Harmattan, 1997, pp. 91-122, 4330 mots.
  • Sidibé, Djénéba. Contes du Mali. 2013, 1564 mots.
  • Sunbunu, Mohammed Lamine. Le fils des sept femmes bozo. In : Hayidara, Shekh Tijaan TIjani (ed.). La geste de Fanta Maa - Archétype du chasseur dans la culture des Bozo. Niamey : CELHTO, 1987, p. 114-201. Traoré, Benoît. Bamakɔ sigicogoya. Tr. par Charles Bailleul. 1975. 1142 mots.
  • Ture, Basiriki. Dɔgɔsugu ni dɔgɔtigɛlaw ni saribɔnbɔlaw ka tɔn. Gafe filanan. Bamako: CED/CCL, 17 p., 535 mots.
  • Kibaru 8, 2066 mots.
  • Kibaru 9, 2286 mots.
  • Kibaru 415, 10772 mots.
  • Kibaru 570, 10430 mots.

Internet :

  • An ka so : avril 2021-janvier 2023 : 30920 mots
  • Fakan 2021 (depuis mars) et 2022: 31 053 mots
  • Kibaru-Facebook, août – novembre 2022: 6276 mots

Des nouveaux textes ont été ajoutés au sous-corpus non-désambiguïsé (dans la plupart de cas, ces textes étaient déjà dans le « pré-corpus » ; ils ont été vérifiés et dotés des métadonnées) :

  • Camara, Moïse. Textes éducatifs : Kundigiyɔrɔ la, 329 mots; Gada la, 326 mots; Sanata bɛ nafɛn san na, 605 mots; Sanata terimuso Karini nana bɔ a ye, 324 mots; Karini nakun, 210 mots; Karini bɛ gara la ! 239 mots.
  • Diallo, Youssoufou; Doumbia, Amadou Tamba; Dumestre, Gérard; Haïdara, Mamadou-Lamine; Konta, Mahamadou; Niakaté, Mamadou; Simpara, Sidiki; Traoré, Samba. Bamanankan mabɛn (ka ɲɛsin karamɔgɔw ma). Bamakɔ: Université de Bamako - Université d'Oslo, 2006, 199 p. Sauf Ɲɛbila, chapitres 1-16 : 32090 mots.
  • Saint-Exupery, Antoine (Sɛn Tɛgiziperi, Antuwani). Masadennin. Trad. par Jara, Bukari. (Publié à Bamako : Jamana, 1989, 2e éd. 2003 ; une version corrigée). 17224 mots.

Périodiques :

  • Jɛkabaara 308, juin 2011, 6911 mots
  • Jɛkabaara 309, juillet 2011, 5734 mots
  • Jɛkabaara 310, août 2011, 6669 mots
  • Jɛkabaara 311 sept. 2011, 6578 mots
  • Jɛkabaara 312, oct. 2011, 8149 mots
  • Jɛkabaara 313, nov. 2011, 6808 mots
  • Jɛkabaara 314, dec. 2011, 7031 mots
  • Jɛkabaara 315, janv. 2012, 6597 mots
  • Jɛkabaara 316, fevr. 2012, 7061 mots
  • Jɛkabaara 317, mars 2012, 6933 mots
  • Jɛkabaara 318, avril 2012, 7475 mots
  • Jɛkabaara 319, mai 2012, 7546 mots
  • Jɛkabaara 320, juin 2012, 7929 mots
  • Jɛkabaara 321, juillet 2012, 6756 mots
  • Jɛkabaara 322, août 2012, 6988 mots
  • Jɛkabaara 323, sept. 2012, 5428 mots
  • Jɛkabaara 324, oct. 2012, 6368 mots
  • Jɛkabaara 331, avril 2013, 6680 mots
  • Jɛkabaara 335, août 2014 4243 mots
  • Jɛkabaara 337, janvier 2015, 4939 mots
  • Jɛkabaara 338, fevrier 2015, 4900 mots
  • Jɛkabaara 339, mars 2015, 4846 mots
  • Jɛkabaara 340, avril-mai 2015, 4256 mots
  • Jɛkabaara 350-351, janvier 2018, 6365 mots
  • Kibaru 526, novembre 2015, 11076 mots
  • Kibaru 573, octobre 2019, 10525 mots
  • Kibaru 574, nov. 2019, 8882 mots
  • Kibaru 575, dec. 2019, 12491 mots
  • Kibaru 576, janv. 2020, 10051 mots
  • Kibaru 578, mars 2020, 11428 mots
  • Kibaru 579, avril 2020, 11479 mots
  • Kibaru 580, mai 2020, 12336 mots
  • Kibaru 581, juin 2020, 10266 mots
  • Kibaru 582, juillet 2020, 11035 mots
  • Kibaru 580bis, août 2020, 9793 mots
  • Kibaru 581bis, septembre 2020, 9462 mots
  • Kibaru 582bis, octobre 2020, 10312 mots
  • Kibaru 582tri, novembre 2020, 3614 mots
  • Kibaru 583, déc. 2020, 7802 mots
  • Kibaru 584, janv. 2021, 9133 mots
  • Kibaru 585, février 2021, 8097 mots
  • Kibaru 586, mars 2021, 10732 mots
  • Kibaru 587, avril 2021, 10640 mots
  • Kibaru 588, mai 2021, 11027 mots
  • Kibaru 589, juin 2021, 8877 mots
  • Kibaru 590, juillet 2021, 7296 mots
  • Kibaru 591, août 2021, 7224 mots
  • Kibaru 592, sept. 2021, 6309 mots

Des nouveaux textes dans le corpus parallèle (bambara-français, français-bambara, non-ajusté + ajusté) : Voir les texte

Corpus parallèle bambara-français / français-bambara ajusté : Voir les texte

Anciennes mises à jour

Veuillez cliquer ici pour accéder à l’historique des mises à jour.