Vydrin, Valentin & Maslinsky, Kirill & Méric, Jean Jacques & Rovenchak, Andrij. (2011–2018) Corpus Bambara de Référence.

Le Corpus Bambara de Référence fait partie d'un macro-projet Corpora Mandeica qui regroupe des corpus de plusieurs langues mandé, c’est un corpus massif de textes annotés en langue bambara. Cette langue du groupe mandingue, famille linguistique Mandé, macro-famille Niger-Congo est parlée par 12 à 14 millions de locuteurs en République du Mali. Le Corpus se compose des textes des genres différents, publiés (périodiques, belles lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses…) ou non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs…) dont les auteurs proviennent des zones dialectales différentes. Cela permet de penser que le Corpus, avec sa croissance, représentera toujours mieux le bambara standard dans sa diversité, tout en tenant compte des origines différentes de ses locuteurs.

Lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots, dont environ 28.000 dans le sous-corpus désambiguïsé. Tout le Corpus comporte l'annotation morphologique automatique (les marques des parties de discours, les gloses françaises et l'analyse des formes dérivées et composées), et dans le sous-corpus désambiguïsé, l'homonymie produite au cours de l'annotation morphologique automatique est éliminée manuellement. A partir du février 2018, le sous corpus non-désambiguïsé est traité par un logiciel de désambiguïsation partiel basé sur une base de données des expressions figées bambara créée par Jean Jacques Méric, ce qui permet d'éliminer plus d'une moitié des analyses homonymiques.

Le volume du Corpus progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure. Notre objectif est d’atteindre 7 à 10 millions de mots. En avril 2018, on a dépassé le seuil d'1 million de mots dans le sous-corpus désambiguisé qui avait été fixé au début du projet.

En avril 2018, un sous-corpus annoté syntaxiquement a été publié (au moment de publication il comportait 11381 mots constituant 956 phrases) où, à part de l'analyse morphologique, la structure syntaxique des textes est présentée. L'annotation est effectuée dans le format d'Universal Dependencies. Le sous-corpus syntaxiquement annoté est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbama UD).
Au même moment, la publication d'un corpus parallèle bambara-français et français-bambara a eu lieu ; sa dimension initiale a été 99 163 mots dans la partie bambara et 116 177 mots dans la partie équivalent française. Dans ce corpus sont inclus des textes existant dans les deux langues. Il peut s'agit des textes originaux bambara traduits en français, ou des textes originaux français traduits en bambara ; il y a aussi des textes traduits d'une langue tierce indépendamment en bambara et en français, comme le Coran. Des segments (le plus souvent, des phrases) d'un texte bambara sont mis en correspondance (« synchronisés ») aux segments du texte français. Le corpus parallèle est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbamafara, pour la recherche par une forme bambara, ou Accès au corpus – Corpus – Corfarabama, pour la recherche par une forme française).

Mise à jour, le 9 octobre 2021

Après la mise à jour du Corpus Bambara de Référence le 9 octobre 2021, les données numériques sont comme suit:

Le volume total du corpus a atteint 11,282,095 mots dont :
le sous-corpus désambiguïsé: 1,676,460 mots.
Le corpus parallèle bambara-français: 225,273 mots (17,964 phrases) dans la partie bambara, 240,829 mots (17,516 phrases) dans la partie française (sans changement depuis la dernière mise à jour).
Le sous-corpus bambara annoté syntaxiquement : 12 045 mots, 1001 phrases (sans changement depuis la dernière mise à jour).
Bamadaba, le dictionnaire en ligne compte 21.069 mots, ainsi que le vérificateur orthographique, dont la dernière version est la version 2.5.

Des nouveaux textes ont été ajoutés au sous-corpus désambiguïsé :
  • Baa, Mieru. Le récit de Mieru Baa. Ed. par Shekh Tijaan Hayidara. In: La geste de Fanta Maa. Archétype du chasseur dans la culture des Bozo. Niamey: CELHTO, 1987, pp. 14-109, 10469 mots.
  • Diallo, M'Baba. Les conquêtes d'El Hadj Omar. 92 p., 3380 mots.
  • Ebermann, Erwin. Gundofen: Die geheimen Dinge. Bambara-Deutsch. (Beiträge zur Afrikanistik, Bd. 38). Wien 1989. 173 p. Texte 1: Fetische, 2850 mots.
  • Jabatɛ, Jeli Jafe. Ŋɛɲɛkɔrɔ ka Tonnkan (Cɛfarinmaana). EDIS, 2007, 267 p., 50265 mots + Samaseku, Adama. Ɲɛbila, 548 mots.
  • Sunbunu, Mohammed Lamine Laji. Fula npogotigi (La jeune fille peule). Éd. par Haydara, Shekh Tijani. Bamako: Institut des Sciences Humaines, 1987, 102 p., 16042 + 2376 mots.
Chansons :
  • Sisoko, Mama. Amours – Jarabi. Buda Musique, 1997. http://www.budamusique.com/ 1320 mots
Les périodiques :
  • Jɛkabaara 290, décembre 2009, 7045 mots
  • Jɛkabaara 328, 2009, 8308 mots
  • Kibaru 571, août 2019, 10415 mots
  • Kibaru 572, septembre 2019, 11433 mots
  • Kibaru 577, février 2020, 10430 mots
  • Ɲɛtaa 18, 1994, 6555 mots
  • Sankore 4, 3888 mots
  • Sankore 11, 16833 mots
Sites internet :
  • Fakan, 05.2016, Bamaankɛ ni sɛnɛfɔkɛ, 601 mots
  • 04.2018, Bamanankan daɲɛw kɔrɔɲɔgɔnma-ko : bosolisɛbɛn dɔ kɔrɔɲɔgɔnmaw bosoli, 11438 mots
  • 04.2018, Bamanankan daɲɛw kɔrɔɲɔgɔnma-ko : bosolisɛbɛn dɔ kɔrɔɲɔgɔnmaw bosoli - nanflamayɔrɔ, 2261 mots
Des nouveaux textes ont été ajoutés au sous-corpus non-désambiguïsé (dans la plupart de cas, ces textes avaient été dans le « pré-corpus » ; ils ont été vérifiés et dotés des metadonnées) :
  • Delprat, Anna. Contes mandingues. Paris: Agraph, 1997, 56 p., 4007 mots
  • Diallo, M'Baba. Fila-Kali Sidibe, dernier chef de guerre peul du Wassoulou. Ms., 68 p. 3511 mots
  • Diallo, M'Baba. Filaw laseli. Ms., 32 p. 1423 mots
  • Diallo, M'Baba. La Dina au Macina. Hambodejo, Sekou Amadou et Boubou Ardo Gallo. Ms., 34 p. 1499 mots
  • Dumestre, Gérard & Kesteloot, Lylian. La prise de Djonkoloni. Paris: Classiques Africaines, 1975, 183 p., 15088 mots.
  • Fané, Noumouba. La pêche de Fabaly: marigot sacré de Farako. Bamako: École Normale Supérieure, 1980, 149 p. 1961 mots.
  • Instructions pour construire un foyer à une marmite sans cheminée, 20 p. 562 mots.
  • Jara, Bukari. Poyikanpoyi. Paris: Bibliothèque Électronique Bambara, 2020, 62 p, 8183 mots.
  • Kalan ni nisɔndiya. Bamako: Togouna Edition, n.d., 176 p., 9503 mots.
  • Kane, Kakɔ. Nansaaratile tun y'a danmako ye. Bamako: Le Figuier, 1998, 47 p., 6133 mots.
  • Keita, Daouda Nambala; Koyaté, Sidiki. Naréna pendant notre enfance. (Bamako) 1997, 23 p., 1707 mots.
  • Mayiga, Sidibela & Kadija Awudu. Kunnafoni jɛlenw jɛɲɔgɔnya kan (Lumière sur la vie sexuelle). Tr. par Sidibe, Tumani Yalam. Bamako: Jamana, 1994, 59 p., 19844 mots.
  • PMRD ka ŋaniyajira, nov. 1981, 1913 mots.
  • Soumaré, Penda. L'arbre et l'enfant. Sassa. Paris: Harmattan, 1996, 79 p., 2623 mots.
  • Traoré, Benoît. Na magosa. Éd. par Charles Bailleul. Bamako: Donniya, 1996, 23 p., 2146 mots.
  • Traoré, Benoît. Diɲɛkɔrɔba. Éd. par Charles Bailleul. Bamako: Donniya, 1996, 27 p., 3106 mots.
  • Ture, Basiriki. Dɔgɔsugu ni dɔgɔtigɛlaw ni saribɔnbɔlaw ka tɔn. Gafe filanan. Bamako: CED/CCL, 17 p., 535 mots.
Les périodiques :
  • Jɛkabaara 2, fevr. 1986, 3433 mots
  • Jɛkabaara 6, juin 1986, 4214 mots
  • Jèkabaara 23, nov. 1987, 4459 mots
  • Jèkabaara 24, dec. 1987, 5048 mots
  • Jèkabaara danma nimòrò 1987, 2168 mots
  • Jèkabaara 27, mars 1988, 4998 mots
  • Jèkabaara 28, avril 1988, 4409 mots
  • Jèkabaara 29, mai 1988, 5290 mots
  • Jèkabaara 30, juin 1988, 3800 mots
  • Jèkabaara 31, juillet 1988, 4426 mots
  • Jèkabaara 32, août 1988, 4408 mots
  • Jèkabaara 33, sept. 1988, 3440 mots
  • Jèkabaara 34, oct. 1988, 5131 mots
  • Jèkabaara 37, janv. 1989, 5303 mots
  • Jèkabaara 38, fevr. 1989, 7375 mots
  • Jèkabaara 39, mars 1989, 3048 mots
  • Jèkabaara 40, avril 1989, 6563 mots
  • Jèkabaara 41, mai 1989, 4640 mots
  • Jèkabaara 42, juin 1989, 6325 mots
  • Jɛkabaara 49, janvier 1990, 5,033 mots
  • Jɛkabaara 50, février 1990, 6,142 mots
  • Jɛkabaara 52, avril 1990, 5,167 mots
  • Jɛkabaara 55, juin 1990, 7,487 mots
  • Jɛkabaara 60, décembre 1990, 3,502 mots
  • Jɛkabaara 62, février 1991, 5,772 mots
  • Jɛkabaara 64, avril 1991, 4,939 mots
  • Jɛkabaara 89, mai 1993, 6215 mots
  • Jɛkabaara 98, janvier 1994, 5705 mots
  • Jɛkabaara 100, mars 1994, 8775 mots
  • Jɛkabaara 101, avril 1994, 8200 mots
  • Jɛkabaara 115, juin 1995, 7912 mots
  • Jɛkabaara 139, juin 1997, 7283 mots
  • Kibaru 568, mai 2019, 9263 mots
  • Kibaru 569, juin 2019, 11086 mots
  • Kibaru 570, juillet 2019, 11794 mots
  • Nyètaa (4), nimoro kèrènkèrènnen (1980), 10135 mots
  • Nyètaa 13, mars 1987, 5207 mots
  • Nyètaa 14, juin 1987, 4701 mots
  • Nyètaa 15, sept. 1987, 2748 mots
  • Nyètaa 16, dec. 1987, 3361 mots
  • Nyètaa 17, juin 1988, 4584 mots
  • Saheli 2, février 1994, 7716 mots
  • Saheli 6, juin 1994, 8046 mots
  • Saheli 10, mars 1995, 6763 mots
  • Sankore 8, 17080 mots
  • Sankore 9, 11210 mots
  • Sankore 12, 8232 mots
Internet :
An ka so 2019 :
  • sept-19, 96 mots
  • oct-19, 458 mots
  • nov-19, 767 mots
  • déc-19, 918 mots
An ka so 2020 :
  • janv-20, 781 mots
  • févr-20, 404 mots
  • mars-20, 436 mots
  • avr-20, 118 mots
  • mai-20, 608 mots
  • juin-20, 224 mots
  • juil-20, 732 mots
  • août-20, 221 mots
  • sept-20, 920 mots
  • oct-20, 174 mots
  • nov-20, 525 mots
  • déc-20, 1 035 mots
An ka so 2021 :
  • janv-21, 576 mots
  • février 2021, 246 mots
  • mars 2021, 1242 mots
Fakan 2014 :
  • janv. 2014, 291 mots
Fakan 2015 :
  • janv. 2015, 379 mots
  • nov. 2015, 396 mots
  • dec. 2015, 3413 mots
Fakan 2016 :
  • mars 2016, 935 mots
  • avril 2016, 3362 mots
  • mai 2016, 12880 mots
  • juin 2016, 26719 mots
  • juillet 2016, 8850 mots
  • déc. 2016, 521 mots
Fakan 2017 :
  • janv. 2017, 2657 mots
  • févr. 2017, 1060 mots
  • mars 2017, 2702 mots
  • avril 2017, 2115 mots
  • juillet 2017, 503 mots
  • août 2017, 2235 mots
  • sept. 2017, 823 mots
  • oct. 2017, 306 mots
Fakan 2018 :
  • janv. 2018, 1621 mots
  • avril 2018, 17957 mots
  • mai 2018, 1624 mots
  • sept. 2018, 123 mots
  • oct. 2018, 1841 mots
Fakan 2019 :
  • oct. 2019, 1472 mots
Fakan 2020 :
  • févr. 2020, 4041 mots
  • juillet 2020, 1540 mots
  • août 2020, 1539 mots
  • sept. 2020, 571 mots
  • nov. 2020, 5960 mots
  • déc. 2020, 82 mots
Fakan 2021 :
  • janv. 2021, 151 mots
  • févr. 2021, 595 mots
Kibaru – Facebook :
  • Kibaru-FB sept. 2019, 137 mots
  • Kibaru-FB nov. 2019, 2698 mots
  • Kibaru-FB déc. 2019, 872 mots
  • Kibaru-FB mars 2020, 2575 mots
  • Kibaru-FB avril 2020, 4135 mots
  • Kibaru-FB mai 2020, 2758 mots
  • Kibaru-FB juin 2020, 4725 mots
  • Kibaru-FB juillet 2020, 3799 mots
  • Kibaru-FB août 2020, 5140 mots
  • Kibaru-FB sept. 2020, 5362 mots
  • Kibaru-FB oct. 2020, 1736 mots
  • Kibaru-FB nov. 2020, 2986 mots
  • Kibaru-FB déc. 2020, 776 mots
  • Kibaru-FB janv. 2021, 996 mots

Anciennes mises à jour

Veuillez cliquer ici pour accéder à l’historique des mises à jour.