Vydrin, Valentin & Maslinsky, Kirill & Méric, Jean Jacques & Rovenchak, Andrij. (2011–2018) Corpus Bambara de Référence.

Le Corpus Bambara de Référence fait partie d'un macro-projet Corpora Mandeica qui regroupe des corpus de plusieurs langues mandé, c’est un corpus massif de textes annotés en langue bambara. Cette langue du groupe mandingue, famille linguistique Mandé, macro-famille Niger-Congo est parlée par 12 à 14 millions de locuteurs en République du Mali. Le Corpus se compose des textes des genres différents, publiés (périodiques, belles lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses…) ou non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs…) dont les auteurs proviennent des zones dialectales différentes. Cela permet de penser que le Corpus, avec sa croissance, représentera toujours mieux le bambara standard dans sa diversité, tout en tenant compte des origines différentes de ses locuteurs.

Lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots, dont environ 28.000 dans le sous-corpus désambiguïsé. Tout le Corpus comporte l'annotation morphologique automatique (les marques des parties de discours, les gloses françaises et l'analyse des formes dérivées et composées), et dans le sous-corpus désambiguïsé, l'homonymie produite au cours de l'annotation morphologique automatique est éliminée manuellement. A partir du février 2018, le sous corpus non-désambiguïsé est traité par un logiciel de désambiguïsation partiel basé sur une base de données des expressions figées bambara créée par Jean Jacques Méric, ce qui permet d'éliminer plus d'une moitié des analyses homonymiques.

Le volume du Corpus progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure. Notre objectif est d’atteindre 7 à 10 millions de mots. En avril 2018, on a dépassé le seuil d'1 million de mots dans le sous-corpus désambiguisé qui avait été fixé au début du projet.

En avril 2018, un sous-corpus annoté syntaxiquement a été publié (au moment de publication il comportait 11381 mots constituant 956 phrases) où, à part de l'analyse morphologique, la structure syntaxique des textes est présentée. L'annotation est effectuée dans le format d'Universal Dependencies. Le sous-corpus syntaxiquement annoté est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbama UD).
Au même moment, la publication d'un corpus parallèle bambara-français et français-bambara a eu lieu ; sa dimension initiale a été 99 163 mots dans la partie bambara et 116 177 mots dans la partie équivalent française. Dans ce corpus sont inclus des textes existant dans les deux langues. Il peut s'agit des textes originaux bambara traduits en français, ou des textes originaux français traduits en bambara ; il y a aussi des textes traduits d'une langue tierce indépendamment en bambara et en français, comme le Coran. Des segments (le plus souvent, des phrases) d'un texte bambara sont mis en correspondance (« synchronisés ») aux segments du texte français. Le corpus parallèle est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbamafara, pour la recherche par une forme bambara, ou Accès au corpus – Corpus – Corfarabama, pour la recherche par une forme française).

Mise à jour, 27 juin 2019

Le volume total du corpus a atteint :
10 883 364 mots.
Le sous-corpus desambiguïsé comporte :
1 439 054
Le sous-corpus non-desambiguïsé comporte:
5 568 096 mots.
Le pré-corpus comporte : 3.876.214 mots.
Le corpus parallèle bambara-français comporte :
225 287 mots dans la partie bambara, 240 829 mots dans la partie française.
Le sous-corpus bambara annoté syntaxiquement comporte :
1001 phrases et 12 045 mots.

1) Des nouveaux textes ont été ajoutés au sous-corpus désambiguïsé :
  • Coulibaly, Soulyemane; Coulibaly, Mamadou; Traoré, Mariam; Cissé, Seydou. La femme sorcière. Galadio. Paris: l'Harmattan, 1996, 57 p., 1568 mots.
  • Ɲɛ kɛnɛya sabatili walew. Bamako: Organisation pour la prévention de la cécité – DNAFLA, 111 p., 11426 mots.
  • Sallée, Aliette; Rolland, Denis. Téné: conte bilingue bambara-français. Paris: l'Harmattan, 1995, 24 p. 1448 mots.
  • Werner, David. Dɔgɔtɔrɔ tɛ sigida min na: Wulakɔnɔmɔgɔw ka yɛrɛfurakɛgafe (Là où il n'y a pas de docteur: Un manuel de soins de santé). Trad. par Bengali, Salifou; Bouaré, Fatoumata; Coulibaly, Abdoulaye; Dembélé, Diatrou. Bamako, 2016. http://gafe.dokotoro.org/multi.html 221100 mots.

Les périodiques:
  • Jɛkabaara 300, octobre 2010, 6370 mots
  • Kibaru 500, septembre 2013, 99619 mots
  • Kibaru 558, juillet 2018, 11987 mots
  • Kibaru 559b, août 2018, 18224 mots
  • Kolonkisɛ 10, 01.02.1998, 4117 mots

2) Des nouveaux textes ont été ajoutés au sous-corpus non-désambiguïsé :
Périodiques:
  • Faso kumakan 24.10.1982, 1539 mots
  • Faso kumakan 14.11.1982, 1551 mots
  • Faso kumakan 28.11.1982, 1073 mots
  • Faso kumakan 12.12.1982, 1246 mots
  • Faso kumakan 19.12.1982, 730 mots
  • Faso kumakan 02.01.1983, 1422 mots
  • Faso kumakan 09.01.1983, 1719 mots
  • Faso kumakan 16.01.1983, 1754 mots
  • Faso kumakan 23.01.1983, 1404 mots
  • Faso kumakan 06.02.1983, 1450 mots
  • Faso kumakan 13.02.1983, 1767 mots
  • Faso kumakan 27.03.1983, 1532 mots
  • Faso kumakan 03.04.1983, 1965 mots
  • Faso kumakan 10.04.1983, 1867 mots
  • Faso kumakan 17.04.1983, 1950 mots
  • Faso kumakan 24.04.1984, 1248 mots
  • Faso kumakan 01.03.1984, 1790 mots
  • Faso kumakan 25.03.1984, 1532 mots
  • Faso kumakan 15.07.1984, 1691 mots
  • Faso kumakan 01.08.1984, 1853 mots
  • Faso kumakan 27.10.1984, 1188 mots
  • Faso kumakan 03.11.1984, 1024 mots
  • Faso kumakan 24.11.1984, 1234 mots
  • Faso kumakan 15.12.1984, 1401 mots
  • Faso kumakan 09.02.1985, 1102 mots
  • Faso kumakan 09.03.1985, 1468 mots
  • Faso kumakan 16.03.1985, 1330 mots
  • Faso kumakan 30.03.1985, 1518 mots
  • Faso kumakan 27.04.1985, 1623 mots
  • Faso kumakan 04.05.1985, 1791 mots
  • Faso kumakan 01.06.1985, 1405 mots
  • Faso kumakan 29.06.1985, 1604 mots
  • Faso kumakan 10.08.1985, 1228 mots
  • Faso kumakan 17.08.1985, 966 mots
  • Faso kumakan 12.10.1985, 1542 mots
  • Faso kumakan 23.11.1085, 1243 mots
  • Faso kumakan 28.12.1985, 1108 mots
  • Faso kumakan 11.01.1986, 1648 mots
  • Faso kumakan 18.01.1986, 1244 mots
  • Faso kumakan 25.01.1986, 1101 mots
  • Faso kumakan 15.02.1986, 1509 mots
  • Faso kumakan 29.03.1986, 1742 mots
  • Faso kumakan 05.04.1986, 1474 mots
  • Faso kumakan 03.05.1986, 1205 mots
  • Faso kumakan 17.05.1986, 1329 mots
  • Faso kumakan 07.06.1986, 1545 mots
  • Faso kumakan 12.07.1986, 1630 mots
  • Faso kumakan 19.07.1986, 1312 mots
  • Faso kumakan 06.09.1986, 1334 mots
  • Faso kumakan 13.09.1986, 1828 mots
  • Faso kumakan 11.10.1986, 1449 mots
  • Faso kumakan 11.10_1986bis (04.10.1986?), 2010 mots
  • Faso kumakan 18.10.1986, 1586 mots
  • Faso kumakan 09.11.1986, 1550 mots
  • Faso kumakan 07.02.1987, 1627 mots
  • Faso kumakan 14.03.1987, 1731 mots
  • Faso kumakan 28.03.1987, 1440 mots
  • Faso kumakan 18.04.1987, 1917 mots
  • Faso kumakan 09.05.1987, 1846 mots
  • Faso kumakan 23.05.1987, 2159 mots
  • Faso kumakan 13.06.1987, 2046 mots
  • Faso kumakan 15.08.1987, 2429 mots
  • Irisila kunnafoni 07.1983, 867 mots
  • Irisila kunnafoni 08.1988, 1101 mots
  • Jama 1, juillet 1979, 10309 mots
  • Jama 2, octobre 1979, 8982 mots
  • Jama 3, juin 1980, 7515 mots
  • Jama 4, 1984, 16813 mots
  • Jama 5, 1989, 11836 mots
  • Jama 6, 1990, 13216 mots
  • Jama 7, 1992, 5741 mots
  • Jama 8, 1994, 14428 mots
  • Jama 9, 1998, 13509 mots
  • Jama 11, 2002, 15079 mots
  • Jama 13, 2008, 8192 mots
  • Kalamɛnɛ 1 mai 1992, 4351 mots
  • Kalamɛnɛ 2 juillet 1992, 5829 mots
  • Kalamɛnɛ 3 sept. 1992, 3435 mots
  • Kalamɛnɛ 4 oct. 1992, 5259 mots
  • Kibaru 422, mars 2007, 9567 mots
  • Kibaru 423, avril 2007, 9653 mots
  • Kibaru 424, mai 2007, 9500 mots
  • Kibaru 425, juin 2007, 9798 mots
  • Kibaru 426, juillet 2007, 9891 mots
  • Kibaru 427, août 2007, 9353 mots
  • Kibaru 428, sept. 2007, 9425 mots
  • Kibaru 430, nov. 2007, 10052 mots
  • Kibaru 431, dec. 2007, 9791 mots
  • Kibaru 432, janv. 2008, 10223 mots
  • Kibaru 434, mars 2008, 9373 mots
  • Kibaru 435, avril 2008, 9112 mots
  • Kibaru 436, mai 2008, 9442 mots
  • Kibaru 437, juin 2008, 9228 mots
  • Kibaru 438, juillet 2008, 9554 mots
  • Kibaru 440, sept. 2008, 8699 mots
  • Kibaru 441, oct. 2008, 7908 mots
  • Kibaru 442, nov. 2008, 9708 mots
  • Kibaru 443, dec. 2008, 9430 mots
  • Kibaru 444, janv. 2009, 9211 mots
  • Kibaru 445, fevr. 2009, 8653 mots
  • Kibaru 446, mars 2009, 9959 mots
  • Kibaru 447, avril 2009, 9444 mots
  • Kibaru 448, mai 2009, 9578 mots
  • Kibaru 449, juin 2009, 9406 mots
  • Kibaru 450, juillet 2009, 9015 mots
  • Kibaru 451, août 2009, 9415 mots
  • Kibaru 455, dec. 2009, 11737 mots
  • Kibaru 456, janv. 2010, 11012 mots
  • Kibaru 457, fevr. 2010, 11452 mots
  • Kibaru 458, mars 2010, 11231 mots
  • Kibaru 459, avril 2010, 11557 mots
  • Kibaru 460, mai 2010, 10843 mots
  • Kibaru 463, août 2010, 11236 mots
  • Kibaru 465, oct. 2010, 11018 mots
  • Kibaru 468, janv. 2011, 10438 mots
  • Kibaru 469, fevr. 2011, 10891 mots
  • Kibaru 470, mars 2011, 11062 mots
  • Kibaru 471, avril 2011, 11062 mots
  • Kibaru 472, mai 2011, 11273 mots
  • Kibaru 473, juin 2011, 12435 mots
  • Kibaru 474, juillet 2011, 11185 mots
  • Kibaru 475, août 2011, 11363 mots
  • Kibaru 476, sept. 2011, 10209 mots
  • Kibaru 477, oct. 2011, 11155 mots
  • Kibaru 478, nov. 2011, 9697 mots
  • Kibaru 479, dec. 2011, 10583 mots
  • Kibaru 480, janv. 2012, 10960 mots
  • Kibaru 481, fevr. 2012, 11016 mots
  • Kibaru 482, mars 2012, 11026 mots
  • Kibaru 483, avril 2012, 10608 mots
  • Kibaru 484, mai 2012, 10941 mots
  • Kibaru 485, juin 2012, 11590 mots
  • Kibaru 486, juillet 2012, 11726 mots
  • Kibaru 487, août 2012, 10605 mots
  • Kibaru 488, sept. 2012, 11674 mots
  • Kibaru 489, oct. 2012, 11063 mots
  • Kibaru 490, nov. 2012, 11353 mots
  • Kibaru 491, dec. 2012, 11016 mots
  • Kibaru 492, janv. 2013, 10958 mots
  • Kibaru 493, fevr. 2013, 11335 mots
  • Kibaru 494, mars 2013, 11350 mots
  • Kibaru 495, avril 2013, 11130 mots
  • Kibaru 496, mai 2013, 11069 mots
  • Kibaru 497, juin 2013, 10944 mots
  • Kibaru 498, juillet 2013, 10546 mots
  • Kibaru 499, août 2013, 11528 mots
  • Kibaru 501, oct. 2013, 10223 mots
  • Kibaru 502, nov. 2013, 10208 mots
  • Kibaru 503, dec. 2013, 10119 mots
  • Kibaru 504, janv. 2014, 10834 mots
  • Kibaru 505, fevr. 2014, 10999 mots
  • Kibaru 506, mars 2014, 10551 mots
  • Kibaru 507, avril 2014, 10855 mots
  • Kibaru 508, mai 2014, 11164 mots
  • Kibaru 509, juin 2014, 12114 mots
  • Kibaru 510, jillet 2014, 10399 mots
  • Kibaru 511, août 2014, 10558 mots
  • Kibaru 512, sept. 2014, 11222 mots
  • Kibaru 513, oct. 2014, 11687 mots
  • Kibaru 514, nov. 2014, 11577 mots
  • Kibaru 515, dec. 2014, 11274 mots
  • Kibaru 516, janv. 2015, 10315 mots
  • Kibaru 518, mars 2015, 10879 mots
  • Kibaru 519, avril 2015, 10539 mots
  • Kibaru 520, mai 2015, 9986 mots
  • Kibaru 521 juin 2015, 10354 mots
  • Kibaru 522 juillet 2015, 11090 mots
  • Kibaru 523 août 2015, 11454 mots
  • Kibaru 524 sept. 2015, 10795 mots
  • Kibaru 525 octobre 2015, 11850 mots
  • Kibaru 559a, août 2018, 6276 mots
  • Kibaru 560, sept. 2018, 12489 mots
  • Kibaru 561, octobre 2018, 11860 mots

Anciennes mises à jour

Veuillez cliquer ici pour accéder à l’historique des mises à jour.