Vydrin, Valentin & Maslinsky, Kirill & Méric, Jean Jacques & Rovenchak, Andrij. (2011–2018) Corpus Bambara de Référence.

Le Corpus Bambara de Référence fait partie d'un macro-projet Corpora Mandeica qui regroupe des corpus de plusieurs langues mandé, c’est un corpus massif de textes annotés en langue bambara. Cette langue du groupe mandingue, famille linguistique Mandé, macro-famille Niger-Congo est parlée par 12 à 14 millions de locuteurs en République du Mali. Le Corpus se compose des textes des genres différents, publiés (périodiques, belles lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses…) ou non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs…) dont les auteurs proviennent des zones dialectales différentes. Cela permet de penser que le Corpus, avec sa croissance, représentera toujours mieux le bambara standard dans sa diversité, tout en tenant compte des origines différentes de ses locuteurs.

Lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots, dont environ 28.000 dans le sous-corpus désambiguïsé. Tout le Corpus comporte l'annotation morphologique automatique (les marques des parties de discours, les gloses françaises et l'analyse des formes dérivées et composées), et dans le sous-corpus désambiguïsé, l'homonymie produite au cours de l'annotation morphologique automatique est éliminée manuellement. A partir du février 2018, le sous corpus non-désambiguïsé est traité par un logiciel de désambiguïsation partiel basé sur une base de données des expressions figées bambara créée par Jean Jacques Méric, ce qui permet d'éliminer plus d'une moitié des analyses homonymiques.

Le volume du Corpus progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure. Notre objectif est d’atteindre 7 à 10 millions de mots. En avril 2018, on a dépassé le seuil d'1 million de mots dans le sous-corpus désambiguisé qui avait été fixé au début du projet.

En avril 2018, un sous-corpus annoté syntaxiquement a été publié (au moment de publication il comportait 11381 mots constituant 956 phrases) où, à part de l'analyse morphologique, la structure syntaxique des textes est présentée. L'annotation est effectuée dans le format d'Universal Dependencies. Le sous-corpus syntaxiquement annoté est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbama UD).
Au même moment, la publication d'un corpus parallèle bambara-français et français-bambara a eu lieu ; sa dimension initiale a été 99 163 mots dans la partie bambara et 116 177 mots dans la partie équivalent française. Dans ce corpus sont inclus des textes existant dans les deux langues. Il peut s'agit des textes originaux bambara traduits en français, ou des textes originaux français traduits en bambara ; il y a aussi des textes traduits d'une langue tierce indépendamment en bambara et en français, comme le Coran. Des segments (le plus souvent, des phrases) d'un texte bambara sont mis en correspondance (« synchronisés ») aux segments du texte français. Le corpus parallèle est disponible pour la recherche sur la page de recherche (Accès au corpus – Corpus – Corbamafara, pour la recherche par une forme bambara, ou Accès au corpus – Corpus – Corfarabama, pour la recherche par une forme française).

Mise à jour, 9 avril 2020

Après la mise à jour du Corpus Bambara de Référence le 9 avril 2020, les données numériques sont comme suit:

Le volume total du corpus a atteint :
11,140,640 mots. dont :
- sous-corpus desambiguïsé : 1,513,289
- Le sous-corpus non-desambiguïsé :9,627,351 mots.
Le pré-corpus comporte : 3,827,309 mots.
Le corpus parallèle bambara-français comporte :
225,273 mots dans la partie bambara et 240,829 mots dans la partie française.
Le sous-corpus bambara annoté syntaxiquement comporte :
1001 phrases et 12 045 mots.
Le dictionnaire en ligne Bamadaba compte 23.392 mots et la denière version du vérificateur orthographique est 2.5.

Des innovations ont été apportées au Corpus Bambara de Référence :
1. Le corpus inclut pratiquement tous les textes Bambara actuellement disponibles. Désormais, il sera donc essentiellement alimenté par des nouvelles publications et matériaux provenant de l'Internet ou de nouvelles transcriptions. Nous espérons cependant combler petit à petit les lacunes que nous avons dans la liste des anciennes publications. Quoi qu'il en soit, dans l'avenir, la croissance du volume absolu du Corpus sera beaucoup plus lente qu'auparavant. Dans cette nouvelle étape, nos efforts seront dirigés surtout sur son amélioration qualitative : la collation des textes à double saisie et l'introduction des métadonnées (s'agissant des textes qui se trouvent actuellement dans le Pré-Corpus), la désambiguïsation manuelle, le perfectionnement de la désambiguïsation automatique et la croissance du corpus parallèle bambara-français et du corpus syntaxiquement annoté.
2. Dans le "Sous-corpus non-désambiguïsé" ("Pré-corpus"), une désambiguïsation automatique (partielle) a été effectuée au moyen d'un logiciel développé par Jean Jacques Méric, basé sur les règles syntaxiques et sur une liste des collocations bambara. Cela a permis de ramener le taux des annotations homonymiques (ambigües) à environ 25% contre 38% précédemment (sans l’utilisation de ce logiciel, ce chiffre s'élèverait à environ 70%).
3. Dans le corpus parallèle bambara-français, la partie désynchronisée a été diminuée. Cependant, pour le moment, on n'est pas encore arrivée à son élimination définitive. Dans le concordancier, les fragments désynchronisés apparaissent à la fin.
4. L'hébergement du Corpus Bambara de Référence a été déménagé sur la plateforme Huma-Num du CNRS.

Des nouveaux textes ont été ajoutés au sous-corpus désambiguïsé :
  • Sidibe, Tumani Yalam. Cɛ jalamugufintigi. (Oroman tila 2 kɔnɔ). Bamako: CMDT/Imprimérie Kibaru, 1991, 8167 mots.
  • Soumaré, Penda. La femme sorcière. Galadio. Traduit par Coulibaly, Soulyemane; Coulibaly, Mamadou; Traoré, Mariam; Cissé, Seydou. Paris: l'Harmattan, 1996, 57 p., 1568 mots.
  • Susɔkɔ, Jeli Baba. Maraka Madi ni Bamanan Madi. Bamako : DNAFLA, 1992, 8182 mots.
  • Tarawele, Daramani. Baganlatɔlɔla: Misi ni saga. Bamakɔ: Kalan Diya, 2006, 6610 mots.
  • Tarawele, Daramani. Batigɛmisi. Bamakɔ: EDIM S.A., 1996, 14534 mots.

Les périodiques:
  • Dibifara 25, décembre 2003, 2920 mots
  • Dibifara 38, septembre 2006, 2673 mots
  • Faso kumakan, 15.08.1987, 2447 mots
  • Jɛkabaara 3, mars 1986, 4256 mots
  • Jɛkabaara 280, février 2009, 6496 mots
  • Kibaru 200, sept. 1989, 5313 mots
  • Kibaru 400, mai 2005, 11234 mots
  • Kibaru 567, avril 2019, 8745 mots

Des nouveaux textes ont été ajoutés au sous-corpus non-désambiguïsé :
  • Balo, Massama. Daa Monson ni Ɲɛnama. Traduit par Dramé, Tieblé; Samaké, Raymond Paul. Bamako: École Normale Supérieure, 1979, 15665 mots.
  • Dembélé, Karim; Diarra, Zamalé. Chansons des chasseurs recueuillis dans la région de San (textes inédits en bambara et bomu). Bamako, 1979, 2229 mots.
  • Koné, Tiémoko. Soundiata. Trad. par Lassana Doucouré et Mme Marta. Bamako: Institut des sciences humaines – Niamey : Centre régional de documentation pour la tradition orale, (1970). 23712 mots.
  • Traoré, Benoît. Diɲɛkɔrɔba. Ed. par Bailleul, Charles (Kulubali, Baabilen). Bamako: Donniya, 1996, 27 p., 3106 mots.
Périodiques:
  • Dibifara 1, sept. 2001, 6913 mots
  • Dibifara 2, oct. 2001, 6856 mots
  • Dibifara 3, nov. 2001, 7339 mots
  • Dibifara 4, dec. 2001, 5952 mots
  • Dibifara 15, janv. 2003, 3755 mots
  • Dibifara 26, dec. 2003, 2896 mots
  • Dibifara 27, janv. 2004, 3171 mots
  • Dibifara 38, sept. 2006, 2621 mots
  • Kalamɛnɛ 5 nov. 1992, 6354 mots
  • Kalamɛnɛ 6 dec. 1992, 5248 mots
  • Kalamɛnɛ 7 janv. 1993, 3843 mots
  • Kalamɛnɛ 8 fevr. 1993, 3235 mots
  • Kalamɛnɛ 9 janv. 1996, 2201 mots
  • Kalamɛnɛ 10 mars 1996, 2669 mots
  • Kalanso 1, juin 1977, 10871 mots
  • Kibaru danma 1974, 5279 mots
  • Kibaru, danma nimòrò, 22.09.1983, 3471 mots
  • Kibaru 190-191, nov.-déc. 1987, 9091 mots
  • Kibaru 195, avril 1989, 4660 mots
  • Kibaru 196, mai 1989, 4957 mots
  • Kibaru 197, juin 1989, 4931 mots
  • Kibaru 198, juillet 1989, 4471 mots
  • Kibaru 199, août 1989, 5016 mots
  • Kibaru 200, sept. 1989, 5254 mots
  • Kibaru 201, oct. 1989, 3718 mots
  • Kibaru 217, fev. 1990, 677 mots
  • Kibaru 240, janv. 1992, 2134 mots
  • Kibaru 1992 danma nimoro, 3286 mots
  • Kibaru 251, déc. 1992, 3126 mots
  • Kibaru 252, janvier 1993, 168 mots
  • Kibaru 325, fevrier 1999, 9129 mots
  • Kibaru 333, oct. 1999, 8 717 mots
  • Kibaru 335, dec. 1999, 10620 mots
  • Kibaru 339, avril 2000, 10760 mots
  • Kibaru 345, oct. 2000, 10082 mots
  • Kibaru 550, nov. 2017, 10289 mots
  • Kibaru 551, dec. 2017, 10622 mots
  • Kibaru 562, nov. 2018, 11996 mots
  • Kibaru 563, dec. 2018, 12445 mots
  • Kibaru 564, janv. 2019, 12185 mots
  • Kibaru 565, fevr. 2019, 8695 mots
  • Kibaru 566, mars 2019, 12619 mots
  • Kɔtɛ 1, juill. 1980, 1248 mots
  • Kɔtɛ 2, oct. 1980, 1084 mots
  • Kɔtɛ 3, janv. 1981, 1277 mots
  • Kɔtɛ 4, juill. 1981, 918 mots
  • Kɔtɛ 9, janv. 1986, 1927 mots
  • Kɔtɛ 10, sept. 1987, 2112 mots
  • Kɔtɛ 11, juin 1988, 2135 mots
  • Kɔtɛba kura 1, juin 1977, 2849 mots
  • Kɔtɛba kura 2, mai 1978, 2877 mots
  • Kɔtɛba kura 3, mai 1979, 4528 mots
  • Nafarinma 1, sept. 2001, 3930 mots
  • Ntuloma 01, sept. 1992, 6478 mots
  • Ntuloma 02, dec. 1992, 6916 mots
  • Ntuloma 03, mars 1993, 6486 mots
  • Ntuloma 04, juin 1993, 4879 mots
  • Ntuloma 05, sept. 1993, 7771 mots
  • Ntuloma 06, dec. 1993, 5848 mots
  • Ntuloma 07, mars 1994, 5733 mots
  • Ntuloma 08, juin 1994, 5224 mots
  • Ntuloma 10, dec. 1994, 3612 mots
  • Ntuloma 11, mars 1995, 3619 mots
  • Nyètaa 01, juillet 1979, 7487 mots
  • Nyètaa 02, octobre 1979, 11478 mots
  • Nyètaa 03, janvier 1980, 14483 mots
  • Nyètaa 05, mai 1981, 12040 mots
  • Nyètaa 06, mars 1983, 10233 mots
  • Nyètaa 10, juin 1985, 10234 mots
  • Nyètaa 11, mai 1986, 8363 mots
  • Nyètaa numéro spécial, sept. 1986 (12?), 10796 mots

Anciennes mises à jour

Veuillez cliquer ici pour accéder à l’historique des mises à jour.