Présentation

Le Corpus Bambara de Référence est un corpus massif de textes annotés en langue bambara. Cette langue du groupe mandingue, famille linguistique Mandé, macro-famille Niger-Congo est parlée par 12 à 14 millions de locuteurs en République du Mali.

Lors de l’ouverture au public en avril 2012, le corpus comportait des textes dont le volume avoisinait 1.100.000 mots, dont environ 28.000 dans le sous-corpus désambiguïsé.
Ce chiffre progresse constamment et la qualité de l’étiquetage s’améliore au fur et à mesure.
Notre objectif est d’atteindre 7 à 10 millions de mots, dont environ 1 million dans le sous-corpus désambiguisé.

Composition du corpus

Le Corpus est composé de textes de genres différents, publiés (périodiques, belles-lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses etc.) et non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs etc.) dont les auteurs proviennent de zones dialectales différentes.

Cette diversité permet de penser que le Corpus, en se développant, représentera plus fidèlement le bambara standard dans sa diversité.

Mise à jour, mars 2017

Le volume total du corpus a atteint:
3 846 094 mots.
Le sous-corpus desambiguïsé comporte:
700 034 mots.
Le sous-corpus non-desambiguïsé comporte:
3 146 060 mots.

L'analyseur automatique a été amélioré, ce qui a permis de diminuer sensiblement le nombre des annotations générées incorrectement. Un grand travail a été effectué sur l'analyse automatique des mots non-annotés. Le taux de mots annotés sans ambiguïté a atteint 50,85% (par rapport à 37,34% dans la version précédente) dans l’ensemble du Corpus ; dans le sous-corpus non-désambiguïsé, les mots annotés sans ambiguïté constituent 40% (contre les 23% dans la version précédente).

Le nombre de mots restant inconnus après analyse a été ramené de 10,6% à 0,5%.

Un travail important a été entrepris concernant les mots contenant des traits d'union et, parmi ceux-ci, les redoublements.

La marque possessive a changé son appartenance au partie de discours : ká:conj:POSS >> ká:pp:POSS.

Dans l'interface de recherche NoSketchEngine, il est désormais possible de choisir le N'ko comme la langue de présentation de l'interface. Pour cela, il faut cliquer sur le signe « roue dentée » à droit en haut de l'écran et choisir ߒߞߏ dans la liste des langues.

Des nouveaux textes ont été ajoutés au sous-corpus désambiguïsé :

  • Musokònòma ka banaw. Bamakɔ, 495 mots.
  • Musow ka baaraw Kaarata mara kɔnɔ. Bamakɔ: DNAFLA-ODIK, 1992, 919 mots.

Kuranɛ :
  • Suran 6, 7498 mots

Jɛkabaara :
  • No. 1, janv. 1986, 3485 mots
  • No. 329, janv. 2014, 6335 mots
  • No. 332, avril 2014, 6501 mots

Kibaru :
  • No. 466, novembre 2010, 11382 mots
  • No. 528, janvier 2016, 10731 mots
  • No. 533, juin 2016, 12297 mots
  • No. 534, juillet 2016, 10247 mots
  • No. 535, août 2016, 11484 mots
  • No. 536, septembre 2016, 9711 mots
  • No. 537, octobre 2016, 9702 mots
  • No. 538, novembre 2016, 11391 mots
  • No. 539, décembre 2016, 10911 mots

Des nouveaux textes ont été ajoutés au sous-corpus non-désambiguïsé :

Kuranɛ :
  • Suran 8, 3069 mots
  • Suran 9, 5910 mots

Jɛkabaara :
  • No. 1, janv. 1986, 3485 mots
  • No. 4, avril 1986, 3698 mots
  • No. 5, mai 1986, 2873 mots
  • No. 7, juillet 1986, 3617 mots
  • No. 8, août 1986, 4593 mots
  • No. 9, septembre 1986, 3909 mots
  • No. 16, avril 1987, 3421 mots
  • No. 17, mai 1987, 3936 mots
  • No. 18, juin 1987, 3766 mots
  • No. 19, juillet 1987, 4534 mots
  • No. 20, août 1987, 5558 mots
  • No. 21, septembre 1987, 5209 mots
  • No. 22, octobre 1987, 5041 mots
  • No. 44, août 1989, 4619 mots
  • No. 45, septembre 1989, 6655 mots
  • No. 46, octobre 1989, 6684 mots
  • No. 47, novembre 1989, 8052 mots
  • No. 48, decembre 1989, 5637 mots
  • No. 51, mars 1990, 5650 mots
  • No. 53, mai 1990, 5056 mots
  • No. 54, juin 1990, 5799 mots
  • No. 56, août 1990, 6663 mots
  • No. 57, septembre 1990, 7469 mots
  • No. 58, octobre 1990, 7715 mots
  • No. 59, novembre 1990, 6913 mots
  • No. 61, janvier 1991, 5571 mots
  • No. 63, mars 1991, 5475 mots
  • No. 65, mai 1991, 6685 mots
  • No. 66, juin 1991, 6944 mots
  • No. 68, août 1991, 5533 mots
  • No. 69, septembre 1991, 6116 mots
  • No. 70, octobre 1991, 5912 mots
  • No. 71, novembre 1991, 5836 mots
  • No. 72, decembre 1991, 7118 mots
  • No. 73, janvier 1992, 7402 mots
  • No. 74, février 1992, 6791 mots
  • No. 75, mars 1992, 6921 mots
  • No. 76, avril 1992, 7364 mots
  • No. 77, mai 1992, 4897 mots
  • No. 78, juin 1992, 5395 mots
  • No. 79, juillet 1992, 9645 mots
  • No. 80, août 1992, 7272 mots
  • No. 81, septembre 1992, 7921 mots
  • No. 82, octobre 1992, 6966 mots
  • No. 83, novembre 1992, 7330 mots
  • No. 84, décembre 1992, 8299 mots
  • No. 85, janvier 1993, 7732 mots
  • No. 86, février 1993, 7716 mots
  • No. 87, mars 1993, 7053 mots
  • No. 88, avril 1993, 5251 mots
  • No. 90, juin 1993, 6863 mots
  • No. 91, juillet 1993, 6094 mots
  • No. 92, août 1993, 10691 mots
  • No. 93, septembre 1993, 9120 mots
  • No. 94, octobre 1993, 7298 mots
  • No. 95, novembre 1993, 7048 mots
  • No. 97, janvier 1994, 9002 mots
  • No. 99, mars 1994, 8274 mots
  • No. 102, mai 1994, 9075 mots
  • No. 103, juin 1994, 9054 mots
  • No. 104, juillet 1994, 8451 mots
  • No. 105, août 1994, 7465 mots
  • No. 106, septembre 1994, 8774 mots
  • No. 108, novembre 1994, 9079 mots
  • No. 110, janvier 1995, 8077 mots
  • No. 111, février 1995, 7925 mots
  • No. 112, mars 1995, 8414 mots
  • No. 113, avril 1995, 6904 mots
  • No. 114, mai 1995, 8925 mots
  • No. 116, juillet 1995, 8707 mots
  • No. 117, août 1995, 8397 mots
  • No. 118, septembre 1995, 7694 mots
  • No. 119, octobre 1995, 7598 mots
  • No. 120, novembre 1995, 9131 mots

Kibaru :
  • No. 320, sept. 1998, 8487 mots
  • No. 321, oct. 1998, 9427 mots
  • No. 322, nov. 1998, 8077 mots
  • No. 323, dec. 1998, 9745 mots
  • No. 324, janv. 1999, 10294 mots
  • No. 331, août 1999, 9931 mots
  • No. 334, nov. 1999, 10193 mots
  • No. 365, juin 2002, 8137 mots
  • No. 366, juillet 2002, 8503 mots
  • No. 378, juillet 2003, 10066 mots
  • No. 417, octobre 2006, 10237 mots
  • No. 429, octobre 2007, 9114 mots
  • No. 433, fevrier 2008, 9885
  • No. 434, mars 2008, 9373 mots
  • No. 452, sept. 2009, 11659 mots
  • No. 453, oct. 2009, 10139 mots
  • No. 541, février 20017, 9361 mots

Anciennes mises à jour

Veuillez cliquer ici pour accéder à l’historique des mises à jour.