Corpus Maninka

Vydrin, Valentin & Maslinsky, Kirill & Méric, Jean Jacques & Rovenchak, Andrij, avec la collaboration d'Ibrahima Sory 2 Condé. (2011–2018) Corpus Maninka de Référence.

Le Corpus Maninka de Référence fait partie d'un macro-projet Corpora Mandeica qui regroupe des corpus de plusieurs langues mandé, c'est une collection de textes annotés en langue maninka de Guinée écrits originellement en deux variantes de l’orthographe latine : l’ancienne qui date de la période de la Première République (1958-1984), et la nouvelle, introduite en 1988. Ces textes (surtout publiés en ancienne orthographe) se caractérisent par une instabilité de l’orthographe et, souvent, des nombreuses fautes (dans les textes inclus dans le Corpus les deux écritures sont données : originale, avec toutes les fautes, et corrigée) ; les tons ne sont jamais notés. De nos jours, l’utilisation de l’orthographe latine en Guinée est limitée, la prépondérance étant donnée au N’ko.

Le Corpus comporte des textes appartenant à des genres différents : journaux, belles-lettres, littérature d’alphabétisation et de vulgarisation, ouvrages religieux, etc.

Au moment de l'ouverture du Corpus Maninka en avril 2016, son volume est de
396 389 mots. Dans cette première version du Corpus, la grande majorité des textes apparaissent sans données métatextuelles ; les numéros des publications périodiques sont parfois enregistrés en un seul fichier, sans division en articles ; il n’y a pas encore de textes désambiguïsés ; l’annotation automatique est basée sur le dictionnaire électronique Malidaba qui est encore très loin de complétude. Un travail ultérieur est prévu pour corriger ces défauts.

Corpus N'ko

Le Corpus N'ko de Référence est une collection de textes annotés en écriture N'ko en maninka de Guinée qui s'utilise largement en Guinée et dans les autres pays de l'aire mandingue et dans le diaspora mandingue. En fait, il s'agit d'une langue écrite prétendante à s'établir comme telle pour toute la zone linguistique du mandingue de l'est. Tous les textes en N'ko sont tonalisés.

Le Corpus comporte des textes appartenant à des genres différents : périodiques, belles-lettres, littérature d’alphabétisation et de vulgarisation, ouvrages religieux, etc.

Au moment de l'ouverture du Corpus N'ko en avril 2016, son volume est de
3 105 879 mots. Dans cette première version du Corpus, la grande majorité des textes apparaissent sans données métatextuelles ; les numéros des publications périodiques sont parfois enregistrés en un seul fichier, sans division en articles ; il n’y a pas encore de textes désambiguïsés ; l’annotation automatique est basée sur le dictionnaire électronique Malidaba qui est encore très loin de complétude. Un travail ultérieur est prévu pour corriger ces défauts.

Mise à jour, le 27 juin 2019

Dimension du corpus :

Le sous-corps N'ko (cormani-brut-nko): 3 220 189 mots
Le sous-corpus latin (cormani-brut-lat): 384 802 mots

Modifications:

La réanalyse morphologique automatique du Corpus a été effectué avec la nouvelle version du dictionnaire Malidaba. Par rapport à la version précédente, les mots dérivés et composés sont analysé hiérarchiquement.

Nouveaux textes dans le Sous-corpus Nko (cormani-brut-nko):

Kàmára, Lónkasiya. Kɔ́rɛ` lá dáwunin` ní yíriden` dó lú ɲámayɛ̀lɛman ɲá` (sàyira` - mánkoron` - bùyaki` - lèmununba`) [Traitement de certaines fruits]. 2017, 2500 mots. Fichier: kamara-kore_la_dawunin.
ߞߐߙߍ ߟߊ߫ ߘߊߥߎߠߌ߲ ߣߌ߫ ߦߙߌߘߋ߲ ߘߏ߫ ߟߎ߫ ߢߡߊߦߟߍ߬ߡߊ߲ ߢߊ (ߛߊ߬ߦߌ߬ߙߊ - ߡߊ߲ߞߏߙߏ߲ - ߓߎ߬ߦߊ߬ߞߌ - ߟߋ߬ߡߎ߬ߣߎ߲߬ߓߊ)
Kàmára, Lónkasiya. Ńko kɔ́mabinbin` kàfá`. [Livre d'insistance du N'ko.] Kánkan, 2018. 21300 mots. Fichier: kamara-nko_komabinbin.
ߒߞߏ ߞߐߡߊߓߌ߲ߓߌ߲ ߞߊ߬ߝߊ

Périodiques:

Dàlu Kɛ́ndɛ 048, 2012.04.14, 5550 mots
Dàlu Kɛ́ndɛ 062, 2012.08.21, 3650 mots
Dàlu Kɛ́ndɛ 063, 2012.08.27, 4000 mots
Dàlu Kɛ́ndɛ 064, 2012.09.03, 3100 mots
Dàlu Kɛ́ndɛ 065, 2012.09.10, 3800 mots
Dàlu Kɛ́ndɛ 066, 2012.09.17, 4100 mots
Dàlu Kɛ́ndɛ 067, 2012.09.24, 3250 mots
Dàlu Kɛ́ndɛ 068, 2012.10.01, 4000 mots
Dàlu Kɛ́ndɛ 086, 2013.02.25, 4150 mots
Dàlu Kɛ́ndɛ 087, 2013.03.04, 3500 mots
Dàlu Kɛ́ndɛ 088, 2013.03.11, 4200 mots
Dàlu Kɛ́ndɛ 089, 2013.03.18, 4650 mots
Dàlu Kɛ́ndɛ 092, 2013.04.22, 4800 mots
Dàlu Kɛ́ndɛ 093, 2013.04.29, 4400 mots
Dàlu Kɛ́ndɛ 094, 2013.05.06, 4200 mots
Dàlu Kɛ́ndɛ 095, 2013.05.13, 3000 mots
Dàlu Kɛ́ndɛ 096, 2013.05.20, 4500 mots
Dàlu Kɛ́ndɛ 097, 2013.05.27, 2750 mots
Dàlu Kɛ́ndɛ 098, 2013.06.03, 4900 mots
Dàlu Kɛ́ndɛ 099, 2013.06.10, 3850 mots

Corpus Maninka

Corpus N'ko

Mise à jour, le 27 juin 2019

Archives mises a jour