Corpus

Corpus Maninka

Le Corpus Maninka de Référence est une collection de textes annotés en langue maninka de Guinée écrits originellement en deux variantes de l’orthographe latine : l’ancienne qui date de la période de la Première République (1958-1984), et la nouvelle, introduite en 1988. Ces textes (surtout publiés en ancienne orthographe) se caractérisent par une instabilité de l’orthographe et, souvent, des nombreuses fautes (dans les textes inclus dans le Corpus les deux écritures sont données : originale, avec toutes les fautes, et corrigée) ; les tons ne sont jamais notés. De nos jours, l’utilisation de l’orthographe latine en Guinée est limitée, la prépondérance étant donnée au N’ko.

Le Corpus comporte des textes appartenant à des genres différents : journaux, belles-lettres, littérature d’alphabétisation et de vulgarisation, ouvrages religieux, etc.

Au moment de l'ouverture du Corpus Maninka en avril 2016, son volume est de
396 389 mots. Dans cette première version du Corpus, la grande majorité des textes apparaissent sans données métatextuelles ; les numéros des publications périodiques sont parfois enregistrés en un seul fichier, sans division en articles ; il n’y a pas encore de textes désambiguïsés ; l’annotation automatique est basée sur le dictionnaire électronique Malidaba qui est encore très loin de complétude. Un travail ultérieur est prévu pour corriger ces défauts.

 

Corpus N'ko

Le Corpus N'ko de Référence est une collection de textes annotés en écriture N'ko en maninka de Guinée qui s'utilise largement en Guinée et dans les autres pays de l'aire mandingue et dans le diaspora mandingue. En fait, il s'agit d'une langue écrite prétendante à s'établir comme telle pour toute la zone linguistique du mandingue de l'est. Tous les textes en N'ko sont tonalisés.

Le Corpus comporte des textes appartenant à des genres différents : périodiques, belles-lettres, littérature d’alphabétisation et de vulgarisation, ouvrages religieux, etc.

Au moment de l'ouverture du Corpus N'ko en avril 2016, son volume est de
3 105 879 mots. Dans cette première version du Corpus, la grande majorité des textes apparaissent sans données métatextuelles ; les numéros des publications périodiques sont parfois enregistrés en un seul fichier, sans division en articles ; il n’y a pas encore de textes désambiguïsés ; l’annotation automatique est basée sur le dictionnaire électronique Malidaba qui est encore très loin de complétude. Un travail ultérieur est prévu pour corriger ces défauts.


Mise à jour, le 14 mars 2017


Archives mises a jour