Outillage

Outillage

Pour le travail sur le Corpus, l’outillage suivant est utilisé :

 

1. Daba

c'est un ensemble de programmes élaborés par Kirill Maslinsky qui permet d’annoter automatiquement des textes pour créer le corpus. Il s’agit principalement des trois logiciels suivants :

  • L’analyseur morphologique de textes qui s’appuie sur des dictionnaires et une grammaire électroniques connectés à l’analyseur sous forme de modules ;
  • L’interface pour la désambiguïsation manuelle de l’étiquetage généré automatiquement par l’analyseur morphologique;
  • L’interface pour l’introduction des informations méta-textuelles.

 

2. Un moteur de recherche

Il basé sur le logiciel en accès libre NoSketchEngine. Ce moteur de recherche a été adapté pour pouvoir tenir compte de la spécificité du Corpus maninka de référence.

 

Base de données lexicales (Malidaba)

1. Comme point de départ pour la base lexicale Malidaba, on a utilisé une liste de mots dans un corpus des textes maninka non-traités (environ 2 millions d’occurrences) rangés par leurs fréquences. En plus, les données de deux dictionnaires ont été intégrés semi-automatiquement :

  • Dictionnaire bilingue français-N’ko, Solomana Kantè. Conakry, 2012. (Toutes les formes ont été converties en caractères latins, et la notation tonale a été ramenée automatiquement au standard du Corpus).
  • la base lexicale mandingue par Valentin Vydrin (une version élargie du dictionnaire V. Vydrine. Manding-English Dictionary (Maninka, Bamana). Vol. 1. St. Petersburg: Dmitry Bulanin Publishing House 1999).

Dans la partie traitée de Malidaba, chaque lexème est représenté en graphisme latin et N’ko, il est doté d’une marque indiquant sa partie du discours, des gloses française, anglaise et russe (pour le moment, les gloses françaises sont utilisées dans le Corpus par défaut ; les gloses anglaises sont utilisées là où les gloses françaises sont temporairement absentes).

Pour les lexèmes polysémiques, le sens le plus prototypique a été choisi parmi tous les autres sens (ce qui n’a pas été toujours facile ; sans doute certains choix seront révisés dans le futur). Dans de nombreux cas, la glose est représentée par deux (ou plusieurs) mots français séparés par des points (sans espaces), ex. : bája = rizs.tardif.espèce, bálon = rouleau.d'étoffe.

Pour les espèces biologiques et surtout celles qui n’ont pas de noms français généralement admis, la glose comporte un nom latin précédé d’un mot générique, ex. : bàndankɔ̀nbɛn = insecte.Odontopus.sexpunctatus, bàranbàran = arbre.Margaritaris.discoidea.
Cf. également : Gloses standards des affixes et mots auxiliaires maninka.

2. Des dictionnaires auxiliaires de noms propres ont été créés : un dictionnaire de noms d'individus: toolu.txt, un dictionnaire de noms claniques: jamuw.txt, un dictionnaire de toponymes: diyalu.txt. Ces dictionnaires se basent sur des fichiers élaborés par Valentin Vydrin pour les annexes du dictionnaire mandingue.

Les bases lexicales croissent progressivement au fur et à mesure de l’introduction de nouveaux textes dans le Corpus.