Etiquetage

Les textes du Corpus sont annotés automatiquement par un logiciel spécialisé (le parseur morphologique Daba), qui s’appuie sur un dictionnaire électronique bambara (Bamadaba) et une représentation formalisée de la morphologie de cette langue. L’analyse s’effectue mot par mot sans tenir compte du contexte syntaxique pour le moment, et plusieurs variantes d’analyse sont offertes par le parseur pour la plus part des mots. L’ensemble des textes traités automatiquement représente le sous-corpus non-désambiguïsé. Dans un certain nombre de textes, l’homonymie est éliminée manuellement par nos opérateurs ; ces textes représentent le sous-corpus désambiguïsé.
Les textes sont organisés en tokens; un token est un mot-forme ou un signe de ponctuation. Chaque mot et chaque morphème est pourvu d'un étiquetage linguistique.

Tous les sous-corpus présentent les types d’étiquetage suivants:

1. Mot-forme selon l’orthographe bambara de 1982

Lorsque le texte original est dans une orthographe différente, le moteur de recherche montre la forme originale; mais, la base de données comporte également la forme dans la nouvelle orthographe et celle-ci peut être montrée si nécessaire.

2. Lemme (ou liste des lemmes)

C'est la forme canonique (celle du dictionnaire) correspondant à un mot-forme débarrassés des affixes flexionnels. Les dérivés plus ou moins lexicalisés et les mots composés dont la formation s’accompagne de lexicalisation (c'est-à-dire, les formes représentées dans la base lexicale Bamadaba en tant que lexèmes) sont traités comme des lemmes.
Dans le cas d’un lexème ayant plusieurs variantes phonétiques, toutes ses variantes sont prises en compte et représentées dans la base lexicale Bamadaba. Lors d’une recherche dans le corpus, toutes ces variantes phonétiques sont vues comme des formes équivalentes du lexème.

3. Étiquette de la partie de discours

Notre approche se base sur les principes formulés dans l’article de Valentin Vydrin :
Valentin VYDRINE. Les parties du discours en bambara : un essai de bilan. Mandenkan 35, 1999, pp. 72-93. (http://llacan.vjf.cnrs.fr/PDF/Mandenkan35/35vydrin.pdf)
Les emplois d’une même forme en fonction verbale et nominale, adjectivale et verbale, etc., sont particulièrement considérés comme des lexèmes différents liés par des conversions plutôt que des emplois différents d’un seul lexème. Dans les cas ambigus, les étiquettes alternatives des parties de discours sont séparées par le signe ``|``.

4. Glose

Concernant les lexèmes polysémiques, on choisit pour la glose le sens qui peut être vu comme le plus prototypique (autrement dit, celui dont tous les autres sens peuvent être dérivés par des transformations sémantiques plus ou moins élémentaires). Notons que la glose représente le lexème dans tous les contextes, quel que soit son sens dans chaque cas particulier. Cela assure l’identité du lexème; mais au même temps, complique la compréhension de la phrase. Dans cette perspective, il est prévu de donner à l’utilisateur un accès facile à la liste complète des différentes valeurs d'un lexème polysémique.
Les gloses des lexèmes auxiliaires et des affixes (flexionnels et dérivatifs) sont représentés par des abréviations conventionnelles (cf. Gloses pour les affixes et les mots auxiliaires en bambara) élaborées selon les principes des Règles de glosage de Leipzig (Leizig_rules2005.pdf)