Le Corpus Maninka de Référence se trouve en accès libre à l’adresse suivante :
http://maslinsky.spb.ru/testing/cormani/run.cgi/first_form
En haut, se trouvent quatre options principales pour la recherche : Corpus, Query Type, Query, Text types.
L’option Corpus permet le choix entre deux sous-corpus :
Tous les textes du Sous-Corpus N’ko sont représentés en même temps en graphisme latin (un résultat de conversion par le moyen d’un logiciel spécial développé par Andrij Rovenchak) où la notation tonale est maintenue ; les tons sont notés selon les principes du Corpus Maninka de Référence (cf. le document « Notation tonale dans un texte normalisé maninka » sur ce site), les mêmes que dans le Corpus Bambara de Référence. Il y a également une version de ce sous-corpus en graphisme latin sans notation tonale. Une recherche dans ce Sous-Corpus est possible par la forme N’ko et par la forme en alphabet latin.
Le Sous-Corpus Latin comporte des textes en maninka de Guinée créés originellement dans l'alphabet latin en orthographe ancienne (avant 1988) et celle actuellement en vigueur. Pratiquement tous ces textes n’ont pas de notation tonale, et ils contiennent souvent de très nombreuses fautes d’orthographe. Pour certains de ces textes, une correction orthographique a été entreprise ; dans ce cas, la recherche s’effectue dans les versions corrigées des textes.
Le Sous-Corpus Latin est représenté également sous version convertie en N’ko, cette version est générée automatiquement par un programme de conversion (développé par Andrij Rovenchak). Comme les textes originaux n’ont pas de notation tonale, la version N’ko du Sous-Corpus Latin n’est pas tonalisée non plus. Un problème supplémentaire consiste en ce que les marques diacritiques suscrites désignent à la fois le ton et la longueur ; autrement dit, on ne peut pas marquer la longueur de la voyelle sans indiquer son ton. Une décision a été prise de marquer une voyelle longue par la marque diacritique « voyelle longue + ton haut ». Ainsi, le mot faa ‘mourir, tuer’ sera transcrit comme ߝߊ߱ (c.-à-d. fáa, la transcription correcte serait ߝߊ߰ fàa). La seule exception a été faite pour la voyelle ɔ qui apparaît en Maninka beaucoup plus souvent avec un ton bas. Par conséquence, sɔɔ ‘percer’ et tɔɔ ‘nom’ seront transcrits ߛߐ߰ ، ߕߐ߰ (les transcriptions correctes seraient ߛߐ߰ sɔ̀ɔ et ߕߐ߮ tɔ́ɔ).
Pour le moment, la désambiguïsation du Corpus Maninka n’a pas commencé. Il est prévu, à l’avenir, de créer des sous-corpus désambiguïsés, mais ce travail doit être précédé par l’achèvement de la première étape du développement de la base lexicale (dictionnaire électronique) Malidaba.
Tous les textes sont subdivisés en tokens. Un Token est un mot ou un signe de ponctuation. Chaque mot et chaque morphème à l’intérieur du mot est doté d’un étiquetage linguistique.
Chaque sous-corpus comporte l’étiquetage linguistique suivant :
L’option Query type (qui peut être choisie par un clic sur l’inscription Query type dans le menu à gauche) offre les types de recherche suivants :
Une recherche ignorant la casse du texte en orthographe latine (pour le N’ko, la casse n’est pas pertinente). Cette recherche se produit par :
Cela veut dire qu’une recherche du type « Simple » peut être faite soit par une forme N’ko (tonalisé), soit par une forme latine (non-tonalisée).
La notation tonale en N’ko représente les réalisations tonales contextuelles. Cela veut dire que si on fait une recherche par la forme N’ko pour un lexème ayant des variantes tonales grammaticales et/ou contextuelles, toutes les occurrences ne peuvent être trouvées qu’à plusieurs reprises, par toutes les variantes tonales. Si on veut trouver toutes les occurrences du lexème d’un seul coup, on est obligé de procéder par la recherche par la forme en orthographe latine, ou encore on doit utiliser des signes de substitution au lieu des marques diacritiques tonales. Ainsi, le mot masa (sans tons) peut être trouvé si on fait la recherche sous la forme suivante :
(c.-à-d., le signe diacritique est remplacé par un point. L’inconvénient est qu’en même temps, les formes avec le point diacritique souscrit seront trouvées aussi, et ce signe désigne l’élément nasal final de la syllabe, plutôt qu’un ton).
Pour la recherche du type Simple, une option supplémentaire est offerte, Inclure les formes dérivées et composées. Si cette option n’est pas cochée, la racine recherchée ne sera trouvée que lorsqu’elle apparaît en tant qu’un lexème autonome. Si cette option est cochée, on trouvera toutes les occurrences de la racine, y compris dans les mots dérivés et composés.
Dans le Sous-Corpus N’ko, la recherche est effectuée par la forme latine non-tonalisée, en respectant la casse. Cela permet de trouver toutes les occurrences du lexème (quelle que soit la variation grammaticale ou contextuelle des tons). Pour le Sous-Corpus Latin, ce type de recherche ne se distingue pas d’une recherche par la forme non-tonalisée du type « Simple ». En absence de sous-corpus latin désambiguïsés, ce type de recherche produit les mêmes résultats qu’une recherche « simple ».
C’est une recherche dans le texte original (le niveau d’annotation : Word) par une séquence des mots-formes séparés par des espaces (en fait, une recherche par « Word » seulement est possible également), en respectant la casse (dans le Sous-Corpus Latin). Attention ! La recherche du type « Expression » étant effectuée dans le texte original (donc non-normalisé), elle est sensible à l’orthographe de ce texte. Ainsi, si on cherche la forme sɔɔ, on trouvera ses occurences dans les textes en nouvelle orthographe, tandis que tous les occurences de ce mot en ancienne orthographe (söö) seront ignorés.
C’est une recherche par un mot-forme dans le texte original (le niveau d’annotation : Word) par le mot-forme, en ignorant la casse (là où il s’agit du Sous-Corpus Latin). A la différence de la recherche “Simple”, cette recherche ne sélectionne pas les phrases où la racine représentée par la séquence en question comporte des affixes ou fait partie des mots dérivés ou composés. Ainsi, si on cherche mɔgɔ, on ne trouverait pas les formes mɔɔlu, duukɔnɔmɔɔ, etc. Néanmoins, on trouvera des mots-formes avec une structure morphologique complexe (ainsi, en cherchant la “Word” sara, on trouverait, parmi les autres, la forme sara du perfectif du verbe sà). Autrement dit, ce type de recherche est analogue à la recherche dans Word avec l’option « Mot entier », ou une recherche d’un mot entre guillemets sur Internet. Comme dans la recherche du type « Expression », « Word » est sensible à l’orthographe du texte original.
C’est une recherche dans le texte original (le niveau d’annotation : Word) par une séquence des symboles (non-séparés par des espaces) qui peut ne pas être identique à un morphème (une racine ou un affixe) maninka quelconque. La casse est respectée. En fait, ce type de recherche est presque identique à celui de « Phrase », sauf qu’il ne permet pas une recherche par une séquence ayant une espace à l’intérieur.
C’est une recherche par tous les paramètres disponibles des mots-formes, mais aussi par des combinaisons de ces paramètres. C’est un type de recherche flexible dont les questions sont formulées dans une langue artificielle `Corpus Query Language (CQL) <https://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying>
Lorsqu’on choisit le type de recherche CQL, une fenêtre Attribut par défaut apparaît automatiquement. Cette fenêtre comporte les options Word, Lemma, Tag, Form, Gloss, Parts, Source (celui-ci pour le Sous-Corpus Latin seulement), Tonal, Latin (celui-ci pour le Sous-Corpus Nko seulement). La première et la deuxième option produisent les résultats analogiques à ceux qu’on obtient par des types différents de la recherche (cf. supra), mais elles sont nécessaires pour une recherche combinée.
Les deux dernières options permettent la recherche par la marque de partie de discours et par la glose française. Les listes exhaustives des marques des parties de discours et des gloses pour les morphèmes et les mots auxiliaires se trouvent sur la page d’accueil, l’onglet « Documentation ». Attention! Les gloses auxiliaires se trouvent au même niveau que les marques des parties de discours. Cela veut dire que, par exemple, pour rechercher la glose PTCP.RES, il faut indiquer l’option « tag ».
La correspondance entre les types de recherche et les niveaux d’annotation est représentée dans le tableau suivant :
Type de recherche | Les niveaux d’annotations concernees |
---|---|
Simple | Word, Lemma, Parts, Latin/Nko |
Lemma | Lemma |
Phrase | Word |
Word form | Word |
Character | Word |
CQL | Tous |
Tous les types de recherche, sauf CQL, supposent une introduction de la forme à rechercher dans la fenêtre Query. Après cela, il faut appuyer sur la touche Enter ou cliquer la touche Créer une concordance (en bas de l’écran), et le logiciel créera la concordance.
Pour la recherche dans cormani-lat, les formes sont introduites en caractères latins et ne doivent pas avoir de marques tonales. Pour la recherche dans cormani-nko, la forme recherchée est introduite soit en caractères N’ko avec les marques tonales, soit en caractères latins sans marques tonales.
Pour une recherche du type CQL, la forme recherchée est mise entre guillemets: "kuma", "dòn", "pp", "serpent", etc. Toute la commande est mise en crochets.
Une recherche combinée est effectuée par plusieurs attributs d’un lexème à la fois, ce qui permet de nuancer au maximum la recherche et d’obtenir une sélection très pointue. Lors de cette recherche, l’option indiquée dans la fenêtre Attribut par défaut n’est pas pertinente (parce que les mêmes options sont indiquées dans la fenêtre CQL manuellement). La commande introduite dans la fenêtre CQL a la syntaxe suivante (ce qui se trouve entre chaque paire de crochets correspond à un token) :
[option1="n1" espace & espace option2="n2"]
(n1, n2 correspondent à des séquences recherchées).
Par exemple, si on veut trouver tous les emplois du mot kuma avec une étiquette de partie de discours « verbe » (v) dans le Sous-Corpus Latin, la requête est formulée comme suit :
[word="kuma" & tag="v"]
Dans le Sous-Corpus N’ko, la même requête se présente comme suit :
[word="ߞߎߡߊ߱߫" & tag="v"]
Une recherche par trois (ou plus) paramètres à la fois est également possible (même si cela ne donne pas souvent grande chose par rapport à une recherche par deux paramètres), ex. :
[word="kɔnɔ" & tag="n" & gloss="oiseau"]
Évidemment, une recherche combinée n’est pertinente que dans le sous-corpus désambiguïsé (qui est absent, pour le moment, du Corpus Maninka de Référence).
Une recherche combinée est possible, dans le cadre de CQL, pour des expressions à plusieurs mots. Dans ce but, chaque mot (plus précisément, chaque token) doit être mis entre crochets, et les tokens doivent être séparés par des espaces. Ex. :
[word="bada" & gloss="calebasse"] [word="kɔnɔ" & gloss="à.l’intérieur"]
Cette recherche permet de trouver toutes les combinaisons bàda kɔ́nɔ où le premier mot est ‘calebasse’ (plutôt que ‘chez’, ‘dancing’, ‘préféré’), et le deuxième mot est la postposition inessive (plutôt qu’‘attendre’, ‘bouton.de.fleur’, ‘oiseau’, ‘ventre’).
Le régime CQL permet une recherche par modèle grammatical, ce qui peut être utile pour des études syntaxiques. Prenons le modèle suivant :
[tag="adv.p"] [tag="v"]
Cette recherche devrait sélectionner toutes les occurrences des adverbes postverbaux dans la position préverbale.
Pour rechercher des parties d’un mot-forme complexe, y compris des morphèmes inflexionnels et dérivationnels, il faut indiquer le morphème en question dans les crochets (sans oublier que les morphèmes auxiliaires se trouvent dans l’option tag !), et le moteur de recherche trouvera tous les mots-formes comportant ce morphème.
Ainsi, pour trouver toutes les formes comportant la marque du pluriel, la commande se formule comme suit :
[tag="PL"]
Si on veut trouver une séquence de deux mots-formes dont la première comporte la marque du pluriel, et la deuxième la marque du participe potentiel, on doit formuler la commande comme suit :
[tag="PL"] [tag="PTCP.POT"]
Pour rechercher les formes redoublées (dont les parties sont écrites séparément), on peut appliquer la commande suivante :
1:[] 2:[] & 1.word = 2.word
Si on veut, par exemple, trouver tous les verbes redoublés, la commande doit être comme suite :
1:[tag="v"] 2:[tag="v"] & 1.word = 2.word
Pour rechercher les formes redoublées écrites en un seul mot, la syntaxe de commande doit être la suivante :
"(.+)\1"
Pour les formes écrites avec un trait d’union :
"(.+)-\1"
Et si nous voulons obtenir à la fois les formes collées et à trait d’union, la commande est comme suit :
"(.+)-?\1"
Pour minimiser le bruit, on peut exclure de la recherche les symboles inutiles (les nombres, la signe %, etc.). Il faut les énumérer, sans espaces, en les mettant dans les crochets dans la position devant le +; la séquence des symboles à exclure doit être précédée par un ^. Ainsi, la commande « rechercher toutes les formes redoublées collées ou écrites avec un trait d’union, en ignorant les nombres et % », est comme suit : "([^0-9%]+)-?\1"
L’introduction de symboles non-standards(ɔ, ɛ, ɲ, les signes diacritiques pour les tons) est possible de deux façons alternatives :
1) Par le moyen des jeux de caractères spéciaux (on peut même utiliser le clavier français standard pour les symboles à, è, é, ù…, cependant, ce clavier est insuffisant pour beaucoup d’autres symboles) ;
2) Les symboles non-standards peuvent être remplacés par les combinaisons suivantes :
;o = ɔ
;e = ɛ
;m = ɲ
L’accent aigu (la marque du ton haut) est remplacé par une virgule après une voyelle, et l’accent grave (la marque du ton bas) est remplacé par l’apostrophe inverse suivant la voyelle. Ex. :
k;o, -> kɔ́
su` -> sù
k;e,n;e -> kɛ́nɛ
;m;o` -> ɲɔ̀
Le clavier Phonetic développé par Denis Paperno et adapté au clavier QWERTY peut être téléchargé ici:
https://sites.google.com/site/denispaperno/papers/phonetic.zip?attredirects=0&d=1
Le clavier AFU sur la base du clavier AZERTY peut être téléchargé ici:
http://llacan.vjf.cnrs.fr/res_manuels.php
(en bas de page ; on y trouvera également un clavier AFUQwerty).
L’introduction du texte en N’ko s’effectue par le moyen de n’importe quel jeu de caractères adaptée aux polices de caractères UNICODE contenant le N’ko.
En particulier, on peut recommander le clavier Nkolat développé par Andrij Rovenchak et rapproché au clavier latin QWERTY. Ce jeu de caractères peut être téléchargé ici : http://cormand.huma-num.fr/cormani/nkolatin.zip
Cette option permet d’effectuer une recherche de la cooccurrence des formes séparées par d’autres formes. Elle est activée (ou désactivée) par un clic sur le mot Contexte dans le menu à gauche.
Le mot de référence (par rapport auquel le contexte est indiqué) est introduit dans la fenêtre Query.
La forme déterminant le contexte voulu (donc la forme dont les combinaisons avec le mot de référence doivent être recherchées) est introduite dans Filtre de lemme. On peut y donner plus d’une forme.
Dans les fenêtres de Filtre de lemme, on peut indiquer quel est le contexte qui nous intéresse (gauche, droit, les deux – dans ce dernier cas, à la fois les contextes droit et gauche sont pris en compte). L’option à droite permet d’indiquer la longueur du contexte, de 1 à 15 mots-formes. Si cette longueur est définie à 1, seules les formes adjacentes à la forme de référence seront trouvées (donc le résultat sera le même que pour la recherche du type Expression). Si la longueur du contexte est 2, on trouvera des cas où les formes contextuelles sont adjacentes à la forme de référence ou séparées par une autre forme, etc. (il faut préciser qu’on trouvera également les cas où la forme contextuelle est séparée de la forme de référence par la limite de la proposition).
A la gauche de la fenêtre Lemma, on trouvera une autre fenêtre contenant les options Tout, Chaque, Aucun.
En sélectionnant l’option Tout, et en indiquant en même temps deux (ou plus) formes contextuelles, on trouvera les exemples où les trois formes (la forme de référence et les deux formes contextuelles) apparaissent. Ainsi, si la forme de référence est kɛ, et les formes contextuelles sont jɛdɛ et ɲɔɔn, on trouvera (parmi les autres) les exemples suivants : dɔ o lu fan` ka mɔlɔn nu k' alu jɛdɛ La, mɛn` nu ye kela` jɛdɛ` mɔlɔn` nu ɲɛ pananun, a n' alu k` alu jɛdɛ kɛ uwayisu karanuka` ɲɔɔn` di mɔɔ ɲimaya` dɔ Cette recherche peut être efficace (parmi d'autres) pour une étude de la possibilité de l’emploi des verbes transitifs avec les marques prédicatives (ce qui peut être important, par exemple, pour l’analyse des Aktionsarte), de la combinaison des verbes avec les postpositions, etc.
En sélectionnant la fonction Chaque, on trouvera tous les cas où kɛ apparaît avec au moins une des formes contextuelles (y compris, bien évidemment, les cas où toutes les trois formes (kɛ, jɛdɛ et ɲɔɔn) co-occurrent).
Avec l’option Aucun, toutes les occurrences du mot de référence sont sélectionnées avec les contextes où les formes contextuelles en question sont ABSENTES. Cette option peut être utile là où une forme apparaît le plus souvent dans le cadre de certaines expressions figées, tandis que l’utilisateur veut trouver ses utilisations en dehors de ces expressions.
Par défaut, le logiciel fait la recherche dans le sous-corpus entier. Dans la division Text types, on peut limiter la liste des textes dans lesquels on veut effectuer la recherche. L’option peut être activée par un clic sur Text types dans le menu à gauche.
La première fenêtre, doc.id, permet d’indiquer le texte particulier qu’on veut inclure dans le sous-corpus individuel. Si on commence à taper le nom de l’auteur ou le premier mot du titre de l’ouvrage, et si ce texte existe dans le corpus, le nom du fichier apparaît dans l’invite flottante.
Plus bas, on trouve les fenêtres :
Dans l’état actuel, la grande majorité des textes du Corpus Maninka de Référence ne sont pas dotés des informations métatextuelles, et le tri par Text types ne fonctionne pas.
Un résultat non-négatif d'une recherche dans le sous-corpus est une concordance, c.-à-d. une liste d’exemples (et leurs contextes) trouvés dans le sous-corpus. Le Corpus Maninka de Référence n’a pas de limite en ce qui concerne le nombre d’exemples fournis à l’utilisateur. Dans la bande blanche en haut de l’écran, on trouvera l’indication du nombre d’exemples trouvés (Hits). Au-dessous de cette bande, le nombre de pages de la concordance est indiqué (dans le cas où le nombre d’exemples est supérieur à 20; par défaut, le nombre d’exemples par page est égal à 20). On y trouvera également les touches de navigation dans la concordance.
Pour chaque exemple, le nom du fichier est indiqué (où le nom de l’auteur et le titre du texte sont présentés d’une façon suffisamment transparente. cf. Page d’accueil – Documentation - Noms de fichiers dans le Corpus).
Pour régler la présentation de la concordance, on utilise deux options du menu : KWIC/Sentence et Options d’affichage.
En cliquant sur KWIC/Sentence, on change le régime de présentation des exemples : sous « Sentence », des propositions entières sont montrées (« d’un point à l’autre »), et sous le régime KWIC, les contextes droit et gauche d’une longueur déterminée sont montrés (par défaut, 40 caractères à gauche et 40 caractères à droit).
L’option Options d’affichage permet de régler la présentation de la Concordance d’une façon plus nuancée. On peut, en particulier :
Les autres fonctions de la zone Options d’affichage (Sort good dictionary examples etc.) ne sont pas pertinentes pour notre Corpus.
Pour activer la configuration définie dans les Options d’affichage, il faut cliquer sur le bouton Save & Change view options en bas :
Le tri des exemples est réglé dans la zone Tri. Les exemples peuvent être rangés par ordre alphabétique de la forme se trouvant à droite de la forme recherchée (Contexte à droit) ou à gauche (Contexte à gauche) ; la distinction entre les lettres majuscules et minuscules peut être ou ne pas être prise en compte (Ignorer la casse). Ils peuvent être rangés par ordre alphabétique inversé (tri descendant). L’activation des paramètres choisis est effectuée en cliquant sur la touche Sort Concordance.
Le tri à plusieurs niveaux n’est pas pertinent pour notre Corpus pour le moment.
Le menu principal comporte également les options Tri – Références (tri par noms des fichiers comportant les exemples de la concordance) et Tri – Déplacer (brassage des exemples, de façon à lister les exemples au hasard).
L’option Échantillon permet de produire un échantillon aléatoire (parmi tous les exemples trouvés dans le corpus).
L’option Filtrer est analogue, par ses fonctions, à l’option Contexte, cf. la division 4.
L’option Fréquence donne l’accès à la statistique des mots-formes comportant l’élément en question, et la statistique de ses combinaisons avec les éléments voisins.
L’interface de cette option comporte deux zones :
Pour chaque niveau hiérarchique du tri, on peut choisir entre :
A même temps, on peut définir les attributs de l’élément de référence et l’élément contextuel : word, lemma, tag, gloss. Notons qu’un calcul des fréquences du mot de référence dans le sous-corpus non-désambiguïsé par les paramètres lemma, tag, gloss n’est pas pertinent.
permet de définir la fréquence de l’élément recherché dans :
La section Cooccurences permet de trouver des candidats aux collocations du mot recherché avec d’autres mots. La recherche est possible par les attributs (Attribut) des mots voisins (word, lemma, tag, gloss). On peut nuancer la recherche en indiquant s’il faut tenir compte du contexte à gauche (Dans le voisinage de -1, -2, etc.) ou à droite (… to 1, 2, etc.); les chiffres correspondent à la dimension du contexte pris en compte (-1/1: seuls les mots contigus sont pris en compte; -2/2: le mot adjacent et le mot qui le suit/précède sont pris en compte, etc.).
En appuyant sur la touche Make Candidate List, on obtient la liste des candidats aux collocations. En cliquant sur l’étiquette bleue Frec., ils seront rangés par ordre décroissant de fréquence.
L’option Liste de mots permet de créer un dictionnaire de fréquence. En entrant dans cette option, on peut choisir entre les étiquettes All words, All lemmas. En cliquant sur ces étiquettes, on obtient une liste de fréquences de tous les tokens du sous-corpus (en ordre de décroissance). Les signes de ponctuations (étant des tokens du Corpus) se trouveront dans cette liste aussi.