Guide d'utilisation

L’interface de recherche

L’interface de recherche du Corpus du mwan se trouve en accès libre à l’adresse suivante: http://maslinsky.spb.ru/dan/run.cgi/first_form
En haut, se trouvent trois options principales pour la recherche : Types de requêtes, Contexte et Types de texte.

L’étiquetage

Tous les textes sont subdivisés en tokens. Un token est un mot ou un signe de ponctuation. On associe à chaque mot et à chaque morphème une étiquette linguistique.

1. Mot-forme tel qu’il est dans le texte original (en orthographe mwan de 2000 ; en orthographe de 2009 ; en orthographe d’auteur…)

Quand un mot apparaît avec une faute d’orthographe ou sous forme non-standard (par exemple, une variante dialectale), la forme originelle est maintenue

2. Lemme est la forme sans marques flexionnelles. Chaque variante phonétique d’un lemme se trouvant dans le dictionnaire Mwandaba peut être un représentant de celui-ci (ex : béní et bléŋ, ce qui signifie 'canne à marcher')

Les lemmes sont des formes de mots sans flexions dans leurs orthographes standards (les fautes d’orthographe sont corrigées). Les mots dérivés lexicalisés et les mots composés dont la formation s’accompagne d’une lexicalisation (autrement dit, les mots dérivés et composés figurant dans la base lexicale des données Mwandaba comme des lexèmes) sont considérés comme des lemmes.

3. Étiquette de partie de discours (cf. Marques des parties des discours dans le Corpus mwan sur la page d’accueil.)

4. Glose est une traduction standardisée en français

A l’origine de la base lexicale Mwandaba se trouve le dictionnaire Mwan de Elena Perekhvalskaya et Moïse Yegbé. Certaines gloses sont représentées par deux mots français (ou plus) séparés par des points (sans espaces), ex. : vamaa ‘ibis.sacré’, bàloŋ̀zɔnmi ‘joueur.football’. Pour les noms des espèces biologiques (surtout celles n’ayant pas des noms français établis), la glose comporte le nom latin précédé par un mot désignant l’appartenance générique, ex. : gɔɔ yri ‘arbre. Terminalia glaucescens’. Cf. également : Gloses conventionnelles dans le Corpus mwan sur la page d’accueil.

Types de recherche

L’option Query type offre les types de recherche suivants :

Simple

Une recherche qui ignore la casse dans la forme originale du texte (la ligne Word) et dans la ligne Lemma. Si le lemme a plus d’une variante phonétique, chacune de ses variantes peut servir pour la recherche (ainsi, toutes les occurrences de glawò ~ glaò ‘hyène’ peuvent être trouvées par chacune de ces formes).

Pour la recherche de type Simple, une option supplémentaire est possible, Include derivates and composites. Si cette option n’est pas choisie, la racine recherchée n’est trouvée que si elle apparaît en tant qu’un lexème autonome (ainsi, si on fait une recherche de la forme nɛ̀ ‘enfant’, on ne trouvera pas le mot nɛɛnɛ̀ ‘frère (fils de la même mère)’). Si cette option est cochée, on trouvera toutes les occurrences de la racine, y compris dans les mots dérivés et composés.

Lemma

Recherche par lemme (y compris dans le cas où il est incorporé dans un lexème dérivé ou composé) respectant la casse. Contrairement à la recherche “Simple”, dans une recherche “Lemma”, on ne trouvera pas des mots-formes comportant des affixes flexionnels. Comme exemple, la recherche “Simple” pour pɔn donne entre autres la forme habituel (à ton moyen) du verbe pɔ́n ‘percer’; tandis que la recherche “Lemma” ne trouve que la forme pɔn ‘foutou de banane’, mais non la forme habituel du verbe pɔ́n ‘percer’.

Pour les formes flexionnelles, ce type de recherche n’est pertinent que pour le sous-corpus désambiguïsé; alors que son résultat pour le sous-corpus non-désambiguïsé est identique à celui de la recherche “Simple”.

Phrase

Elle permet une recherche, respectant la casse, dans le texte standard d’une séquence de mots-formes séparés par des espaces. La séquence peut comporter un ou plusieurs mots-formes.

Ainsi, si on cherche la forme nɔ́ɔ̀ on trouvera ses occurences dans les textes avec la nouvelle orthographe, tandis que toutes les occurences de ce mot en ancienne orthographe ‘nɔɔ- seront ignorées. De plus, on ne trouvera pas les occurences de ce mot où il est écrit avec des fautes d’orthographe (même dans les cas où les fautes sont corrigées lors de la désambiguïsation).

Word form

Permet une recherche par mot-forme dans le texte original qui ignore la casse. A la différence de la recherche “Simple”, cette recherche ne retourne pas les phrases où la racine représentée par la séquence en question comporte des affixes ou fait partie des mots dérivés ou composés. Autrement dit, ce type de recherche est analogue à la recherche dans le Word avec l’option « Mot entier », ou à une recherche d’un mot entre guillemets sur Internet.

Character

C’est une recherche, respectant la casse, dans le texte original (le niveau d’annotation : Word) d’une séquence de symboles non-séparés par des espaces qui n’est pas nécessairement égale à un morphème.
Ce type de recherche est presque identique à celui de « Phrase », sauf qu’il ne permet pas de rechercher une séquence contenant espace à l’intérieur.

CQL

C’est une recherche qui peut utiliser tous les paramètres disponibles des mots-formes ou une ou plusieurs combinaisons de ces paramètres. C’est un type de recherche très flexible dont les requêtes sont formulées dans un language spécial appelé `Corpus Query Language' (CQL) : https://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying
La recherche CQL a le sens pour un sous-corpus désambiguïsé (qui n'est pas encore disponible pour le mwan).

Lorsqu’on choisit le type de recherche CQL, une fenêtre Default attribute apparaît automatiquement. Cette fenêtre comporte les options Word, Lemma, Tag et Gloss. La première et la deuxième option produisent des résultats similaires à ceux qu’on obtient par les différents types de recherches (cf. supra), mais elles sont nécessaires pour une recherche combinée.

Les deux dernières options permettent la recherche par la marque de partie de discours et par la glose française. Les listes exhaustives des marques des parties de discours et des gloses pour les morphèmes et les mots auxiliaires se trouvent sur la page d’accueil, sous l’onglet « Documentation ». A noter que Les gloses auxiliaires se trouvent au même niveau que les marques des parties de discours. Cela veut dire que, par exemple, pour rechercher la glose PTCP.RES, il faut indiquer l’option « tag ».

La correspondance entre les types de recherche et les niveaux d’annotation est représentée dans le tableau suivant :

Type de recherche	Les niveaux d’annotations concernées
Simple	Word, Lemma, Parts
Lemma	Lemma
Phrase	Word
Word form	Word
Character	Word
CQL	Tous

Forme à rechercher

Tous les types de recherche, sauf CQL, supposent une introduction de la forme à rechercher dans le champ Query. Après, il faut appuyer sur la touche Enter ou cliquer la touche Make Concordance (en bas de l’écran) et le logiciel créera ensuite la concordance.

Les formes recherchées doivent avoir des marques tonales.
Pour une recherche du type CQL, la forme recherchée est mise entre guillemets: "sɔ́ɔ́n", " pléŋpléŋ", "adj", "difficile", etc.

Une recherche combinée se fait en indiquant en même temps plusieurs attributs d’un lexème, ce qui permet une grande précision de la recherche. Pour ce type de recherche, l’option indiquée dans la zone Default attribute n’est pas pertinente car les mêmes options sont indiquées dans la fenêtre CQL. La commande introduite dans le champ CQL a la syntaxe suivante (le token est introduit entre les crochets) : [option1="n1" espace & espace option2="n2"] (n1, n2 correspondent à des séquences recherchées). Par exemple, si on veut trouver tous les emplois du mot kún avec une étiquette de partie de discours « verbe » (v), la requête sera formulée comme suit : [word="kún" & tag="v"] Une recherche utilisant trois ou plus de trois paramètres à la fois est également possible. Ex : [word="kún" & tag="n" & gloss="appui"] Bien évidemment, une recherche combinée n’est pertinente que dans le sous-corpus désambiguïsé.

Pour le type CQL, une recherche combinant plusieurs mots est possible. Dans ce cas, chaque mot (plus précisément, chaque token) doit être mis entre crochets et les tokens doivent être séparés par des espaces. Ex : [word="yaa" & gloss="3SG.NEG"] [word="nu" & gloss="FUT"] Cette recherche permet de trouver toutes les combinaisons yaa nu où le premier mot est un pronom 3 pers. sg. de série négative ‘il ne ... pas’ (plutôt que yaa ‘à lui (pronom possessif)’, et le deuxième mot est l'opérateur de Futur nu (plutôt que le verbe nu ‘venir’ ou adverbe nu ‘ici’). Le CQL permet une recherche par modèle grammatical, ce qui peut être utile pour des études syntaxiques. Prenons par exemple la requête suivante : [tag="prev"] [tag="dtm"] Cette requête donnera comme résultat toutes les occurrences des adverbes postverbaux dans la position préverbale. Pour rechercher les parties d’un mot-forme complexe, y compris des morphèmes inflexionnels et dérivationnels, il faut indiquer le morphème en question entre crochets (sans oublier que les morphèmes auxiliaires se trouvent dans l’option tag !), et le moteur de recherche retournera tous les mots-formes comportant ce morphème.

Ainsi, pour trouver toutes les formes comportant la marque tonale de l'aspect neutre, la commande se formule comme suit : [tag="NEUT"].
Si on veut trouver une séquence de deux mots-formes dont la première comporte la marque du pluriel, et la deuxième la marque du participe potentiel, on doit formuler la commande comme suit : [tag="prev"] [tag="ART"].
Pour rechercher les formes redoublées (dont les parties sont écrites séparément), on peut écrire la commande suivante : 1:[] 2:[] & 1.word = 2.word.
Si on veut, par exemple, trouver tous les verbes redoublés, la commande doit être comme suite : 1:[tag="v"] 2:[tag="v"] & 1.word = 2.word.
Pour rechercher les formes redoublées écrites en un seul mot, la syntaxe de la commande doit être la suivante : "(.+)\1".
Pour les formes écrites avec un trait d’union : "(.+)-\1".
Et si nous voulons obtenir à la fois les formes collées et à trait d’union, la commande sera : "(.+)-?\1".
Pour minimiser le bruit, on peut exclure de la recherche les symboles inutiles (les nombres, le signe %, etc.). Pour cela, il faut les placer entre crochets l’un à la suite de l’autre sans laisser d’espace entre eux après les avoir précédés du signe ^ et faire suivre le crochet fermant du symbole + Par exemple, la commande : « rechercher toutes les formes redoublées collées ou écrites avec un trait d’union, en ignorant les nombres et % », s’écrira comme suit : "([^0-9%]+)-?\1"

Symboles non-standards

Le mwan étant extrêmement riche en caractères non-standards et signes diacritiques, il est fortement recommandé d'installer un des claviers virtuels qui facilitera la saisie de ces symboles. Le clavier Phonetic développé par Denis Paperno et adapté au clavier QWERTY (sous Windows) peut être téléchargé sur le lien :
https://sites.google.com/site/denispaperno/papers/phonetic.zip?attredirects=0&d=1

Le clavier AFU sur la base du clavier AZERTY (sous Windows) peut être téléchargé sur le lien: http://llacan.vjf.cnrs.fr/res_manuels.php
En bas de page du lien; on y trouvera également un clavier AFUQwerty.

L’option Context

Cette option permet d’effectuer une recherche de la cooccurrence des formes séparées par d’autres formes. On peut l’activer/désactiver en cliquant sur Context.

Le mot de référence pour lequel le contexte est indiqué est introduit dans le champ Query. La forme déterminant le contexte voulu, c’est-à-dire la forme dont les combinaisons avec le mot de référence doivent être recherchées, est introduite dans Lemma filter. On peut y donner plus d’une forme.

Dans Lemma filter, on peut indiquer quel est le contexte qui nous intéresse : left, right et both. L’option both permet de prendre en compte à la fois les contextes droit et gauche. La petite liste déroulante contenant des nombres de 1 à 15, indique la longueur du contexte en mots-formes. Si cette longueur est égale à 1, seules les formes adjacentes à la forme de référence seront trouvées. Le résultat sera donc le même que pour la recherche du type Phrase. Si la longueur du contexte est égale 2, la recherche retournera tous les cas où les formes contextuelles sont adjacentes à la forme de référence ou séparées par une autre forme. A gauche du champ Lemma(s), se trouve une liste déroulante contenant les options All, Any, None. En sélectionnant l’option All et en choisissant en même temps deux (ou plus) formes contextuelles, on trouvera les exemples où toutes les trois formes (la forme de référence et les deux formes contextuelles) apparaissent. Ainsi, si la forme de référence est pe, et les formes contextuelles sont dɔɔ et káá, on trouvera (parmi d’autres) les exemples suivants :

En sélectionnant la fonction Any, on trouvera tous les cas où pe apparaît avec au moins une des formes contextuelles (y compris, bien évidemment, les cas où toutes les trois formes : pe, dɔɔ et káá co-occurrent). Dans le cas de l’option None, toutes les occurrences du mot de référence sont sélectionnées avec les contextes où les formes contextuelles en question sont absentes. Cette option peut être utile quand une forme apparaît le plus souvent dans le cadre de certaines expressions figées, alors que l’utilisateur souhaite trouver ses apparitions en dehors de ces expressions.

Concordance

Un résultat non nul (affichant une liste d’exemples et leurs contextes) d'une recherche dans le sous-corpus est une concordance. Le Corpus mwan n’a pas de limite en ce qui concerne le nombre d’exemples retournés à l’utilisateur. Le nombre d’exemples trouvés est indiqué dans la bande grise en haut de l’écran. Le résultat de la recherche est affiché suivant un système de pagination. Chaque page contient 20 exemples. Pour chaque exemple, on spécifie le nom du fichier correspondant. Ce dernier contient le nom de l’auteur et le titre du texte (cf. onglet Documentation --> Noms de fichiers dans le corpus).

On peut paramétrer la présentation de la concordance en utilisant les deux options du menu gauche : KWIC/Sentence et View Options. Si on choisit Sentence, on affiche les propositions en entier et si on choisit KWIC, on affiche les contextes droit et gauche avec une longueur bien définie (par défaut, 40 caractères à gauche et 40 caractères à droite).

View options

L’option View Options permet de paramétrer la présentation de la Concordance suivant nos besoins de recherche. En particulier, on peut :
- Modifier les attributs de la forme (zone Attributes). Remarquons que l’option word est cochée par défaut et si on coche les options lemma, tag et gloss, les attributs lemme, la partie de discours, la glose française seront affichés. L’attribut parts donne accès au champ comportant toutes les bases significatives incluses dans le mot-forme (ce qui est pertinent pour les mots dérivés et composés). L’attribut original permet de visualiser l'orthographe originale des mots (ainsi, la forme en Orthographe-2000 pour les textes écrits originellement en cette orthographe).
- préciser si les attributs doivent être montrés pour chaque mot de chaque exemple ou pour le mot recherché seulement (la zone Display Attributes). L’indication des attributs de chaque mot s’avère plutôt encombrante pour le sous-corpus non-désambiguïsé (corbama.brut) car la plupart des mots ont plusieurs variantes d’analyse. Cette option n’est recommandée que pour le sous-corpus désambiguïsé.

Plus bas dans la fenêtre, on trouve les options :
- Page size : pour indiquer le nombre d’exemples par page. Ce nombre est initialisé par défaut à 20.
- KWIC Context size : pour indiquer la taille des contextes gauche et droit. En théorie, la taille peut être infinie mais par elle est initialisée à 40 caractères.

Les autres fonctions de la zone View Options ne sont pas pertinentes pour notre Corpus.
Pour enregistrer la configuration définie dans les View Options, il faut cliquer sur le bouton Change view options qui se trouve complétement en bas de la fenêtre :

Save

La concordance obtenue peut être sauvegardée, en partie ou entièrement, dans le format texte. Pour la sauvegarder intégralement, on choisit l’option Save dans le menu de gauche. Si on veut exporter les exemples normalisés et glosés pour une utilisation éventuelle dans un article, il faudra procéder comme suit :
Cliquer sur View options et cocher les attributs word et gloss. Dans la partie Display attributes, choisir l’option For each token et appuyer ensuite sur le bouton Change view options. La concordance apparaîtra sous le format suivant

Il faut cliquer ensuite, dans le menu de gauche, sur l’option Save et choisir les paramètres souhaités :

Si on choisit l’option Align KWIC, tous les mots et leurs gloses seront alignés au moyen des espaces dans le fichier créé. Si on la décoche, les mots-formes seront séparés par des tabulations. Voici un exemple d’une concordance et du fichier exporté comme indiquée :
Il s'agit d'un texte non-désambiguïsé, d'où les variantes alternatives des gloses :

Sorting

Le tri des exemples se fait en cliquant sur l’option Sorting du menu gauche. Les exemples peuvent être rangés par ordre alphabétique de la forme se trouvant à droite de la forme recherchée (Right context) ou à gauche (Left context) ; la distinction entre les lettres majuscules et minuscules peut être ou ne pas être prise en compte (Ignore case). Ils peuvent être rangés par ordre alphabétique inversé (Backward). Pour activer les options de tri des exemple, il suffit de cliquer sur le bouton Sort Concordance Pour le moment, le tri à plusieurs niveaux n’est pas pertinent pour notre Corpus.

Le menu de gauche comporte des options : References pour trier par noms des fichiers comportant les exemples de la concordance et Shuffle qui permet de lister les exemples au hasard. L’option Sample permet construire un échantillon d’exemples aléatoirement parmi tous ceux trouvés dans le corpus.
L’option Filter ressemble à l’option Context, cf. la division 4.
L’option Frequency permet de faire des statistiques sur les mots-formes comportant l’élément recherchée, et sur ses combinaisons avec ses éléments voisins. L’interface de cette option comporte deux zones :

1. Multilevel frequency distribution. Pour chaque niveau hiérarchique du tri, on peut choisir dans la liste déroulante:
- Node, pour calculer le nombre des mots-formes comportant l’élément en question.
- les éléments du contexte gauche (1L, 2L, 3L…, en fonction de la dimension du contexte) ou du contexte droit (1R, 2R, 3R…). Dans ce dernier cas, on obtient la fréquence de la co-occurrence avec les formes à gauche et à droite.
En même temps, on peut définir les attributs de l’élément de référence et l’élément contextuel : word, lemma, tag, gloss. Notons qu’un calcul des fréquences du mot de référence dans le sous-corpus non-désambiguïsé par les paramètres lemma, tag, gloss n’est pas pertinent.

2. La zone Text Type frequency distribution permet de définir la fréquence de l’élément recherché dans :
- des fichiers spécifiques : option doc.id;
- des textes spécifiques (notons qu’un seul texte peut être représenté dans le Corpus par plusieurs fichiers) : option doc.text_title;
- des textes de genres différents : option doc.text_genre.

Collocation

Le menu Collocation permet de trouver des candidats aux collocations du mot recherché avec d’autres mots. La recherche est possible par les attributs (Attribute) des mots voisins (word, lemma, tag, gloss). On peut affiner la recherche en indiquant s’il faut tenir compte du contexte à gauche (In the range from -1, -2, etc.) ou à droite (… to 1, 2, etc.); les chiffres correspondent à la dimension du contexte pris en compte (-1/1: seuls les mots contigus sont pris en compte; -2/2: le mot adjacent et le mot qui le suit/précède sont pris en compte, etc.).
En appuyant sur le bouton Make Candidate List, on obtient la liste des candidats aux collocations. En cliquant sur l’étiquette bleue Frec., ils seront rangés par ordre décroissant de fréquence.

Word List

L’option Word List permet de créer un dictionnaire de fréquence. En entrant dans cette option, on peut choisir entre les étiquettes All words et All lemmas. En cliquant sur ces étiquettes, on obtient une liste de fréquences de tous les tokens du sous-corpus (en ordre de décroissance). Les signes de ponctuations, considérés aussi comme des tokens du Corpus, se trouveront dans cette liste aussi.