Guide d’utilisation du corpus

L’interface de recherche
L’étiquetage
Types de recherche
Forme à rechercher
Symboles non-standards
L’option Context
Text types
Concordance
View options
Sorting
Collocation
Word List



L’interface de recherche

L’interface de recherche du Corpus du dan de l'Est se trouve en accès libre à l’adresse suivante : http://maslinsky.spb.ru/dan/run.cgi/first_form
En haut, se trouvent trois options principales pour la recherche : Types de requêtes, Contexte et Types de texte.

L’étiquetage

Tous les textes sont subdivisés en tokens. Un token est un mot ou un signe de ponctuation. On associe à chaque mot et à chaque morphème une étiquette linguistique.

1. Mot-forme tel qu’il est dans le texte original (en orthographe dan de 1982 ; en orthographe de 2014 ; en orthographe d’auteur…).

Quand un mot apparaît avec une faute d’orthographe ou sous forme non-standard (par exemple, une variante dialectale), la forme originelle est maintenue

2. Lemme est la forme sans marques flexionnelles. Chaque variante phonétique d’un lemme se trouvant dans le dictionnaire Dandaba peut être un représentant de celui-ci (ex : tlōo et tlōő, ce qui signifie 'jeu')

Les lemmes sont des formes de mots sans flexions dans leurs orthographes standards (les fautes d’orthographe sont corrigées). Les mots dérivés lexicalisés et les mots composés dont la formation s’accompagne d’une lexicalisation (autrement dit, les mots dérivés et composés figurant dans la base lexicale des données Dandaba comme des lexèmes) sont considérés comme des lemmes.

3. Étiquette de partie de discours (cf. Marques des parties des discours dans le Corpus dan de l'Est sur la page d’accueil.)
4. Glose est une traduction standardisée en français

A l’origine de la base lexicale Dandaba se trouve le dictionnaire Dan de l'Est-français de Valentin Vydrin. Certaines gloses sont représentées par deux mots français (ou plus) séparés par des points (sans espaces), ex. : tòo ‘bouillie.tô’, vɔ̋ɔ ‘mauvaises.herbes’. Pour les noms des espèces biologiques (surtout celles n’ayant pas des noms français établis), la glose comporte le nom latin précédé par un mot désignant l’appartenance générique, ex. : slɤ̄ɤdhʌ́n ‘arbre.Napoleonaea.vogelii’.

Cf. également : Gloses conventionnelles dans le Corpus dan de l'Est sur la page d’accueil.

Types de recherche

Types de recherche

L’option Query type offre les types de recherche suivants :

Simple

Une recherche qui ignore la casse dans la forme originale du texte (la ligne Word) et dans la ligne Lemma. Si le lemme a plus d’une variante phonétique, chacune de ses variantes peut servir pour la recherche (ainsi, toutes les occurrences de bhīʌ̋ʌ ~ bhīʌ̋ ‘corde’ peuvent être trouvées par chacune de ces formes).

Pour la recherche de type Simple, une option supplémentaire est possible, Include derivates and composites. Si cette option n’est pas choisie, la racine recherchée n’est trouvée que si elle apparaît en tant qu’un lexème autonome (ainsi, si on fait une recherche de la forme dèe ‘nouveau’, on ne trouvera pas le mot dèewō ‘de nouveau’). Si cette option est cochée, on trouvera toutes les occurrences de la racine, y compris dans les mots dérivés et composés.

Lemma

Recherche par lemme (y compris dans le cas où il est incorporé dans un lexème dérivé ou composé) respectant la casse. Contrairement à la recherche “Simple”, dans une recherche “Lemma”, on ne trouvera pas des mots-formes comportant des affixes flexionnels. Comme exemple, la recherche “Simple” pour sara donne entre autres la forme perfective du verbe ‘mourir’ (avec le suffixe –ra); tandis que la recherche “Lemma” ne trouve que les formes du mot sara (sàra ‘paye’, sàra ‘payer’, sàra ‘avertir’, sára ‘petit tas’, sára ‘charme’), mais non la forme perfective du verbe sà ‘mourir’.

Pour les formes flexionnelles, ce type de recherche n’est pertinent que pour le sous-corpus désambiguïsé; alors que son résultat pour le sous-corpus non-désambiguïsé est identique à celui de la recherche “Simple”.

Phrase

Elle permet une recherche, respectant la casse, dans le texte standard (Orthographe-2014) d’une séquence de mots-formes séparés par des espaces. La séquence peut comporter un ou plusieurs mots-formes.

Ainsi, si on cherche la forme sɔgɔ, on trouvera ses occurences dans les textes avec la nouvelle orthographe, tandis que toutes les occurences de ce mot en ancienne orthographe (sògò) seront ignorées. De plus, on ne trouvera pas les occurences de ce mot où il est écrit avec des fautes d’orthographe (même dans les cas où les fautes sont corrigées lors de la désambiguïsation).

Word form

Permet une recherche par mot-forme dans le texte original qui ignore la casse. A la différence de la recherche “Simple”, cette recherche ne retourne pas les phrases où la racine représentée par la séquence en question comporte des affixes ou fait partie des mots dérivés ou composés. Autrement dit, ce type de recherche est analogue à la recherche dans le Word avec l’option « Mot entier », ou à une recherche d’un mot entre guillemets sur Internet.

Character

C’est une recherche, respectant la casse, dans le texte original (le niveau d’annotation : Word) d’une séquence de symboles non-séparés par des espaces qui n’est pas nécessairement égale à un morphème.

Ce type de recherche est presque identique à celui de « Phrase », sauf qu’il ne permet pas de rechercher une séquence contenant espace à l’intérieur.

CQL

C’est une recherche qui peut utiliser tous les paramètres disponibles des mots-formes ou une ou plusieurs combinaisons de ces paramètres. C’est un type de recherche très flexible dont les requêtes sont formulées dans un language spécial appelé `Corpus Query Language' (CQL) : https://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying

La recherche CQL a le sens pour un sous-corpus désambiguïsé (qui n'est pas encore disponible pour le dan de l'Est).

Lorsqu’on choisit le type de recherche CQL, une fenêtre Default attribute apparaît automatiquement. Cette fenêtre comporte les options Word, Lemma, Tag et Gloss.

La première et la deuxième option produisent des résultats similaires à ceux qu’on obtient par les différents types de recherches (cf. supra), mais elles sont nécessaires pour une recherche combinée.

Les deux dernières options permettent la recherche par la marque de partie de discours et par la glose française. Les listes exhaustives des marques des parties de discours et des gloses pour les morphèmes et les mots auxiliaires se trouvent sur la page d’accueil, sous l’onglet « Documentation ». A noter que Les gloses auxiliaires se trouvent au même niveau que les marques des parties de discours. Cela veut dire que, par exemple, pour rechercher la glose PTCP.RES, il faut indiquer l’option « tag ».

La correspondance entre les types de recherche et les niveaux d’annotation est représentée dans le tableau suivant :

Type de recherche Les niveaux d’annotations concernées
Simple Word, Lemma, Parts
Lemma Lemma
Phrase Word
Word form Word
Character Word
CQL Tous

Forme à rechercher

Tous les types de recherche, sauf CQL, supposent une introduction de la forme à rechercher dans le champ Query. Après, il faut appuyer sur la touche Enter ou cliquer la touche Make Concordance (en bas de l’écran) et le logiciel créera ensuite la concordance.

Les formes recherchées doivent avoir des marques tonales.
Pour une recherche du type CQL, la forme recherchée est mise entre guillemets: "gbe̋ȅ", "gbân", "adj", "difficile", etc.

Une recherche combinée se fait en indiquant en même temps plusieurs attributs d’un lexème, ce qui permet une grande précision de la recherche. Pour ce type de recherche, l’option indiquée dans la zone Default attribute n’est pas pertinente car les mêmes options sont indiquées dans la fenêtre CQL. La commande introduite dans le champ CQL a la syntaxe suivante (le token est introduit entre les crochets) :
[option1="n1" espace & espace option2="n2"]
(n1, n2 correspondent à des séquences recherchées).
Par exemple, si on veut trouver tous les emplois du mot gbȁn avec une étiquette de partie de discours « verbe » (v), la requête sera formulée comme suit :
[word="gbȁn" & tag="v"]

Une recherche utilisant trois ou plus de trois paramètres à la fois est également possible.
Ex : [word="gbȁn" & tag="n" & gloss="appui"]
Bien évidemment, une recherche combinée n’est pertinente que dans le sous-corpus désambiguïsé.

Pour le type CQL, une recherche combinant plusieurs mots est possible.
Dans ce cas, chaque mot (plus précisément, chaque token) doit être mis entre crochets et les tokens doivent être séparés par des espaces.
Ex : [word="yíi" & gloss="1PL.EXCL.NEG.PST"] [word="kʌ̄" & gloss="faire"]

Cette recherche permet de trouver toutes les combinaisons yíi kʌ̄ où le premier mot est un MPP ‘nous’ exclusif négatif du passé (plutôt que yíi ‘pour que tu’, yíi 3SG.NEG.PST), et le deuxième mot est le verbe ‘faire’ (plutôt que l'opérateur de décalage retrospectif).

Le CQL permet une recherche par modèle grammatical, ce qui peut être utile pour des études syntaxiques. Prenons par exemple la requête suivante :
[tag="prev"] [tag="dtm"]
Cette requête donnera comme résultat toutes les occurrences des adverbes postverbaux dans la position préverbale.

Pour rechercher les parties d’un mot-forme complexe, y compris des morphèmes inflexionnels et dérivationnels, il faut indiquer le morphème en question entre crochets (sans oublier que les morphèmes auxiliaires se trouvent dans l’option tag !), et le moteur de recherche retournera tous les mots-formes comportant ce morphème.

Ainsi, pour trouver toutes les formes comportant la marque tonale de l'aspect neutre, la commande se formule comme suit :
[tag="NEUT"]

Si on veut trouver une séquence de deux mots-formes dont la première comporte la marque du pluriel, et la deuxième la marque du participe potentiel, on doit formuler la commande comme suit :
[tag="prev"] [tag="ART"]

Pour rechercher les formes redoublées (dont les parties sont écrites séparément), on peut écrire la commande suivante :
1:[] 2:[] & 1.word = 2.word

Si on veut, par exemple, trouver tous les verbes redoublés, la commande doit être comme suite :
1:[tag="v"] 2:[tag="v"] & 1.word = 2.word

Pour rechercher les formes redoublées écrites en un seul mot, la syntaxe de la commande doit être la suivante :
"(.+)\1"
Pour les formes écrites avec un trait d’union :
"(.+)-\1"
Et si nous voulons obtenir à la fois les formes collées et à trait d’union, la commande sera :
"(.+)-?\1"

Pour minimiser le bruit, on peut exclure de la recherche les symboles inutiles (les nombres, le signe %, etc.). Pour cela, il faut les placer entre crochets l’un à la suite de l’autre sans laisser d’espace entre eux après les avoir précédés du signe ^ et faire suivre le crochet fermant du symbole +
Par exemple, la commande : « rechercher toutes les formes redoublées collées ou écrites avec un trait d’union, en ignorant les nombres et % », s’écrira comme suit :
"([^0-9%]+)-?\1"

Symboles non-standards

Le dan de l'Est étant extrêmement riche en caractères non-standards et signes diacritiques, il est fortement recommandé d'installer un des claviers virtuels qui facilitera la saisie de ces symboles. Le clavier Phonetic développé par Denis Paperno et adapté au clavier QWERTY (sous Windows) peut être téléchargé sur le lien :
https://sites.google.com/site/denispaperno/papers/phonetic.zip?attredirects=0&d=1
Le clavier AFU sur la base du clavier AZERTY (sous Windows) peut être téléchargé sur le lien:
http://llacan.vjf.cnrs.fr/res_manuels.php
En bas de page du lien; on y trouvera également un clavier AFUQwerty.

L’option Context

Cette option permet d’effectuer une recherche de la cooccurrence des formes séparées par d’autres formes. On peut l’activer/désactiver en cliquant sur Context.

Option Context

Le mot de référence pour lequel le contexte est indiqué est introduit dans le champ Query.

La forme déterminant le contexte voulu, c’est-à-dire la forme dont les combinaisons avec le mot de référence doivent être recherchées, est introduite dans Lemma filter. On peut y donner plus d’une forme.

Dans Lemma filter, on peut indiquer quel est le contexte qui nous intéresse : left, right et both. L’option both permet de prendre en compte à la fois les contextes droit et gauche. La petite liste déroulante contenant des nombres de 1 à 15, indique la longueur du contexte en mots-formes. Si cette longueur est égale à 1, seules les formes adjacentes à la forme de référence seront trouvées. Le résultat sera donc le même que pour la recherche du type Phrase. Si la longueur du contexte est égale 2, la recherche retournera tous les cas où les formes contextuelles sont adjacentes à la forme de référence ou séparées par une autre forme.

A gauche du champ Lemma(s), se trouve une liste déroulante contenant les options All, Any, None.

En sélectionnant l’option All et en choisissant en même temps deux (ou plus) formes contextuelles, on trouvera les exemples où toutes les trois formes (la forme de référence et les deux formes contextuelles) apparaissent. Ainsi, si la forme de référence est kʌ̄, et les formes contextuelles sont yɤ̏ et gɔ̏, on trouvera (parmi d’autres) les exemples suivants :

Option Context

Cette recherche peut être pertinente pour une étude de la possibilité de l’emploi des verbes transitifs avec les marques prédicatives. Elle convient bien, par exemple, pour l’analyse des Aktionsartes, de la combinaison des verbes avec les postpositions, etc.

En sélectionnant la fonction Any, on trouvera tous les cas où kʌ̄ apparaît avec au moins une des formes contextuelles (y compris, bien évidemment, les cas où toutes les trois formes : kʌ̄, yɤ̏ et ̏ co-occurrent).

Dans le cas de l’option None, toutes les occurrences du mot de référence sont sélectionnées avec les contextes où les formes contextuelles en question sont absentes. Cette option peut être utile quand une forme apparaît le plus souvent dans le cadre de certaines expressions figées, alors que l’utilisateur souhaite trouver ses apparitions en dehors de ces expressions.

Text types

Par défaut, le logiciel fait la recherche dans le sous-corpus entier.
Grace au menu Text types, on peut limiter la liste des textes dans lesquels on souhaite effectuer la recherche.
Dans la zone DOC.ID, on coche le texte ou les textes qu’on veut inclure dans le sous-corpus personnalisé.
Quand on commence à taper le nom de l’auteur ou le premier mot du titre de l’ouvrage, le nom du fichier correspondant apparaît dans l’invite flottante si ce qu’on a tapé existe dans le corpus.

Au-dessous de cette zone, se trouvent les zones :

A l’avenir, d’autres critères d’affinement de la recherche vont être ajoutés avec la croissance du Corpus et l’amélioration des métadonnées.

Concordance

Un résultat non nul (affichant une liste d’exemples et leurs contextes) d'une recherche dans le sous-corpus est une concordance. Le Corpus dan de l'Est n’a pas de limite en ce qui concerne le nombre d’exemples retournés à l’utilisateur. Le nombre d’exemples trouvés est indiqué dans la bande grise en haut de l’écran. Le résultat de la recherche est affiché suivant un système de pagination. Chaque page contient 20 exemples. Pour chaque exemple, on spécifie le nom du fichier correspondant. Ce dernier contient le nom de l’auteur et le titre du texte (cf. onglet Documentation --> Noms de fichiers dans le corpus).

On peut paramétrer la présentation de la concordance en utilisant les deux options du menu gauche : KWIC/Sentence et View Options.

Si on choisit Sentence, on affiche les propositions en entier et si on choisit KWIC, on affiche les contextes droit et gauche avec une longueur bien définie (par défaut, 40 caractères à gauche et 40 caractères à droite).

View options

L’option View Options permet de paramétrer la présentation de la Concordance suivant nos besoins de recherche. En particulier, on peut :

- Modifier les attributs de la forme (zone Attributes). Remarquons que l’option word est cochée par défaut et si on coche les options lemma, tag et gloss, les attributs lemme, la partie de discours, la glose française seront affichés.
L’attribut parts donne accès au champ comportant toutes les bases significatives incluses dans le mot-forme (ce qui est pertinent pour les mots dérivés et composés). L’attribut original permet de visualiser l'orthographe originale des mots (ainsi, la forme en Orthographe-1982 pour les textes écrits originellement en cette orthographe).

- préciser si les attributs doivent être montrés pour chaque mot de chaque exemple ou pour le mot recherché seulement (la zone Display Attributes).
L’indication des attributs de chaque mot s’avère plutôt encombrante pour le sous-corpus non-désambiguïsé (corbama.brut) car la plupart des mots ont plusieurs variantes d’analyse. Cette option n’est recommandée que pour le sous-corpus désambiguïsé.

Plus bas dans la fenêtre, on trouve les options :

- Page size : pour indiquer le nombre d’exemples par page. Ce nombre est initialisé par défaut à 20.

- KWIC Context size : pour indiquer la taille des contextes gauche et droit. En théorie, la taille peut être infinie mais par elle est initialisée à 40 caractères.

Les autres fonctions de la zone View Options ne sont pas pertinentes pour notre Corpus.

Pour enregistrer la configuration définie dans les View Options, il faut cliquer sur le bouton Change view options qui se trouve complétement en bas de la fenêtre :

View options

Save

La concordance obtenue peut être sauvegardée, en partie ou entièrement, dans le format texte. Pour la sauvegarder intégralement, on choisit l’option Save dans le menu de gauche.

Si on veut exporter les exemples normalisés et glosés pour une utilisation éventuelle dans un article, il faudra procéder comme suit :

Cliquer sur View options et cocher les attributs word et gloss. Dans la partie Display attributes, choisir l’option For each token et appuyer ensuite sur le bouton Change view options. La concordance apparaîtra sous le format suivant :

La concordance

Il faut cliquer ensuite, dans le menu de gauche, sur l’option Save et choisir les paramètres souhaités :

Save

Si on choisit l’option Align KWIC, tous les mots et leurs gloses seront alignés au moyen des espaces dans le fichier créé. Si on la décoche, les mots-formes seront séparés par des tabulations. Voici un exemple d’une concordance et du fichier exporté comme indiquée :

Exemple d’une concordance

Il s'agit d'un texte non-désambiguïsé, d'où les variantes alternatives des gloses :

Save

Sorting

Le tri des exemples se fait en cliquant sur l’option Sorting du menu gauche. Les exemples peuvent être rangés par ordre alphabétique de la forme se trouvant à droite de la forme recherchée (Right context) ou à gauche (Left context) ; la distinction entre les lettres majuscules et minuscules peut être ou ne pas être prise en compte (Ignore case). Ils peuvent être rangés par ordre alphabétique inversé (Backward). Pour activer les options de tri des exemple, il suffit de cliquer sur le bouton Sort Concordance

Pour le moment, le tri à plusieurs niveaux n’est pas pertinent pour notre Corpus.

Le menu de gauche comporte des options : References pour trier par noms des fichiers comportant les exemples de la concordance et Shuffle qui permet de lister les exemples au hasard.

L’option Sample permet construire un échantillon d’exemples aléatoirement parmi tous ceux trouvés dans le corpus.

L’option Filter ressemble à l’option Context, cf. la division 4.

L’option Frequency permet de faire des statistiques sur les mots-formes comportant l’élément recherchée, et sur ses combinaisons avec ses éléments voisins.

L’interface de cette option comporte deux zones :

1. Multilevel frequency distribution. Pour chaque niveau hiérarchique du tri, on peut choisir dans la liste déroulante:

- Node, pour calculer le nombre des mots-formes comportant l’élément en question.

- les éléments du contexte gauche (1L, 2L, 3L…, en fonction de la dimension du contexte) ou du contexte droit (1R, 2R, 3R…). Dans ce dernier cas, on obtient la fréquence de la co-occurrence avec les formes à gauche et à droite.

En même temps, on peut définir les attributs de l’élément de référence et l’élément contextuel : word, lemma, tag, gloss. Notons qu’un calcul des fréquences du mot de référence dans le sous-corpus non-désambiguïsé par les paramètres lemma, tag, gloss n’est pas pertinent.

2. La zone Text Type frequency distribution permet de définir la fréquence de l’élément recherché dans :

- des fichiers spécifiques : option doc.id;

- des textes spécifiques (notons qu’un seul texte peut être représenté dans le Corpus par plusieurs fichiers) : option doc.text_title;

- des textes de genres différents : option doc.text_genre.

Collocation

Le menu Collocation permet de trouver des candidats aux collocations du mot recherché avec d’autres mots. La recherche est possible par les attributs (Attribute) des mots voisins (word, lemma, tag, gloss). On peut affiner la recherche en indiquant s’il faut tenir compte du contexte à gauche (In the range from -1, -2, etc.) ou à droite (… to 1, 2, etc.); les chiffres correspondent à la dimension du contexte pris en compte (-1/1: seuls les mots contigus sont pris en compte; -2/2: le mot adjacent et le mot qui le suit/précède sont pris en compte, etc.).

En appuyant sur le bouton Make Candidate List, on obtient la liste des candidats aux collocations. En cliquant sur l’étiquette bleue Frec., ils seront rangés par ordre décroissant de fréquence.

Word List

L’option Word List permet de créer un dictionnaire de fréquence. En entrant dans cette option, on peut choisir entre les étiquettes All words et All lemmas. En cliquant sur ces étiquettes, on obtient une liste de fréquences de tous les tokens du sous-corpus (en ordre de décroissance). Les signes de ponctuations, considérés aussi comme des tokens du Corpus, se trouveront dans cette liste aussi.