Guide d’utilisation du moteur de recherche NoSketch

Le Corpus Maninka de Référence se trouve en accès libre à l’adresse suivante :
http://maslinsky.spb.ru/testing/cormani/run.cgi/first_form
En haut, se trouvent quatre options principales pour la recherche : Corpus, Query Type, Query, Text types.

 

Les sous-corpus

L’option Corpus permet le choix entre deux sous-corpus :

  • cormani-brut-nko, ou le Sous-Corpus N’ko, comprend des textes non-désambiguïsés créés originellement en alphabet N’ko ;
  • cormani-brut-lat, ou le Sous-Corpus Latin, comprend des textes non-désambiguïsés créés originellement en alphabet latin.

 

 

Tous les textes du Sous-Corpus N’ko sont représentés en même temps en graphisme latin (un résultat de conversion par le moyen d’un logiciel spécial développé par Andrij Rovenchak) où la notation tonale est maintenue ; les tons sont notés selon les principes du Corpus Maninka de Référence (cf. le document « Notation tonale dans un texte normalisé maninka » sur ce site), les mêmes que dans le Corpus Bambara de Référence. Il y a également une version de ce sous-corpus en graphisme latin sans notation tonale. Une recherche dans ce Sous-Corpus est possible par la forme N’ko et par la forme en alphabet latin.

Le Sous-Corpus Latin comporte des textes en maninka de Guinée créés originellement dans l'alphabet latin en orthographe ancienne (avant 1988) et celle actuellement en vigueur. Pratiquement tous ces textes n’ont pas de notation tonale, et ils contiennent souvent de très nombreuses fautes d’orthographe. Pour certains de ces textes, une correction orthographique a été entreprise ; dans ce cas, la recherche s’effectue dans les versions corrigées des textes.

Le Sous-Corpus Latin est représenté également sous version convertie en N’ko, cette version est générée automatiquement par un programme de conversion (développé par Andrij Rovenchak). Comme les textes originaux n’ont pas de notation tonale, la version N’ko du Sous-Corpus Latin n’est pas tonalisée non plus. Un problème supplémentaire consiste en ce que les marques diacritiques suscrites désignent à la fois le ton et la longueur ; autrement dit, on ne peut pas marquer la longueur de la voyelle sans indiquer son ton. Une décision a été prise de marquer une voyelle longue par la marque diacritique « voyelle longue + ton haut ». Ainsi, le mot faa ‘mourir, tuer’ sera transcrit comme ߝߊ߱ (c.-à-d. fáa, la transcription correcte serait ߝߊ߰ fàa). La seule exception a été faite pour la voyelle ɔ qui apparaît en Maninka beaucoup plus souvent avec un ton bas. Par conséquence, sɔɔ ‘percer’ et tɔɔ ‘nom’ seront transcrits ߛߐ߰ ، ߕߐ߰ (les transcriptions correctes seraient ߛߐ߰ sɔ̀ɔ et ߕߐ߮ tɔ́ɔ).
Pour le moment, la désambiguïsation du Corpus Maninka n’a pas commencé. Il est prévu, à l’avenir, de créer des sous-corpus désambiguïsés, mais ce travail doit être précédé par l’achèvement de la première étape du développement de la base lexicale (dictionnaire électronique) Malidaba.

 

L’étiquetage

Tous les textes sont subdivisés en tokens. Un Token est un mot ou un signe de ponctuation. Chaque mot et chaque morphème à l’intérieur du mot est doté d’un étiquetage linguistique.

Chaque sous-corpus comporte l’étiquetage linguistique suivant :

  1. Word. Dans les Sous-Corpus N’ko, les mots apparaissent en N’ko, et dans le Sous-Corpus Latin, en orthographe latin actuellement en vigueur en Guinée (celle de 1988). Pour les textes qui ont subi une correction orthographique, ce sont les formes corrigées qui apparaissent dans la ligne « Word ». Si l'option « word » est activée, les textes en N’ko apparaissent dans leur direction normale, de droit à gauche (même si d’autres options sont activées aussi, tels que la glose, le tag, le lemme…). Si l'option « word » est désactivée et une autre option est activée, la direction du texte change à celle de gauche à droite.
  2. Lemme est la forme dans le dictionnaire en orthographe latine (de 1988) correspondant au mot-forme en question. Là où un lexème est représenté dans le dictionnaire Malidaba par plusieurs variantes, toutes ces variantes apparaissent dans la ligne « lemme » du concordancier, séparées avec des barres verticales. En absence des sous-corpus désambiguïsés, il a été décidé de présenter dans la ligne « lemme » des formes sans notation tonale.
  3. Tag, ou l’étiquette de partie de discours (cf. Marques des parties des discours dans le Corpus Maninka de Référence sur la page d’accueil.) En cas d’ambiguïté, les étiquettes admissibles sont présentées séparées par une barre verticale, ex. : n|adj.
  4. Glose est une traduction standardisée en français. La glose vient de la base lexicale (dictionnaire électronique) Malidaba dont l’élaboration est encore loin de perfection. La présentation des gloses reflète le degré d’imperfection du Malidaba : de nombreux mots n’ont pas encore de gloses françaises ; d’autre part, des nombreuses entrées sont doublées, ce qui a pour résultat un doublage des gloses. Là où la glose française est encore absente, mais il y a une glose anglaise, le programme d’étiquetage automatique met une glose anglaise (ultérieurement, elle sera remplacée par une glose française). La qualité des gloses sera graduellement améliorée. Là où le lexème est polysémique, c’est son sens le plus prototypique qui est choisi comme la glose (bien évidemment, le choix n’est pas toujours facile ; on peut s’attendre à ce que certaines gloses puissent être remplacées ultérieurement par des gloses plus appropriées). Certaines gloses sont représentées par deux mots français (ou plus) séparés par des points (sans espaces), ex. : bìlakòro garçon.incirconcis, bìdinɛngbɛ tourterelle.grise. Pour les noms des espèces biologiques (surtout celles n’ayant pas des noms français établis), la glose comporte le nom latin précédé par un mot désignant l’appartenance générique, ex. : bènbewaɲa arbre.Lannea.acida.. Cf. également : Gloses pour les affixes et les mots auxiliaires en maninka sur la page d’accueil.
  5. Parts : des morphèmes composant des mots-formes complexes.
  6. Le texte converti (par une conversion automatique) :
    Latin : pour le Sous-Corpus N’ko, le texte en alphabet latin avec la notation tonale normalisée (suivant les principes établis dans le Corpus Maninka de Référence).
    Nko : pour le Sous-Corpus Latin, le texte en alphabet N’ko, sans notation tonale. Plus précisément, les voyelles brèves sont présentées sans signe diacritique ; les voyelles longues apparaissent avec le signe pour la voyelle longue avec le ton haut, à l’exception de la voyelle ɔɔ qui est dotée d’une signe de ton bas (dont l’apparition sur cette voyelle est beaucoup plus fréquente).
  7. Tonal : le lemme tonalisé. Dans les textes non-désambiguïsés, tous les lexèmes du Malidaba (et leurs variantes phonétiques) ayant la même composition segmentale que le mot-forme y apparaissent. Autrement dit, cet étiquetage n’est pertinent que pour des sous-corpus désambiguïsés (qui sont pour le moment absents).
  8. Source (dans le Sous-Corpus Latin seulement) : c’est la forme qui apparaît dans le texte original [http://bdl.oqlf.gouv.qc.ca/bdl/gabarit_bdl.asp?id=2556] (en particulier, si le texte original dans une ancienne orthographe, c’est l’ancienne orthographe qui apparaît dans la ligne « Source »).
  9. Lemma (lowercase) : cette ligne se distingue de la ligne « Lemme » en ce qu’on n’y tient pas compte du registre des lettres latines.

 

Types de recherche

 

 

L’option Query type (qui peut être choisie par un clic sur l’inscription Query type dans le menu à gauche) offre les types de recherche suivants :

 

Simple

Une recherche ignorant la casse du texte en orthographe latine (pour le N’ko, la casse n’est pas pertinente). Cette recherche se produit par :

  • par la ligne « Word » : la forme N’ko tonalisée (dans le Sous-Corpus N’ko) ou par la forme latine non-tonalisée (dans le Sous-Corpus Latin);
  • par la ligne Lemme (si le lemme a plus d’une variante phonétique, chacune de ses variantes peut servir pour la recherche) ;
  • par la ligne Latin (dans les Sous-Corpus N’ko) ou Nko (dans le Sous-Corpus Latin).

Cela veut dire qu’une recherche du type « Simple » peut être faite soit par une forme N’ko (tonalisé), soit par une forme latine (non-tonalisée). La notation tonale en N’ko représente les réalisations tonales contextuelles. Cela veut dire que si on fait une recherche par la forme N’ko pour un lexème ayant des variantes tonales grammaticales et/ou contextuelles, toutes les occurrences ne peuvent être trouvées qu’à plusieurs reprises, par toutes les variantes tonales. Si on veut trouver toutes les occurrences du lexème d’un seul coup, on est obligé de procéder par la recherche par la forme en orthographe latine, ou encore on doit utiliser des signes de substitution au lieu des marques diacritiques tonales. Ainsi, le mot masa (sans tons) peut être trouvé si on fait la recherche sous la forme suivante :
(c.-à-d., le signe diacritique est remplacé par un point. L’inconvénient est qu’en même temps, les formes avec le point diacritique souscrit seront trouvées aussi, et ce signe désigne l’élément nasal final de la syllabe, plutôt qu’un ton).

Pour la recherche du type Simple, une option supplémentaire est offerte, Inclure les formes dérivées et composées. Si cette option n’est pas cochée, la racine recherchée ne sera trouvée que lorsqu’elle apparaît en tant qu’un lexème autonome. Si cette option est cochée, on trouvera toutes les occurrences de la racine, y compris dans les mots dérivés et composés.

 

Lemme

Dans le Sous-Corpus N’ko, la recherche est effectuée par la forme latine non-tonalisée, en respectant la casse. Cela permet de trouver toutes les occurrences du lexème (quelle que soit la variation grammaticale ou contextuelle des tons). Pour le Sous-Corpus Latin, ce type de recherche ne se distingue pas d’une recherche par la forme non-tonalisée du type « Simple ». En absence de sous-corpus latin désambiguïsés, ce type de recherche produit les mêmes résultats qu’une recherche « simple ».

 

Expression

C’est une recherche dans le texte original (le niveau d’annotation : Word) par une séquence des mots-formes séparés par des espaces (en fait, une recherche par « Word » seulement est possible également), en respectant la casse (dans le Sous-Corpus Latin). Attention ! La recherche du type « Expression » étant effectuée dans le texte original (donc non-normalisé), elle est sensible à l’orthographe de ce texte. Ainsi, si on cherche la forme sɔɔ, on trouvera ses occurences dans les textes en nouvelle orthographe, tandis que tous les occurences de ce mot en ancienne orthographe (söö) seront ignorés.

 

Word

C’est une recherche par un mot-forme dans le texte original (le niveau d’annotation : Word) par le mot-forme, en ignorant la casse (là où il s’agit du Sous-Corpus Latin). A la différence de la recherche “Simple”, cette recherche ne sélectionne pas les phrases où la racine représentée par la séquence en question comporte des affixes ou fait partie des mots dérivés ou composés. Ainsi, si on cherche mɔgɔ, on ne trouverait pas les formes mɔɔlu, duukɔnɔmɔɔ, etc. Néanmoins, on trouvera des mots-formes avec une structure morphologique complexe (ainsi, en cherchant la “Word” sara, on trouverait, parmi les autres, la forme sara du perfectif du verbe sà). Autrement dit, ce type de recherche est analogue à la recherche dans Word avec l’option « Mot entier », ou une recherche d’un mot entre guillemets sur Internet. Comme dans la recherche du type « Expression », « Word » est sensible à l’orthographe du texte original.

 

Caractère

C’est une recherche dans le texte original (le niveau d’annotation : Word) par une séquence des symboles (non-séparés par des espaces) qui peut ne pas être identique à un morphème (une racine ou un affixe) maninka quelconque. La casse est respectée. En fait, ce type de recherche est presque identique à celui de « Phrase », sauf qu’il ne permet pas une recherche par une séquence ayant une espace à l’intérieur.

 

CQL

C’est une recherche par tous les paramètres disponibles des mots-formes, mais aussi par des combinaisons de ces paramètres. C’est un type de recherche flexible dont les questions sont formulées dans une langue artificielle `Corpus Query Language (CQL) <https://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying>

Lorsqu’on choisit le type de recherche CQL, une fenêtre Attribut par défaut apparaît automatiquement. Cette fenêtre comporte les options Word, Lemma, Tag, Form, Gloss, Parts, Source (celui-ci pour le Sous-Corpus Latin seulement), Tonal, Latin (celui-ci pour le Sous-Corpus Nko seulement). La première et la deuxième option produisent les résultats analogiques à ceux qu’on obtient par des types différents de la recherche (cf. supra), mais elles sont nécessaires pour une recherche combinée.

Les deux dernières options permettent la recherche par la marque de partie de discours et par la glose française. Les listes exhaustives des marques des parties de discours et des gloses pour les morphèmes et les mots auxiliaires se trouvent sur la page d’accueil, l’onglet « Documentation ». Attention! Les gloses auxiliaires se trouvent au même niveau que les marques des parties de discours. Cela veut dire que, par exemple, pour rechercher la glose PTCP.RES, il faut indiquer l’option « tag ».

La correspondance entre les types de recherche et les niveaux d’annotation est représentée dans le tableau suivant :

 

Type de recherche Les niveaux d’annotations concernees
Simple Word, Lemma, Parts, Latin/Nko
Lemma Lemma
Phrase Word
Word form Word
Character Word
CQL Tous

L’introduction de la forme à rechercher

Tous les types de recherche, sauf CQL, supposent une introduction de la forme à rechercher dans la fenêtre Query. Après cela, il faut appuyer sur la touche Enter ou cliquer la touche Créer une concordance (en bas de l’écran), et le logiciel créera la concordance.

Pour la recherche dans cormani-lat, les formes sont introduites en caractères latins et ne doivent pas avoir de marques tonales. Pour la recherche dans cormani-nko, la forme recherchée est introduite soit en caractères N’ko avec les marques tonales, soit en caractères latins sans marques tonales.

Pour une recherche du type CQL, la forme recherchée est mise entre guillemets: "kuma", "dòn", "pp", "serpent", etc. Toute la commande est mise en crochets.

Une recherche combinée est effectuée par plusieurs attributs d’un lexème à la fois, ce qui permet de nuancer au maximum la recherche et d’obtenir une sélection très pointue. Lors de cette recherche, l’option indiquée dans la fenêtre Attribut par défaut n’est pas pertinente (parce que les mêmes options sont indiquées dans la fenêtre CQL manuellement). La commande introduite dans la fenêtre CQL a la syntaxe suivante (ce qui se trouve entre chaque paire de crochets correspond à un token) :

[option1="n1" espace & espace option2="n2"]

(n1, n2 correspondent à des séquences recherchées).

Par exemple, si on veut trouver tous les emplois du mot kuma avec une étiquette de partie de discours « verbe » (v) dans le Sous-Corpus Latin, la requête est formulée comme suit :
[word="kuma" & tag="v"]

Dans le Sous-Corpus N’ko, la même requête se présente comme suit :
[word="ߞߎߡߊ߱߫" & tag="v"]

Une recherche par trois (ou plus) paramètres à la fois est également possible (même si cela ne donne pas souvent grande chose par rapport à une recherche par deux paramètres), ex. :
[word="kɔnɔ" & tag="n" & gloss="oiseau"]

Évidemment, une recherche combinée n’est pertinente que dans le sous-corpus désambiguïsé (qui est absent, pour le moment, du Corpus Maninka de Référence).

Une recherche combinée est possible, dans le cadre de CQL, pour des expressions à plusieurs mots. Dans ce but, chaque mot (plus précisément, chaque token) doit être mis entre crochets, et les tokens doivent être séparés par des espaces. Ex. :
[word="bada" & gloss="calebasse"] [word="kɔnɔ" & gloss="à.l’intérieur"]

Cette recherche permet de trouver toutes les combinaisons bàda kɔ́nɔ où le premier mot est ‘calebasse’ (plutôt que ‘chez’, ‘dancing’, ‘préféré’), et le deuxième mot est la postposition inessive (plutôt qu’‘attendre’, ‘bouton.de.fleur’, ‘oiseau’, ‘ventre’).

Le régime CQL permet une recherche par modèle grammatical, ce qui peut être utile pour des études syntaxiques. Prenons le modèle suivant :
[tag="adv.p"] [tag="v"]

Cette recherche devrait sélectionner toutes les occurrences des adverbes postverbaux dans la position préverbale.

Pour rechercher des parties d’un mot-forme complexe, y compris des morphèmes inflexionnels et dérivationnels, il faut indiquer le morphème en question dans les crochets (sans oublier que les morphèmes auxiliaires se trouvent dans l’option tag !), et le moteur de recherche trouvera tous les mots-formes comportant ce morphème.

Ainsi, pour trouver toutes les formes comportant la marque du pluriel, la commande se formule comme suit :
[tag="PL"]

Si on veut trouver une séquence de deux mots-formes dont la première comporte la marque du pluriel, et la deuxième la marque du participe potentiel, on doit formuler la commande comme suit :
[tag="PL"] [tag="PTCP.POT"]

Pour rechercher les formes redoublées (dont les parties sont écrites séparément), on peut appliquer la commande suivante :
1:[] 2:[] & 1.word = 2.word

Si on veut, par exemple, trouver tous les verbes redoublés, la commande doit être comme suite :
1:[tag="v"] 2:[tag="v"] & 1.word = 2.word

Pour rechercher les formes redoublées écrites en un seul mot, la syntaxe de commande doit être la suivante :
"(.+)\1"
Pour les formes écrites avec un trait d’union :
"(.+)-\1"
Et si nous voulons obtenir à la fois les formes collées et à trait d’union, la commande est comme suit :
"(.+)-?\1"

Pour minimiser le bruit, on peut exclure de la recherche les symboles inutiles (les nombres, la signe %, etc.). Il faut les énumérer, sans espaces, en les mettant dans les crochets dans la position devant le +; la séquence des symboles à exclure doit être précédée par un ^. Ainsi, la commande « rechercher toutes les formes redoublées collées ou écrites avec un trait d’union, en ignorant les nombres et % », est comme suit : "([^0-9%]+)-?\1"

 

Introduction des symboles non-standards

L’introduction de symboles non-standards(ɔ, ɛ, ɲ, les signes diacritiques pour les tons) est possible de deux façons alternatives :
1) Par le moyen des jeux de caractères spéciaux (on peut même utiliser le clavier français standard pour les symboles à, è, é, ù…, cependant, ce clavier est insuffisant pour beaucoup d’autres symboles) ;
2) Les symboles non-standards peuvent être remplacés par les combinaisons suivantes :
;o = ɔ
;e = ɛ
;m = ɲ
L’accent aigu (la marque du ton haut) est remplacé par une virgule après une voyelle, et l’accent grave (la marque du ton bas) est remplacé par l’apostrophe inverse suivant la voyelle. Ex. :
k;o, -> kɔ́
su` -> sù
k;e,n;e -> kɛ́nɛ
;m;o` -> ɲɔ̀
Le clavier Phonetic développé par Denis Paperno et adapté au clavier QWERTY peut être téléchargé ici:
https://sites.google.com/site/denispaperno/papers/phonetic.zip?attredirects=0&d=1
Le clavier AFU sur la base du clavier AZERTY peut être téléchargé ici: http://llacan.vjf.cnrs.fr/res_manuels.php
(en bas de page ; on y trouvera également un clavier AFUQwerty).
L’introduction du texte en N’ko s’effectue par le moyen de n’importe quel jeu de caractères adaptée aux polices de caractères UNICODE contenant le N’ko. En particulier, on peut recommander le clavier Nkolat développé par Andrij Rovenchak et rapproché au clavier latin QWERTY. Ce jeu de caractères peut être téléchargé ici : http://cormand.huma-num.fr/cormani/nkolatin.zip

 

L’option Contexte

Cette option permet d’effectuer une recherche de la cooccurrence des formes séparées par d’autres formes. Elle est activée (ou désactivée) par un clic sur le mot Contexte dans le menu à gauche.

 

 

Le mot de référence (par rapport auquel le contexte est indiqué) est introduit dans la fenêtre Query.

La forme déterminant le contexte voulu (donc la forme dont les combinaisons avec le mot de référence doivent être recherchées) est introduite dans Filtre de lemme. On peut y donner plus d’une forme.

Dans les fenêtres de Filtre de lemme, on peut indiquer quel est le contexte qui nous intéresse (gauche, droit, les deux – dans ce dernier cas, à la fois les contextes droit et gauche sont pris en compte). L’option à droite permet d’indiquer la longueur du contexte, de 1 à 15 mots-formes. Si cette longueur est définie à 1, seules les formes adjacentes à la forme de référence seront trouvées (donc le résultat sera le même que pour la recherche du type Expression). Si la longueur du contexte est 2, on trouvera des cas où les formes contextuelles sont adjacentes à la forme de référence ou séparées par une autre forme, etc. (il faut préciser qu’on trouvera également les cas où la forme contextuelle est séparée de la forme de référence par la limite de la proposition).

A la gauche de la fenêtre Lemma, on trouvera une autre fenêtre contenant les options Tout, Chaque, Aucun.

En sélectionnant l’option Tout, et en indiquant en même temps deux (ou plus) formes contextuelles, on trouvera les exemples où les trois formes (la forme de référence et les deux formes contextuelles) apparaissent. Ainsi, si la forme de référence est kɛ, et les formes contextuelles sont jɛdɛ et ɲɔɔn, on trouvera (parmi les autres) les exemples suivants : dɔ o lu fan` ka mɔlɔn nu k' alu jɛdɛ La, ‏ mɛn` nu ye kela` jɛdɛ` mɔlɔn` nu ɲɛ pananun, a n' alu k` alu jɛdɛ kɛ uwayisu karanuka` ɲɔɔn` di mɔɔ ɲimaya` dɔ Cette recherche peut être efficace (parmi d'autres) pour une étude de la possibilité de l’emploi des verbes transitifs avec les marques prédicatives (ce qui peut être important, par exemple, pour l’analyse des Aktionsarte), de la combinaison des verbes avec les postpositions, etc.

En sélectionnant la fonction Chaque, on trouvera tous les cas où kɛ apparaît avec au moins une des formes contextuelles (y compris, bien évidemment, les cas où toutes les trois formes (kɛ, jɛdɛ et ɲɔɔn) co-occurrent).

Avec l’option Aucun, toutes les occurrences du mot de référence sont sélectionnées avec les contextes où les formes contextuelles en question sont ABSENTES. Cette option peut être utile là où une forme apparaît le plus souvent dans le cadre de certaines expressions figées, tandis que l’utilisateur veut trouver ses utilisations en dehors de ces expressions.

 

Text types

Par défaut, le logiciel fait la recherche dans le sous-corpus entier. Dans la division Text types, on peut limiter la liste des textes dans lesquels on veut effectuer la recherche. L’option peut être activée par un clic sur Text types dans le menu à gauche.

La première fenêtre, doc.id, permet d’indiquer le texte particulier qu’on veut inclure dans le sous-corpus individuel. Si on commence à taper le nom de l’auteur ou le premier mot du titre de l’ouvrage, et si ce texte existe dans le corpus, le nom du fichier apparaît dans l’invite flottante.

Plus bas, on trouve les fenêtres :

  • doc.text_genre où on peut indiquer les restrictions par genres de textes;
  • doc.source_type où on peut limiter le domaine de recherche selon les types de source (publications périodiques; sources manuscrits; moyen de audio- et vidéocommunication, etc.);
  • doc.source_year, où on peut restreindre la recherche selon les dates de création des documents,
et certains autres.

Dans l’état actuel, la grande majorité des textes du Corpus Maninka de Référence ne sont pas dotés des informations métatextuelles, et le tri par Text types ne fonctionne pas.

 

Concordance

Un résultat non-négatif d'une recherche dans le sous-corpus est une concordance, c.-à-d. une liste d’exemples (et leurs contextes) trouvés dans le sous-corpus. Le Corpus Maninka de Référence n’a pas de limite en ce qui concerne le nombre d’exemples fournis à l’utilisateur. Dans la bande blanche en haut de l’écran, on trouvera l’indication du nombre d’exemples trouvés (Hits). Au-dessous de cette bande, le nombre de pages de la concordance est indiqué (dans le cas où le nombre d’exemples est supérieur à 20; par défaut, le nombre d’exemples par page est égal à 20). On y trouvera également les touches de navigation dans la concordance.

Pour chaque exemple, le nom du fichier est indiqué (où le nom de l’auteur et le titre du texte sont présentés d’une façon suffisamment transparente. cf. Page d’accueil – Documentation - Noms de fichiers dans le Corpus).

Pour régler la présentation de la concordance, on utilise deux options du menu : KWIC/Sentence et Options d’affichage.

En cliquant sur KWIC/Sentence, on change le régime de présentation des exemples : sous « Sentence », des propositions entières sont montrées (« d’un point à l’autre »), et sous le régime KWIC, les contextes droit et gauche d’une longueur déterminée sont montrés (par défaut, 40 caractères à gauche et 40 caractères à droit).

 

Options d'affichage :

L’option Options d’affichage permet de régler la présentation de la Concordance d’une façon plus nuancée. On peut, en particulier :

  • modifier les attributs de la forme (Attributes). Si on coche les options word, lemma, tag, gloss, parts, latin/nko, tonal, source (celle-ci n’est valable que pour le sous-corpus latin), les attributs en question (le lemme, la partie de discours, la glose française, la forme latine tonalisée/la forme en N’ko) sont montrés (par défaut, l’option « word » est toujours cochée). L’attribut parts donne accès au champ comportant toutes les bases significatives incluses dans le mot-forme (ce qui est pertinent pour les mots dérivés et composés)
  • préciser si les attributs en question doivent être montrés pour chaque mot de chaque exemple ou pour le mot recherché seulement (la zone Afficher les attributs).
    L’indication des attributs de chaque mot s’avère plutôt encombrante pour les sous-corpus non-désambiguïsés, car la plupart des mots ont plusieurs variantes d’analyse. Apparemment, cette option ne peut pas être recommandée que pour le sous-corpus désambiguïsé (qui n’est pas encore disponible dans le Corpus Maninka de Référence).
    Plus bas dans l’interface, on trouve les options permettant
  • le paramètre du nombre d’exemples par page de la concordance (Longueur de page; le nombre par défaut est 20);
  • la taille des contextes gauche et droit (KWIC Context size; en principe, le contexte peut être agrandi jusqu’à l’infini; par défaut, la dimension donnée est de 40 caractères).

Les autres fonctions de la zone Options d’affichage (Sort good dictionary examples etc.) ne sont pas pertinentes pour notre Corpus.

Pour activer la configuration définie dans les Options d’affichage, il faut cliquer sur le bouton Save & Change view options en bas :

 

 

Tri

Le tri des exemples est réglé dans la zone Tri. Les exemples peuvent être rangés par ordre alphabétique de la forme se trouvant à droite de la forme recherchée (Contexte à droit) ou à gauche (Contexte à gauche) ; la distinction entre les lettres majuscules et minuscules peut être ou ne pas être prise en compte (Ignorer la casse). Ils peuvent être rangés par ordre alphabétique inversé (tri descendant). L’activation des paramètres choisis est effectuée en cliquant sur la touche Sort Concordance.

Le tri à plusieurs niveaux n’est pas pertinent pour notre Corpus pour le moment.

Le menu principal comporte également les options Tri – Références (tri par noms des fichiers comportant les exemples de la concordance) et Tri – Déplacer (brassage des exemples, de façon à lister les exemples au hasard).

L’option Échantillon permet de produire un échantillon aléatoire (parmi tous les exemples trouvés dans le corpus).

L’option Filtrer est analogue, par ses fonctions, à l’option Contexte, cf. la division 4.

L’option Fréquence donne l’accès à la statistique des mots-formes comportant l’élément en question, et la statistique de ses combinaisons avec les éléments voisins.

L’interface de cette option comporte deux zones :


1. Distribution des fréquences multi-niveaux:

Pour chaque niveau hiérarchique du tri, on peut choisir entre :

  • Mot-cible, ce qui permet de calculer le nombre des mots-formes comportant l’élément en question (en cochant l’option Ignorer la casse, on ne fera pas la distinction entre les lettres majuscules et minuscules);
  • les éléments du contexte gauche (1L, 2L, 3L…, en fonction de la dimension du contexte) ou du contexte droit (1R, 2R, 3R…). Dans ce dernier cas, on obtient la fréquence de la co-occurrence avec les formes à gauche et à droite.

A même temps, on peut définir les attributs de l’élément de référence et l’élément contextuel : word, lemma, tag, gloss. Notons qu’un calcul des fréquences du mot de référence dans le sous-corpus non-désambiguïsé par les paramètres lemma, tag, gloss n’est pas pertinent.

 

2. La zone Text Type frequency distribution:

permet de définir la fréquence de l’élément recherché dans :

  • des fichiers spécifiques, l’option doc.id;
  • des textes spécifiques (notons qu’un seul texte peut être représenté dans le Corpus par plusieurs fichiers), l’option doc.text_title;
  • des textes des genres différents, l’option doc.text_genre.

 

Cooccurences

La section Cooccurences permet de trouver des candidats aux collocations du mot recherché avec d’autres mots. La recherche est possible par les attributs (Attribut) des mots voisins (word, lemma, tag, gloss). On peut nuancer la recherche en indiquant s’il faut tenir compte du contexte à gauche (Dans le voisinage de -1, -2, etc.) ou à droite (… to 1, 2, etc.); les chiffres correspondent à la dimension du contexte pris en compte (-1/1: seuls les mots contigus sont pris en compte; -2/2: le mot adjacent et le mot qui le suit/précède sont pris en compte, etc.).

En appuyant sur la touche Make Candidate List, on obtient la liste des candidats aux collocations. En cliquant sur l’étiquette bleue Frec., ils seront rangés par ordre décroissant de fréquence.

 

Liste de mots

L’option Liste de mots permet de créer un dictionnaire de fréquence. En entrant dans cette option, on peut choisir entre les étiquettes All words, All lemmas. En cliquant sur ces étiquettes, on obtient une liste de fréquences de tous les tokens du sous-corpus (en ordre de décroissance). Les signes de ponctuations (étant des tokens du Corpus) se trouveront dans cette liste aussi.