Guide d’utilisation du corpus



L’interface de recherche

L’interface de recherche du Corpus bambara de référence se trouve en accès libre à l’adresse suivante :
http://maslinsky.spb.ru/bonito/run.cgi/first_form

En haut, se trouvent trois options principales pour la recherche : Corpus, Query Type, Query.

Les sous-corpus

L’option Corpus permet le choix entre quatre sous-corpus, voir figure ci-dessous:



En fait, il s’agit de quatre sous-corpus: corbama-net est le sous-corpus désambiguïsé ; le corbama-brut est l'ensemble des sous-corpus désambiguïsé et non-désambiguïsé ; corbama-ud est le sous-corpus syntaxiquement annoté suivant le modèle Universal Dependencies ; corbamafara et corfarabama représentent le corpus parallèle bambara-français :

Corbama-brut

Un sous-corpus non-désambiguïsé ((en avril 2018, il comportait environ 4 144 000 mots); mais en réalité, si on choisit l’option corbama-brut, la recherche est effectuée sur les deux sous-corpus, désambiguïsé et non-désambiguïsé).

Le sous-corpus corbama-brut est plus volumineux que le sous-corpus corbama-net, et permet de trouver un nombre beaucoup plus élevé d’exemples, mais sa sélection est incomparablement moins raffinée : il ne faut pas oublier que l’analyseur morphologique automatique de textes bambara produit des analyses multiples pour environ 70% de tous les mots (cependant, depuis février 2018, le corpus non-désambiguïsé est, en fait, partiellement désambiguïsé par un logiciel crée par Jean Jacques Méric qui ramène le taux d'ambiguïté à environ 30%). En fait, une recherche dans ce sous-corpus produit à peu près le même résultat qu’une recherche dans Word, avec les avantages d'une plus grande vitesse, d'une présentation plus confortable des résultats sous forme de 3 concordance, et la possibilité de sauvegarde des résultats dans différents formats.

Corbama-net-non-tonal

Il s'agit d'un sous-corpus désambiguïsé (en avril 2018, environ 1 076 000 mots) dont la recherche ne tient pas compte des tons.

La recherche dans ce sous-corpus produit un résultat plus affiné, elle peut être beaucoup plus nuancée grâce aux paramètres supplémentaires. Notons que depuis le 23 octobre 2012, lors d’une recherche sur le corbama-brut, les occurrences du corbama-net apparaissent dans le concordancier également (autrement dit, une recherche sur le corbama-brut signifie une recherche sur le corpus entier).

Note :
Il faut tenir compte du fait que la création du sous-corpus désambiguïsé est un travail en cours ; on trouvera dans ce sous-corpus un certain nombre d’erreurs et d’inconséquences. Le groupe de travail du Corpus bambara de référence s’occupe de leur identification et élimination. Prière d’informer Valentin Vydrin, vydrine@gmail.com, des erreurs relevées.

corbama-net-tonal

C’est un sous-corpus désambiguïsé, identique au précédent, dont la recherche tient compte des tons.
Ce type de recherche est encore plus affiné, elle exclue les quasi-homonymes se distinguant de la forme voulue par les tons.

Cf. également : Règles de la notation tonale dans le Corpus sur la page d’accueil.

corbama-ud

Dans le sous-corpus syntaxiquement annoté, les liaisons syntaxiques entre les mots sont indiquées dans le format du projet Universal Dependencies.

corbamafara et corfarabama

Ce sont de face du corpus parallèle bambara-français. Dans corbamafara, la recherche principale est effectuée par les formes bambara, et dans corfarabama, par les formes françaises. Le corpus parallèle a été mis en fonction en avril 2018, et son volume est considérablement inférieur par rapport aux corpus désambiguïsé et non-désambiguïsé (environ 100 000 mots au moment de la publication).

L’étiquetage

Tous les textes sont subdivisés en tokens. Un Token est un mot ou un signe de ponctuation. Chaque mot et chaque morphème à l’intérieur du mot est doté d’un étiquetage linguistique.

Chaque sous-corpus comporte l’étiquetage linguistique suivant :

1. Mot-forme: tel qu’il est dans le texte original (en orthographe bambara de 1982 ; en orthographe de 1967 ; en orthographe d’auteur…).
Là où le mot apparaît avec une faute d’orthographe ou sous forme non-standard (par exemple, une variante dialectale), cette particularité (la faute d’orthographe, etc.) est maintenue.

2. Lemme: est la forme sans marques flexionnelles. Chaque variante phonétique du lemme représentée dans le dictionnaire Bamadaba est considérée comme un représentant en plein droit du lemme (ainsi, k’ et kà pour la lemme de la marque de l’infinitif).

Les lemmes sont des formes de mots sans flexions dans leurs orthographe standard (les fautes d’orthographe sont corrigées, les variantes dialectales sont remplacées par leurs équivalentes standards). Les mots dérivés lexicalisés et les mots composés dont la formation s’accompagne d’une lexicalisation (autrement dit, les mots dérivés et composés figurant dans la base lexicale des données Bamadaba comme des lexèmes) sont considérés comme des lemmes.

Dans le sous-corpus corbamba-net-tonal, le lemme comporte une marque tonale (cela veut dire qu’une recherche « par lemme » sans indication de marque tonale ne permet pas de trouver le mot). Dans les sous-corpus non-tonaux (corbama-brut, corbama-net-non-tonal) le lemme n’a pas de marque tonale ; par conséquence, lors de la recherche par lemme, il ne faut pas indiquer le ton (sinon, la marque tonale empêchera la recherche).

Si un lexème a plus d’une variante tonale, et que ces variantes sont représentées dans la base lexicale Bamadaba, une recherche par chacune de ces variantes permet de trouver les exemples où ce lexème apparaît dans toutes ses variantes phonétiques en question.

3. Étiquette de partie de discours: en cas d’ambiguïté, les étiquettes admissibles sont présentées séparées par ``|``, ex. : n|adj.

4. Glose, une traduction standardisée en français: a l’origine de la base lexicale Bamadaba se trouve le dictionnaire bambara-français de Charles Bailleul. Cependant, ce dictionnaire a subi une adaptation considérable en tenant compte des besoins du corpus. En particulier, on a attribué à chaque lexème une glose « canonique » française. Pour les lexèmes polysémiques, un sens le plus prototypique a été choisi (ce qui n’était pas toujours facile ; il se peut que certains choix apparaissent comme insuffisants, dans ce cas les équivalents sont remplacés par autres). Certaines gloses sont représentées par deux mots français (ou plus) séparés par des points (sans espaces), ex. : ɲɛ̀ɲɛ ‘brisure.de.céréales’, ntòmo ‘fétiche.des.garçons’. Pour les noms des espèces biologiques (surtout celles n’ayant pas des noms français établis), la glose comporte le nom latin précédé par un mot désignant l’appartenance générique, ex. : ɲénu ‘arbre.Hannoa.undulata’, ntómi ‘serpent.Eryx.muelleri’.

Types de recherche

L’option Query type offre les types de recherche suivants :



Simple

Une recherche en ignorant la casse, par la forme originale dans le texte (la ligne Word) et, en même temps, par la ligne Lemma. Si le lemme a plus d’une variante phonétique, chacune de ses variantes peut servir pour la recherche (ainsi, toutes les occurrences de la marque de l’infinitif ayant les variantes kà et k’ peuvent être trouvées par chacune de ces formes).

Pour la recherche du type Simple, une option supplémentaire est offerte, Include derivates and composites. Si cette option n’est pas cochée, la racine recherchée ne sera trouvée que lorsqu’elle apparaît en tant qu’un lexème autonome (ainsi, si on fait une recherche de la forme se, on trouvera, par exemple, la forme du perfectif sera, parce que le suffixe –ra est flexionnel, mais on ne trouvera pas lase, parce que la- est un préfixe dérivatif, ni seko, car seko est un mot composé). Si cette option est cochée, on trouvera toutes les occurrences de la racine, y compris dans les mots dérivés et composés.

Lemma

Recherche par un lemme (y compris incorporé dans un lexème dérivé ou composé), en respectant la casse. Lors d’une recherche “Lemma”, à la différence de la recherche “Simple”, on ne trouvera pas des mots-formes comportant des affixes flexionnels. Ainsi, la recherche “Simple” pour sara donne, parmi d'autres, la forme perfective du verbe ‘mourir’ (avec le suffixe –ra), tandis que la recherche “Lemma” ne trouve que les formes des mots sara (sàra ‘paye’, sàra ‘payer’, sàra ‘avertir’, sára ‘petit tas’, sára ‘charme’), mais non pas la forme perfective du verbe ‘mourir’. Pour les formes flexionnelles, ce type de recherche n’est pertinent que pour le sous-corpus désambiguïsé, tandis que son résultat pour le sous-corpus non-désambiguïsé serait le même que celui de la recherche “Simple”.

Autre particularité de la recherche par lemme, elle permet de trouver des formes qui comportent, dans le texte original, des fautes d’orthographe ou représentent des variantes non-standards (dialectales ou autres). Ainsi, en recherchant la lemme kunko (‘affaire’), on trouvera, parmi les autres, des cas où ce lexème apparaît sous sa forme dialectale kungo (bien évidemment, cela ne marche que pour le sous-corpus desambiguïsé).

Phrase

C’est une recherche dans le texte original (le niveau d’annotation : Word) par une séquence des mots-formes séparés par des espaces (en fait, une recherche par un seul mot-forme est possible également), en respectant la casse. Ce type de recherche est pertinent pour tous les sous-corpus. Attention ! La recherche du type « Phrase » étant effectuée dans le texte original (donc non-normalisé), elle est sensible à l’orthographe de ce texte. Ainsi, si on cherche la forme sɔgɔ, on trouvera ses occurences dans les textes en nouvelle orthographe, tandis que tous les occurences de ce mot en ancienne orthographe (sògò) seront ignorés. En plus, on ne trouvera pas les occurences de ce mot où il est écrit avec des fautes d’orthographe (même dans les cas où les fautes sont corrigées lors de la désambiguïsation).

Word

C’est une recherche par un mot-forme dans le texte original (le niveau d’annotation : Word) en ignorant la casse. A la différence de la recherche “Simple”, cette recherche ne sélectionne pas les phrases où la racine représentée par la séquence en question comporte des affixes ou fait partie des mots dérivés ou composés. Ainsi, si on cherche mɔgɔ, on ne trouverait pas les formes mɔgɔw, dugukɔnɔmɔgɔw, etc. Néanmoins, on trouvera des mots-formes avec une structure morphologique complexe (ainsi, en cherchant la “Word”sara, on trouverait, parmi les autres, la forme sara du perfectif du verbe ). Autrement dit, ce type de recherche est analogue à la recherche dans Word avec l’option « Mot entier », ou une recherche d’un mot entre guillemets sur Internet. Comme dans la recherche du type « Phrase », « Word  » est sensible à l’orthographe du texte original.

Character

C’est une recherche dans le texte original (le niveau d’annotation : Word) par une séquence des symboles (non-séparés par des espaces) qui peut ne pas être identique à un morphème (une racine ou un affixe) bambara quelconque. La casse est respectée. En fait, ce type de recherche est presque identique à celui de « Phrase », sauf qu’il ne permet pas une recherche par une séquence ayant une espace à l’intérieur.

CQL

C’est une recherche par tous les paramètres disponibles des mots-formes, mais aussi par des combinaisons de ces paramètres. C’est un type de recherche flexible dont les questions sont formulées dans une langue artificielle : Corpus Query Language (CQL)
https://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying
Lorsqu’on choisit le type de recherche CQL, une fenêtre Default attribute apparaît automatiquement. Cette fenêtre comporte les options: Word, Lemma, Tag, Gloss.

La première et la deuxième options produisent les résultats analogiques au ceux qu’on obtient par des types différents de la recherche (cf. supra), mais elles sont nécessaires pour une recherche combinée.

Les deux dernières options permettent la recherche par la marque de partie de discours et par la glose française. Les listes exhaustives des marques des parties de discours et des gloses pour les morphèmes et les mots auxiliaires se trouvent sur la page d’accueil, l’onglet « Documentation ». Attention! Les gloses auxiliaires se trouvent au même niveau que les marques des parties de discours. Cela veut dire que, par exemple, pour rechercher la glose PTCP.RES, il faut indiquer l’option «tag».

La correspondance entre les types de recherche et les niveaux d’annotation est représentée dans le tableau suivant :

Type de recherche Les niveaux d’annotations concernées
Simple Word, Lemma, Parts
Lemma Lemma
Phrase Word
Word form Word
Character Word
CQL Tous

L’introduction de la forme à rechercher

Tous les types de recherche, excepté CQL, supposent une introduction de la forme à rechercher dans la fenêtre Query. Il va falloir ensuite, cliquer sur la touche Enter ou la touche Make Concordance pour créer la concordance.

La notation ou non-notation des tons

Pour la recherche dans corbama-brut ou corbama-net-non-tonal, les formes recherchées ne doivent pas avoir de marques tonales. Pour la recherche dans corbama-net-tonal, la forme recherchée peut être soit tonale (voir : Page d’accueil – Documentation - Notation tonale dans un texte normalisé bambara), soit non-tonale.

La recherche CQL

Pour une recherche du type CQL, la forme recherchée est mise entre guillemets: "kuma", "dòn", "pp", "serpent", etc.

Dans les versions récentes du moteur de recherche NoSketchEngine, l'option CQLbuilder a été introduite. Cette option facilite considérablement la formulation de requêtes.

Une recherche combinée est effectuée par plusieurs attributs d’un lexème, ce qui permet de nuancer au maximum la recherche et d’obtenir une sélection très pointue.
Lors de cette recherche, l’option indiquée dans la fenêtre Default attribute n’est pas pertinente (parce que les mêmes options sont indiquées dans la fenêtre CQL manuellement). La commande introduite dans la fenêtre CQL a la syntaxe suivante (ce qui se trouve entre chaque paire de crochets correspond à un token) :
[option1="n1" espace & espace option2="n2"]
(n1, n2 correspondent à des séquences recherchées).
Par exemple, si on veut trouver tous les emplois du mot kuma avec une étiquette de partie de discours « verbe » (v), la question est formulée comme suit :
[word="kuma" & tag="v"]

Une recherche par trois (ou plus) paramètres à la fois est également possible (même si cela ne donne pas souvent grand chose par rapport à une recherche par deux paramètres), exemple: [word="kɔnɔ" & tag="n" & gloss="oiseau"]

Évidemment, une recherche combinée n’est pertinente que dans le sous-corpus désambiguïsé.
Une recherche combinée est possible, dans le cadre de CQL, pour des expressions à plusieurs mots. Dans ce but, chaque mot (plus précisement, chaque token) doit être mis entre crochets, et les tokens doivent être séparés par des espaces. Exemple: [word="bara" & gloss="calebasse"] [word="kɔnɔ" & gloss="à.l’intérieur"]

Cette recherche permet de trouver toutes les combinaisons bàra kɔ́nɔ où le premier mot est ‘calebasse’ (plutôt que ‘chez’, ‘dancing’, ‘préféré’), et le deuxième mot est la postposition inessive (plutôt qu’‘attendre’, ‘bouton.de.fleur’, ‘oiseau’, ‘ventre’).

Le régime CQL permet une recherche par modèle grammatical, ce qui peut être utile pour des études syntaxiques. Prenons le modèle :[tag="adv.p"] [tag="v"],
Cette recherche devrait sélectionner toutes les occurrences des adverbes postverbaux dans la position préverbale.

Pour rechercher des parties d’un mot-forme complexe, y compris des morphèmes inflexionnels et dérivationnels, il faut indiquer le morphème en question dans les crochets (sans oublier que les morphèmes auxiliaires se trouvent dans l’option tag !), et le moteur de recherche trouvera tous les mots-formes comportant ce morphème.
Ainsi, pour trouver toutes les formes comportant la marque du pluriel, la commande se formule comme suit :
[tag="PL"]
Si on veut trouver une séquence de deux mots-formes dont la première comporte la marque du pluriel, et la deuxième la marque du participe potentiel, on doit formuler la commande comme suit :
[tag="PL"] [tag="PTCP.POT"]

Pour rechercher les formes redoublées (absentes dans la base lexicale Bamadaba), on peut appliquer la commande suivante :
1:[] 2:[] & 1.word = 2.word
Si on veut, par exemple, trouver tous les verbes redoublés, la commande doit être comme suite:
1:[tag="v"] 2:[tag="v"] & 1.word = 2.word

Pour rechercher les formes redoublées écrites en un seul mot, la syntaxe de commande doit être la suivante : "(.+)\1"
Pour les formes écrites avec un trait d’union : "(.+)-\1", Et si nous voulons obtenir à la fois les formes collées et à trait d’union, la commande est comme suit : "(.+)-?\1"
Pour minimiser le bruit, on peut exclure de la recherche les symboles inutiles (les nombres, la signe %, etc.). Il faut les énumérer, sans espaces, en les mettant dans les crochets dans la position devant le +; la séquence des symboles à exclure doit être précédée par un ^. Ainsi, la commande « rechercher toutes les formes redoublées collées ou écrites avec un trait d’union, en ignorant les nombres et % », est comme suit : "([^0-9%]+)-?\1"

Introduction des symboles non-standards

On peut introduire des symboles non-standards(ɔ, ɛ, ŋ, ɲ, les signes diacritiques pour les tons) de deux façons:
1) Par le moyen des jeux de caractères spéciaux. On peut même utiliser le clavier français standard pour les symboles à, è, é, ù, etc.
Mais, ce clavier est insuffisant pour beaucoup d’autres symboles.
2) Les symboles non-standards peuvent être remplacés par les combinaisons suivantes :
;o = ɔ
;e = ɛ
;n = ŋ
;m = ɲ

L’accent aigu (la marque du ton haut) est remplacé par une virgule après une voyelle, et l’accent grave (la marque du ton bas) est remplacé par l’apostrophe inverse suivant la voyelle. Exemple:
k;o, -> kɔ́
su` -> sù
k;e,n;e -> kɛ́nɛ
;m;o` -> ɲɔ̀
;n;o`mi -> ŋɔ̀mi

L’option Context

Cette option permet d’effectuer une recherche de la co-occurrence des formes séparées par d’autres formes. Elle est activée (ou désactivée) par un clic sur Context dans le menu à gauche.



Le mot de référence (par rapport auquel le contexte est indiqué) est introduit dans la fenêtre Query.

La forme déterminant le contexte voulu (donc la forme dont les combinaisons avec le mot de référence doivent être recherchées) est introduite dans Lemma filter. On peut y donner plus d’une forme.

Dans les fenêtres de Lemma filter, on peut indiquer quel est le contexte qui nous intéresse (left, right, both – dans ce dernier cas, à la fois les contextes droit et gauche sont pris en compte). L’option à droite permet d’indiquer la longueur du contexte, de 1 à 15 mots-formes. Si cette longueur est définie à 1, seules les formes adjacentes à la forme de référence seront trouvées (donc le résultat sera le même que pour la recherche du type Phrase). Si la longueur du contexte est 2, on trouvera des cas où les formes contextuelles sont adjacentes à la forme de référence ou séparées par une autre forme, etc. (il faut préciser qu’on trouvera également les cas où la forme contextuelle est séparée de la forme de référence par la limite de la proposition).

A la gauche de la fenêtre Lemma, on trouve une autre fenêtre contenant les options All, Any, None.
En sélectionnant l’option All, et en indiquant en même temps deux (ou plus) formes contextuelles, on trouvera les exemples où toutes les trois formes (la forme de référence et les deux formes contextuelles) apparaissent. Ainsi, si la forme de référence est kɛ, et les formes contextuelles sont yɛrɛ et ɲɔgɔn, on trouvera (parmi les autres) les exemples suivants :
Mɔgɔ min bɛ a mɔgɔɲɔgɔn jogin , a ye min kɛ o tigi la , o ɲɔgɔn ka a yɛrɛ fana la .
O de bɛ cikɛla kɛ senyɛrɛkɔrɔbaga ye , i n' a fɔ birokɔnɔbaarakɛla ; i n' a fɔ taɲini julabaw , i n' a fɔ yɛrɛ jamanakuntigi n' a kokɛɲɔgɔnw , senyɛrɛkɔrɔ siratɛgɛ la
Jatigikɛ yɛrɛ ɲuman na , a ɲɔgɔn cɛ kisɛ t' ale denw na .

Cette recherche peut être efficace (parmi d'autres) pour une étude de la possibilité de l’emploi des verbes transitifs avec les marques prédicatives (ce qui peut être important, par exemple, pour l’analyse des Aktionsarte), de la combinaison des verbes avec les postpositions, etc.

En sélectionnant la fonction Any, on trouvera tous les cas où kɛ apparaît avec au moins une des formes contextuelles (y compris, bien évidemment, les cas où toutes les trois formes (kɛ, yɛrɛ et ɲɔgɔn) co-occurrent).

Avec l’option None, toutes les occurrences du mot de référence sont sélectionnées avec les contextes où les formes contextuelles en question sont ABSENTES. Cette option peut être utile là où une forme apparaît le plus souvent dans le cadre de certaines expressions figées, tandis que l’utilisateur veut trouver ses utilisations en dehors de ces expressions.

Text types

Par défaut, le logiciel fait la recherche dans le sous-corpus entier. Dans la division Text types, on peut limiter la liste des textes dans lesquels on veut effectuer la recherche. L’option peut être activée par un clic sur Text types dans le menu à gauche.
La première fenêtre, doc.id, permet d’indiquer le texte particulier qu’on veut inclure dans le sous-corpus individuel. Si on commence à taper le nom de l’auteur ou le premier mot du titre de l’ouvrage, et si ce texte existe dans le corpus, le nom du fichier apparaît dans l’invite flottante.
Plus bas, on trouve les fenêtres :

Concordance

Un résultat non-négatif d'une recherche dans le sous-corpus est une concordance, c.-à-d. une liste d’exemples (et leurs contextes) trouvés dans le sous-corpus. Le Corpus bambara de référence n’a pas de limite en ce qui concerne le nombre d’exemples fournis à l’utilisateur. Dans la bande blanche en haut de l’écran, on trouvera l’indication du nombre d’exemples trouvés (Hits). Au-dessous de cette bande, le nombre de pages de la concordance est indiqué (dans le cas où le nombre d’exemples est supérieur à 20; par défaut, le nombre d’exemples par page est égal à 20). On y trouvera également les touches de navigation dans la concordance.

Pour chaque exemple, le nom du fichier est indiqué (où le nom de l’auteur et le titre du texte sont présentés d’une façon suffisamment transparente; cf. Page d’accueil – Documentation - Noms de fichiers dans le Corpus).

Pour régler la présentation de la concordance, on utilise deux options du menu : KWIC/Sentence et View Options.
En cliquant sur KWIC/Sentence, on change le régime de présentation des exemples : sous « Sentence », des propositions entières sont montrées (« d’un point à l’autre »), et sous le régime KWIC, les contextes droit et gauche d’une longueur déterminée sont montrés (par défaut, 40 caractères à gauche et 40 caractères à droit).

View_options

L’option View Options permet de régler la présentation de la Concordance d’une façon plus nuancée. On peut, en particulier :

L’indication des attributs de chaque mot s’avère plutôt encombrante pour le sous-corpus non-désambiguïsé (corbama.brut), car la plupart des mots ont plusieurs variantes d’analyse. Apparemment, cette option ne peut être recommandée que pour le sous-corpus désambiguïsé.

Plus bas dans l’interface, on trouve les options permettant:

Les autres fonctions de la zone View Options (Sort good dictionary examples etc.) ne sont pas pertinentes pour notre Corpus.

Pour activer la configuration définie dans les View Options, il faut cliquer sur le bouton Change view options en bas :



Save

La concordance obtenue peut être sauvegardée, en partie ou entièrement, dans le format texte. Pour la sauvegarder intégralement, on choisit l’option Save dans le menu à gauche.
Si on veut exporter les exemples normalisé et glosé (qu’on pourrait utiliser, après une édition minimale, comme des exemples dans un article), il est recommandé de procéder de la façon suivante :
entrer dans View options, cocher les attributs form et gloss, et dans la partie Display attributes, l’option For each token, puis appuyer le bouton Change view options. La concordance apparaîtra sous format suivant :



Ensuite, il faut choisir (dans le menu à gauche) l’option Save et cocher les paramètres dont on a besoin :



Si on choisit l’option Align KWIC, dans le fichier créé tous les mots et leurs gloses seront alignés par le moyen des espaces. Si on la décauche, les mots-formes (aussitôt que les gloses) seront séparés par des tabulations. Voici un exemple d’un concordancier et du fichier exporté de cette manière :



Le fichier exporté :
03dennyuman_ni_kononin.dis.html
” dón dɔ́ , à fà-cɛ̀ dògo-ra .
” jour certain , 3SG père-mâle cacher-PFV.INTR .

berete-faba_janjo.dis.html
à kó ní màa yé cí mín kɛ́ , í bɛ́ ò dè tɔ̀nɔ sɔ̀rɔ , Cɛ̀fin ní mùso wɛ́rɛ-w tùn bɛ́ jɛ̀ dògo lá .
3SG QUOT si homme PFV.TR commission REL faire , REFL IPFV.AFF ce FOC gain obtenir , NOM.M et femme autre-PL PST IPFV.AFF assembler dissimulation dans .

dukure-fatoya_ni_jigiya.dis.html
ó , màa júgu mán' à ká dananjuguwale kɛ́ kà dògo màa-w ná , ù b' ò kɛ́wale dá “ súya ” ní “ ɲɛ́ɲini ” kùnna .
emphathie , homme mauvais COND.AFF 3SG POSS egoiste-acte faire INF cacher homme-PL dans , 3PL IPFV.AFF ce acte poser “ sorcellerie ” et “ résolution ” au_dessus .

Sorting

Le tri des exemples est réglé dans la zone Sorting. Les exemples peuvent être rangés par ordre alphabétique de la forme se trouvant à droite de la forme recherchée (Right context) ou à gauche (Left context) ; la distinction entre les lettres majuscules et minuscules peut être ou ne pas être prise en compte (Ignore case). Ils peuvent être rangés par ordre alphabétique inversé (Backward). L’activation des paramètres choisis est effectuée en cliquant sur Sort Concordance.
Le tri à plusieurs niveaux n’est pas pertinent pour notre Corpus pour le moment.
Le menu principal comporte également les options Sorting – References (tri par noms des fichiers comportant les exemples de la concordance) et Sorting – Shuffle (brassage des exemples, de façon à lister les exemples au hasard).
L’option Sample permet de produire un échantillon aléatoire (parmi tous les exemples trouvés dans le corpus).
L’optionFilter est analogue, par ses fonctions, à l’option Context, cf. la division 4.
L’option Frequency donne l’accès à la statistique des mots-formes comportant l’élément en question, et la statistique de ses combinaisons avec les éléments voisins.

L’interface de cette option comporte deux zones:

1. Multilevel frequency distribution : Pour chaque niveau hiérarchique du tri, on peut choisir entre :

Au même temps, on peut définir les attributs de l’élément de référence et l’élément contextuel : word, lemma, tag, gloss. Notons qu’un calcul des fréquences du mot de référence dans le sous-corpus non-désambiguïsé par les paramètres lemma, tag, gloss n’est pas pertinent.

2. La zone Text Type frequency distribution : elle permet de définir la fréquence de l’élément recherché dans :


Collocation

La section Collocations permet de trouver des candidats aux collocations du mot recherché avec d’autres mots. La recherche est possible par les attributs (Attribute) des mots voisins (word, lemma, tag, gloss). On peut nuancer la recherche en indiquant s’il faut tenir compte du contexte à gauche (In the range from -1, -2, etc.) ou à droite (… to 1, 2, etc.); les chiffres correspondent à la dimension du contexte pris en compte (-1/1: seuls les mots contigus sont pris en compte; -2/2: le mot adjacent et le mot qui le suit/précède sont pris en compte, etc.).

En appuyant sur Make Candidate List, on obtient la liste des candidats aux collocations. En cliquant sur l’étiquette bleue Frec., ils seront rangés par ordre décroissant de fréquence.

Word List

L’option Word List permet de créer un dictionnaire de fréquence. En entrant dans cette option, on peut choisir entre les étiquettes All words, All lemmas. En cliquant sur ces étiquettes, on obtient une liste de fréquences de tous les tokens du sous-corpus (en ordre de décroissance). Les signes de ponctuations (étant des tokens du Corpus) se trouveront dans cette liste aussi.

Rechereche dans le corpus parallèle bambara-français

La recherche par la forme bambara s'effectue de la même manière que dans le corbama-brut ou corbama-net, la différence se manifeste dans la présentation du concordancier où, à côté des phrases bambara, on trouve des phrases françaises correspondantes.



L'interface de recherche dans le corpus parallèle a l'option "Parallel query" qui permet d'atténuer la recherche en précisant le lexème français qui intéresse l'utilisateur. Ainsi, on peut rechercher la forme bambara kɔnɔ, avec une recherche parallèle par "oiseau" :



Dans le concordancier, on n'aura que les phrases avec le mot bambara kɔnɔ ayant les phrases correspondantes françaises comportant le mot oiseau :



A part cela, tous les autres types de recherche décrits ci-dessus restent disponibles dans le corpus parallèle. En choisissant le sous-corpus corfarabama, on utilise le français comme la langue principale de recherche. La partie française du corpus parallèle est lemmatisée, et en recherchant par l'infinitif d'un verbe ou par la forme singulière d'un nom ou adjectif, on trouvera toutes les formes flexionnelles du lexème. Ainsi, une recherche par crier donne un concordancier avec les formes crier, crie, criant, etc. :



Recherche dans le sous-corpus syntaxiquement annote (corbama-UD)

Le corpus syntaxiquement annoté est un treebank dont l'étiquetage correspond au modèle d'Universal Dependencies. Les textes ont été, d'abord, désambiguïsés, puis les dépendances syntaxiques ont été marquées ; la liste complète des dépendances est disponible ici: http://universaldependencies.org/bm/dep/. L'annotation syntaxique consiste en indication des dépendances entre les paires des mots (plus précisement, des tokens) ; dans chaque paire des mots, l'un est représenté comme principal, et l'autre, comme dépendant.



Chaque mot d'une phrase est doté d'un numéro. Lors de la notation des dépendances, on obtient, pour chaque mot, l'information sur le numéro du mot qui apparaît principal par rapport à lui. Chaque dépendance est attribuée par un étiquette (relation de dépendance).



Dans le sou-corpus syntaxiquement annoté, une recherche du type simple query est possible par la forme bambara ou par le type de dépendance. Ainsi, pour trouver toutes les propositions contenant la dépendance du type obj (autrement dit, tous les cas où le verbe a un complément d'objet direct), on introduit l'étiquette (le "tag") de cette dépendance, obj:



Le résultat d'une telle recherche est un concordance comportant toutes les propositions qui contiennent un complément d'objet direct :



Tous les types de requêtes décrits dans les sections précédentes restent disponibles pour le sous-corpus syntaxiquement annoté. En plus, dans le recherche CQL, on peut faire la recherche par le numéro d'ordre du mot principal dans la phrase (en combinant cette information avec les autres) :