Composition du corpus

Le sous-corpus désambiguïsé

Les textes ont été désambiguïsés avec le logiciel Toolbox. Dans la plupart, il s’agit des données de ‎terrain de Valentin Vydrin obtenues par l’élicitation. Dans ces données, chaque phrase est dotée ‎d’un index (qui apparaît comme son référent dans concordancier comme l’identificateur de la ‎phrase) où sa position dans les données de terrain est encodée. Par exemple, l’index b188:3 signifie ‎que cette phrase provient du cahier B et se trouve sur la page 188 ; 3 est le numéro de la ligne dans ‎la page 188. Certain nombre de phrases provient des questionnaires typologiques : ‎

En plus, le sous-corpus désambiguïsé comporte plusieurs narratifs :‎

Dans le sous-corpus désambiguïsé, les traductions libres des phrases en français, anglais et russe ‎sont disponibles (mais, malheureusement, non cherchables) ; pour les voir, il faut cliquer, dans le ‎concordancier, sur l’identificateur de la phrase :

Identificateur de la phrase

Le sous-corpus non-désambiguïsé

Livres publiés:‎

Documents non-publiés :‎

Le journal Pamɛbhamɛ :