Accueil

Présentation

Le projet de Corpus dan de l'Est fait partie du macro-projet Corpora Mandeica qui regroupe des corpus de plusieurs langues mandé.

Le dan de l'Est est une variété du dan, langue du groupe Mandé-Sud de la branche sud-est de la famille Mandé. Le dan est parlé par plus de 1,6 million de personnes à l'Ouest de la Côte d'Ivoire et au Nord du Libéria. L'ensemble des dialectes du dan de l'Est est parlé par environ 650.000 personnes des préfectures de Man, Sipilou et Biancouma (région de Tonkpi, Côte d'Ivoire). Le dialecte de Gouèta est pris comme base de la version écrite du dan de l'Est.

Le Corpus se compose de textes de genres différents, publiés ou non-publiés, dont les auteurs proviennent de zones dialectales différentes.

Lors de l'ouverture au public en avril 2018, le corpus comportait des textes dont le volume totalisait 23.632 mots. La totalité du corpus a été annoté morphologiquement de manière automatique (parties de discours, gloses françaises et analyse des formes dérivées et composées). Il est prévu de créer prochainement un sous-corpus désambiguïsé, où l'incertitude due à l'homonymie, produite au cours de l'annotation morphologique automatique, sera levée manuellement.

L'objectif est d'atteindre le volume de 700.000 à 1 million de mots. La création d'un corpus parallèle dan de l'Est-français est également envisagée.

Mise à jour, le 21 juillet 2022‎

Un sous-corpus désambiguïsé a été créé, son volume est 31,178 mots.
‎ Le volume du sous-corpus non-désambiguïsé a atteint 607,867 mots.‎
‎ La dimension totale du Corpus dan de l’Est a atteint 639,045 mots.‎

Les textes du sous-corpus désambiguïsé :‎

Les textes ont été désambiguïsés avec le logiciel Toolbox. Dans la plupart, il s’agit des données de ‎terrain de Valentin Vydrin obtenues par l’élicitation. Dans ces données, chaque phrase est dotée ‎d’un index (qui apparaît comme son référent dans concordancier comme l’identificateur de la ‎phrase) où sa position dans les données de terrain est encodée. Par exemple, l’index b188:3 signifie ‎que cette phrase provient du cahier B et se trouve sur la page 188 ; 3 est le numéro de la ligne dans ‎la page 188. Certain nombre de phrases provient des questionnaires typologiques : ‎


En plus, le sous-corpus désambiguïsé comporte plusieurs narratifs :‎
Nouveaux textes dans le Corpus du dan de l'Est:‎

Baba Tiémoko Sébastien. Wɔ́n dhɤ̏. Man, Pȁbhɛ̄nbhȁbhɛ̏n-EDILIS, 2019, 48 p., 22712 mots.‎
Baba Tiémoko Sébastien, Késsé Daniel. –Kwa 'wɔn zii pö [Contes dan "gwɛɛtaawʋ 1]. Abidjan: ‎Société Internationale de Linguistique, 1999, 40 p., 9016 mots.‎
de Saint-Exupéry, Antoine. Gblɯ̏dʌ̄gbɤ̄-dhʌ́n (Le Petit Prince, dans la langue dan de l'Est). ‎Traduit par Gué Nestor, Vydrin Valentin, Zeh Enmanuel. Man: Pȁbhɛ̄nbhȁbhɛ̏n — EDILIS, 2019, 92 ‎p. 18732 mots.‎
Kességbeu, Mongnan. -Bhöpë ta "slë -nu [Les techniques culturales]. Abidjan: Edilis, 2011, 143 ‎p., 20106 mots.‎

Le journal Pamɛbhamɛ

Mise à jour, le 12 octobre 2018

La dimension des corpus : 463 758 mots

Nouveaux textes dans le Corpus du dan de l'Est:

Le journal Pamɛbhamɛ