Accueil

Présentation

Le projet de Corpus dan de l'Est fait partie du macro-projet Corpora Mandeica qui regroupe des corpus de plusieurs langues mandé.

Le dan de l'Est est une variété du dan, langue du groupe Mandé-Sud de la branche sud-est de la famille Mandé. Le dan est parlé par plus de 1,6 million de personnes à l'Ouest de la Côte d'Ivoire et au Nord du Libéria. L'ensemble des dialectes du dan de l'Est est parlé par environ 650.000 personnes des préfectures de Man, Sipilou et Biancouma (région de Tonkpi, Côte d'Ivoire). Le dialecte de Gouèta est pris comme base de la version écrite du dan de l'Est (voir la carte...).

Le Corpus se compose de textes de genres différents, publiés ou non-publiés, dont les auteurs proviennent de zones dialectales différentes.

Lors de l'ouverture au public en avril 2018, le corpus comportait des textes dont le volume totalisait 23.632 mots. La totalité du corpus a été annoté morphologiquement de manière automatique (parties de discours, gloses françaises et analyse des formes dérivées et composées). Il est prévu de créer prochainement un sous-corpus désambiguïsé, où l'incertitude due à l'homonymie, produite au cours de l'annotation morphologique automatique, sera levée manuellement.

L'objectif est d'atteindre le volume de 700.000 à 1 million de mots. La création d'un corpus parallèle dan de l'Est-français est également envisagée.

Mise à jour, le 12 octobre 2018

La dimension des corpus : 463 758 mots

Nouveaux textes dans le Corpus du dan de l'Est:

Le journal Pamɛbhamɛ