Présentation
Le projet de Corpus dan de l'Est fait partie du macro-projet Corpora Mandeica qui regroupe des corpus de plusieurs langues mandé.
Le dan de l'Est est une variété du dan, langue du groupe Mandé-Sud de la branche sud-est de la famille Mandé. Le dan est parlé par plus de 1,6 million de personnes à l'Ouest de la Côte d'Ivoire et au Nord du Libéria. L'ensemble des dialectes du dan de l'Est est parlé par environ 650.000 personnes des préfectures de Man, Sipilou et Biancouma (région de Tonkpi, Côte d'Ivoire). Le dialecte de Gouèta est pris comme base de la version écrite du dan de l'Est.
Le Corpus se compose de textes de genres différents, publiés ou non-publiés, dont les auteurs proviennent de zones dialectales différentes.
Lors de l'ouverture au public en avril 2018, le corpus comportait des textes dont le volume totalisait 23.632 mots. La totalité du corpus a été annoté morphologiquement de manière automatique (parties de discours, gloses françaises et analyse des formes dérivées et composées). Il est prévu de créer prochainement un sous-corpus désambiguïsé, où l'incertitude due à l'homonymie, produite au cours de l'annotation morphologique automatique, sera levée manuellement.
L'objectif est d'atteindre le volume de 700.000 à 1 million de mots. La création d'un corpus parallèle dan de l'Est-français est également envisagée.
Mise à jour, le 21 juillet 2022
Un sous-corpus désambiguïsé a été créé, son volume est 31,178 mots.
Le volume du sous-corpus non-désambiguïsé a atteint 607,867 mots.
La dimension totale du Corpus dan de l’Est a atteint 639,045 mots.
Les textes du sous-corpus désambiguïsé :
Les textes ont été désambiguïsés avec le logiciel Toolbox. Dans la plupart, il s’agit des données de terrain de Valentin Vydrin obtenues par l’élicitation. Dans ces données, chaque phrase est dotée d’un index (qui apparaît comme son référent dans concordancier comme l’identificateur de la phrase) où sa position dans les données de terrain est encodée. Par exemple, l’index b188:3 signifie que cette phrase provient du cahier B et se trouve sur la page 188 ; 3 est le numéro de la ligne dans la page 188. Certain nombre de phrases provient des questionnaires typologiques :
- un questionnaire sur les quantificateurs Keenan & Paperno (quantors_keenan)
- un questionnaire sur les quantificateurs de Tatevosov (quantors_ta)
En plus, le sous-corpus désambiguïsé comporte plusieurs narratifs :
- Kessé, Mongnan. Dhʌ́n wɔ̏n yɤ̏ gbe̋ȅ (Une femme sauve son enfent du feu.) (nawon)
- Kessé, Mongnan. Un récit sur la sorcellerie (duwon).
- Kessé, Mongnan. Zūʌ̋ sæ̏æ dhʌ̀n ɤ́ wɔ́n gbàn pɛ̋pɛ̋ dhɛ̋ ká (La patience est un remède contre tout.) (zuase)
- Kessé, Mongnan & Tiémoko Loua Soumahoro. Histoire de l’installation de la famille de Kessé à Santa, 17.07.2007 (Sumaoro).
Nouveaux textes dans le Corpus du dan de l'Est:
Baba Tiémoko Sébastien. Wɔ́n dhɤ̏. Man, Pȁbhɛ̄nbhȁbhɛ̏n-EDILIS, 2019, 48 p., 22712 mots.
Baba Tiémoko Sébastien, Késsé Daniel. –Kwa 'wɔn zii pö [Contes dan "gwɛɛtaawʋ 1]. Abidjan: Société Internationale de Linguistique, 1999, 40 p., 9016 mots.
de Saint-Exupéry, Antoine. Gblɯ̏dʌ̄gbɤ̄-dhʌ́n (Le Petit Prince, dans la langue dan de l'Est). Traduit par Gué Nestor, Vydrin Valentin, Zeh Enmanuel. Man: Pȁbhɛ̄nbhȁbhɛ̏n — EDILIS, 2019, 92 p. 18732 mots.
Kességbeu, Mongnan. -Bhöpë ta "slë -nu [Les techniques culturales]. Abidjan: Edilis, 2011, 143 p., 20106 mots.
Le journal Pamɛbhamɛ
- No. 2, 2005, 2977 mots
- No. 3, 2005, 3556 mots
- No. 4, 2005, 2960 mots
- No. 5, 2005, 2097 mots
- No. 6, 2005, 1714 mots
- No. 7, 2005, 2025 mots
- No. 10, 2006, 1421 mots
- No. 12, 2007, 2712 mots
- No. 13, avril 2007, 1423 mots
- No. 14, mai 2007, 1811 mots
- No. 15, juin 2007, 1219 mots
- No. 16, juillet 2007, 1351 mots
- No. 17, août 2007, 936 mots
- No. 18, septembre 2007, 996 mots
- No. 19, septembre 2007, 2133 mots
- No. 20, octobre 2007, 2234 mots
- No. 21, janvier 2008, 2242 mots
- No. 22, avril 2008, 1851 mots
- No. 23, mai, 2008, 1497 mots
- No. 24, juin, 2008, 1609 mots
- No. 25, juillet, 2008, 2199 mots
- No. 26, juin, 2009, 2144 mots
- No. 27, août, 2009, 1474 mots
- No. 28, sept. 2009, 1540 mots
- No. 29, sept. 2009, 1632 mots
- No. 30, octobre 2009, 1542 mots
- No. 31, novembre 2009, 1703 mots
- No. 33, fevrier 2010, 1896 mots
- No. 34, mars 2010, 1710 mots
- No. 35, avril 2010, 1646 mots
- No. 36, mai, 2010, 1551 mots
- No. 37, juin 2010, 1246 mots
- No. 38, juillet 2010, 1062 mots
- No. 39, janvier 2011, 1464 mots
- No. 40, octobre 2014, 1828 mots
- No. 41, novembre 2014, 1864 mots
- No. 42, 2014 , 577 mots
- No. 43, 2014, 2219 mots
- No. 44, 2014 , 1953 mots
- No. 45, 2017 , 1294 mots
- No. 46, 2017, 1658 mots
- No. 47, août, 2017, 1079 mots
- No. 48, septembre, 2017, 1538 mots
- No. 49, 2018, 967 mots
- No. 50, 2018, 385 mots
- No. 51, 2018 , 1017 mots
- No. 52, 2018 , 200 mots
- No. 53, 2019 , 1002 mots
- No. 55, 2019 , 1084 mots
- No. 56, octobre 2019, 1082 mots
- No. 57, novembre 2019, 300 mots
- No. 57b, juin 2019, 326 mots
- No. 58, octobre 2019, 1090 mots
Mise à jour, le 12 octobre 2018
La dimension des corpus : 463 758 mots
Nouveaux textes dans le Corpus du dan de l'Est:
- Baba, Tiémoko Sébastien. –Kwa ’wɔn zii pö. [Contes dan "gwɛɛtaawʋ.] vol. 2 (non-publié). 23618 mots.
- Baba, Tiémoko Sebastien. Mɛ faan dɔ -wυ [Livre de sensibilisation]. Man: La LIGUE pour la Promotion de la langue Dan. 16441 mots.
- Baba, Tiémoko Sebastien & Daniel Késsé (trans.). Naɔ -së ’ö -gban Yesu Klisi -bha ’ö [Nouveau Testament]. Abidjan. 368093 mots.
- Kessé, Mongnan Alphose. 2007. "Sanni kö =dhɔtrɔɔ -yö nu [En attendant l’arrivée du médecin]. Abidjan. 48p., 7265 mots
- Kessé, Mongnan Alphonse. 2007. ’Pë nu "yua ’ka [Ce qui apporte la maladie]. Abidjan. 7520 mots.
- Kessé, Mongnan Alphonse. -Dhuangdhe [Le miroir]. 3599 mots.
- =Kesɩ =Mɔyan Dhifɔnngsü (traduction). Declaration des droits de l'homme). 1698 mots.
- Kluubali, Misiölinö (traduction par =Kesɩ =Mɔyan Dhifɔnngsü). Medɔɔ -bha -bin ’gü -wɔn -nu [L’histoire de Medor]. Abidjan: Edilis-Éditions Livre Sud. 19833 mots.
Le journal Pamɛbhamɛ