Noms des fichiers dans le Corpus

Les noms des fichiers ne contiennent pas les symboles ɛ, ɔ, ŋ, ɲ, même s’ils apparaissent dans le titre du texte ou de source; on remplace ces caractères respectivement par e, o, ng, ny. Les signes diacritiques français ne sont pas non plus utilisés. L’espace vide et l’apostrophe sont remplacés par le signe _ « souligné ».

Les noms des fichiers ont une extension .HTML et une pré-extension (rajouté automatiquement) : .PARS pour les fichiers non-désambiguïsés, .DIS pour les fichiers désambiguïsés. Exemple :
jekabaara273_08jawara_mali.dis.html
an_ka_yele.pars.html

Livres

Le nom du fichier comporte le nom/jamu de l’auteur/éditeur (si l’auteur/éditeur est connu, et s’il est le même pour le livre entier). Le nom de l’auteur est séparé du titre par un trait d’union. Pour éviter de trop longs noms de fichiers/répertoires, le titre du livre est ramené aux deux premiers mots, ex. : Des hommes et des bêtes > des_hommes. Dans le cas où les mots initiaux du titre sont trop courts (ce qui peut empêcher l’identification facile du titre), on prendra plus de deux mots (sans dépasser la limite de 9-10 caractères), ex. : N'y' a da surukuba la > n_y_a_da. On aura recours à des noms de fichiers plus longs dans les cas où deux ou plus livres sont disponibles avec des titres similaires.

Quelques exemples des fichiers/répertoires correspondant à des livres (sans mentionner les extensions et les pré-extensions) :
tera-cun_cakica
wulale-kalanje_ni
derive_dumestre-des_hommes

Si l’auteur d’un livre est inconnu, ou si le livre comporte des textes par des auteurs différents, on n’indique que le titre :
sidako
n_y_a_da
sinin_y_i

Subdivision en chapitres/fichiers

Si un livre est subdivisé en chapitres (et le livre est assez volumineux), chaque chapitre est représenté par un fichier séparé. Le nom de chaque fichier commence par l’auteur et le titre du livre, suivi du numéro du chapitre (1 à 3 chiffres, en fonction du nombre total des chapitres dans le livre), exemple:
tera-сun_сakica_08сan_musalaka

Lorsqu'un un livre compte plus de 50 pages, il sera subdivisé en plusieurs fichiers, même si le livre n’a pas de subdivision en chapitres. Toutefois si le volume de texte par page du livre est faible, le nombre de pages par fichier pourra être plus conséquent (100 pages ou plus).

Si les chapitres d’un livre ont des auteurs différents, le nom de l’auteur du chapitre est représenté dans le nom du fichier (selon le même principe que le nom de l’auteur du livre, cf. supra):
derive_dumestre-des_hommes_01sangare-jifinbanba

Les périodiques

Chaque matière (article, note…) est donnée en fichier séparé. Le nom du fichier est créé selon le modèle suivant :
nom du périodique et (sans espace) son numéro/date_numéro de page où la matière commence (en un, deux ou trois chiffres, en fonction du nombre total de pages du numéro)-(sans espace)-nom/jamu de l’auteur-trait d’union-les deux premiers mots du titre de l’article, connectés par le soulignement (le même principe que pour les noms de livres). Ex :
jekabaara273_03sidibe-dinye

Si l’auteur de la matière n’est pas indiqué, on se limite au titre. Si le titre est absent, on prend les deux premiers mots du texte. Ex :
kibaru456_10seliba
kibaru456_06hakilisenekene
kibaru359_08u_ko

Affiches

Le nom du fichier doit inclure les deux premiers mots du titre de l’affiche. Ex :
nafasoro_ponpe
sinin_y_i

Textes non-publiés d’une collection

Le fichier porte le nom de celui qui a collecté les textes (éventuellement, le nom et le prénom, s’il est nécessaire d’éviter l’homonymie) et le titre du texte. Ex :
bailleul-bamako_sigicogo