Noms des fichiers dans le Corpus

Les noms des fichiers ne contiennent pas les symboles ɛ, ɔ, ɩ, ʋ, ɯ, ɤ, æ, œ, ü, ö, ë ʋ̈, ŋ, même s’ils apparaissent dans le titre du texte ou de source; on remplace ces caractères par des lettres standards :

Symbole ɛ ɔ ɩ ʋ ɯ ɤ æ œ ü ö ë ʋ̈ ŋ
Lettre dans le nom de fichier e o i o u o ea ao u o e o ng

Les marques tonales et les signes diacritiques français ne sont pas utilisés. L’espace vide et l’apostrophe sont remplacés par le signe _ « souligné ».

Livres

Le nom du fichier comporte le nom de l’auteur/éditeur (si l’auteur/éditeur est connu, et s’il est le même pour le livre entier). Le nom de l’auteur est séparé du titre par un trait d’union. Pour éviter de trop longs noms de fichiers/répertoires, le titre du livre est ramené aux deux premiers mots, ex. : Mɛ faan dɔ -wυ > me_faan. Dans le cas où les mots du titre sont trop courts (ce qui peut empêcher l’identification facile du titre), on prendra plus de deux mots (sans dépasser la limite de 9-10 caractères), ex. : 'Pë nu "yua 'ka > pe_nu_yua_ka.
Dans le cas où il existe des livres ayant un même titre, on peut utiliser des noms de fichiers plus longs.
Quelques exemples des fichiers/répertoires correspondant à des livres (sans mentionner les extensions et les pré-extensions) :

Types de recherche

Si l’auteur d’un livre est inconnu, ou si le livre comporte des textes écrits par plusieures auteurs, on n’indiquera que le titre.

Subdivision en chapitres/fichiers

Si un livre n’est pas divisé en chapitres, on ne lui crée qu’un seul fichier. Par contre, si un livre est divisé en plusieurs chapitres et s’il est assez volumineux, chaque chapitre est représenté dans un fichier séparément. Le nom de chaque fichier commence par l’auteur et le titre du livre, suivi du numéro du chapitre (1 à 3 chiffres, en fonction du nombre total de chapitres dans le livre). Lorsqu'un un livre compte plus de 50 pages, il sera divisé en plusieurs fichiers même s'il n'est pas subdivisé en chapitres.
Si le volume de texte par page du livre est faible, le nombre de pages par fichier pourra être plus conséquent (100 pages ou plus).
Si les chapitres d’un livre ont des auteurs différents, le nom de l’auteur du chapitre est représenté dans le nom du fichier correspondant selon le même principe que le nom de l’auteur d'un livre.

Les périodiques

Le dossier contenant les fichiers d’un périodique a deux niveaux de hiérarchie : périodique\numéro\fichiers
Le dossier du premier niveau porte le nom du périodique et le dossier du deuxième niveau porte le nom du périodique et le numéro (ou la date) de parution de celui-ci. Le numéro est indiqué dans le cas où la numérotation est continue. Dans le cas contraire, la date de parution est indiquée sous format : AAAA-MM-JJ. Le numéro ou la date ne sont pas séparés par un espace du nom du périodique, ex. : pamebhame006.

Chaque matière (article, note…) est représentée par un fichier séparément. Le nom du fichier est créé selon le modèle suivant :
nom du périodique (sans espace) son numéro/date_numéro de page où la matière commence (en un, deux ou trois chiffres, en fonction du nombre total de pages du numéro)-(sans espace)-nom/jamu de l’auteur-trait d’union-les deux premiers mots du titre de l’article, connectés par le soulignement (le même principe que pour les noms de livres). Ex : pamebhame016_2me_ze_pe
Si le titre de la matière est absent, on prend les deux premiers mots du texte.

Textes non-publiés d’une collection

Le fichier porte le nom de celui qui a collecté les textes (éventuellement, le nom et le prénom en cas d'homonymie) suivi du titre du texte.