Idéologie

L’idéologie du corpus : fixer, plutôt que normaliser

L’idée du projet est de construire un corpus bambara de référence contenant une importante masse de textes existants dans cette langue, publiés (périodiques, belles-lettres, littérature orale, manuels, guides pratiques, littérature de l’alphabétisation fonctionnelle, publications religieuses etc.) et non-publiés (lettres des lecteurs des journaux; textes enregistrés et transcrits par les chercheurs etc.).
É tant donné que la norme orthographique bambara est relativement moins élaborée (on peut mentionner Les règles d’orthographe de 1980 et le Guide d’orthographe de 1993, où on trouve plutôt des « principes d’orthographe » que des règles), une question se pose : devons-nous standardiser les textes ajoutés au corpus, en accord avec les règles d’orthographe (si peu insuffisantes qu’elles soient), ou pas ?

Les utilisateurs du corpus pourront lancer des requêtes telles que : dans quelle mesure la norme orthographique, établie par les organes officiels de la politique linguistique du Mali (DNAFLA-ILAB-Académie des Langues, Ministère de l’Éducation), influence-t-elle la pratique langagière?
Dans quelle mesure les formes dialectales, rejetées par les linguistes normalisateurs, sont quand même utilisées par les auteurs des textes publiés (mais aussi non-publiés) ?

Si nous décidons de normaliser les textes inclus dans le corpus, ce type de requêtes sera impossible. Une application visant à respecter cette décision sera d’ailleurs difficilement applicable, compte tenu de l’insuffisance de la documentation officielle concernant la norme orthographique. Cela veut dire que cette « normalisation » restera insuffisante dans tous les cas, et en plus, nous serions obligés de prendre des décisions plus ou moins préalables.

La non-normalisation des textes s’avère donc plus prometteuse. Elle permettra de représenter, dans le corpus, la pratique langagière bambara le plus fidèlement possible à la réalité. De plus, cela permettra de faire des recherches dont les résultats fourniront des éléments pour de futures décisions orthographiques.

En fait, l’organisation du corpus suppose des niveaux différents de normalisation orthographique : à côté de la forme telle qu’elle est dans le texte originel, l’analyseur morphologique donne les autres variantes phonétiques (à condition que l’équivalence de ces variantes soit indiquée dans la base lexicale); et dans le sous-corpus désambiguïsé, on trouvera des fautes d’orthographe corrigées par l’opérateur. Les formes de chaque niveau peuvent être accessibles pour le moteur de recherche.