Dans son article «De la lexicométrie à la logométrie», Damon Mayaffre revient sur les contraintes linguistiques liées à la lexicométrie. Reprenant les thèses des réfractaires et des spécialistes de la discipline, il propose de dépasser leurs contradictions à travers une «modernisation» de l’analyse informatisée des textes, qu’il appelle « logométrie ».

« Le discours est l’endroit où la langue est travaillée par l’idéologie, où les mots sont enjeux, où leur sens est en jeu, là où le dictionnaire, qui canonise le sens, enregistre de manière figée et naïve ce travail. »*

La plupart des obstacles techniques et matériels qui existaient à l’époque des premiers développements de la lexicométrie sont en passe de devenir caducs. Les textes numérisés sont ainsi de plus en plus aisément accessibles sous un format universel (XML). Par ailleurs, le perfectionnement des logiciels facilite les traitements des textes par les ordinateurs.

Pourtant, la lexicométrie connaît encore de nombreux détracteurs. Ce n’est plus sa faisabilité technique qui est en cause, mais la validité même de l’approche linguistique qu’elle propose. Depuis sa création, la pertinence scientifique de la méthode est pointée du doigt. Soupçonnée de s’intéresser uniquement à la forme des mots et non à leur sens, la lexicométrie est considérée comme une discipline restrictive qui n’a pas la capacité de dévoiler une véritable réalité linguistique. En effet, la lexicométrie compte les mots. Tous les mots. En outre, les logiciels ne distinguent pas les homographes (mots s’écrivant de la même façon mais avec des sens différents).

Historien de formation, Damon Mayaffre est aujourd'hui linguiste et chargé de recherche au CNRS. Spécialiste du discours politique contemporain, il effectue ses recherches grâce à des outils de traitement automatique des textes. Sa thèse parue chez Champion en 2000 traitait du discours politique de gauche et de droite dans l'entre-deux-guerres. Il a publié de nombreux ouvrages basés sur la linguistique de corpus. Le dernier en date, «Mesure et démesure du discours», publié en 2012 chez Sciences Po les presses, décortique le discours présidentiel de Nicolas Sarkozy de 2007 à 2012.

Pour résoudre ce problème, la lemmatisation permet d’étudier chaque mot dans sa forme canonique. En lexicométrie sont distingués «petit» de «Petit» ou encore de «petites». Lemmatiser un texte, c’est regrouper les homographes d’un mot sous une même forme simple. Dans notre exemple les trois mots regroupés formeront : «petit», nom masculin. Pour un verbe conjugué par exemple, «mangera», «mangeait», « mangée » seront tous regroupés sous l’infinitif «manger»(1).

Cependant, la lemmatisation elle aussi a ses dangers. Selon le linguiste Maurice Tournier « elle ne résout rien et empire tout », puisqu’elle ne résout pas la question du sens «indécidable hors contexte et surtout par une machine»*.De plus, lemmatiser un texte, c’est le travestir d’une analyse avant même l’entrée en matière. Prenons un exemple: «Démocratie» ou «démocraties». Ces deux mots dans leur contexte n’ont pas le même sens, pourtant et c’est le principe même de la lemmatisation, ils seront analysés comme une seule et unique forme, «démocratie». (sans majuscule et sans s)

La lemmatisation, considérée comme un perfectionnement de la lexicométrie par les puristes, est un exercice «périlleux» et contre-productif pour les formalistes(2). Ces derniers estiment que « c’est aller à l’encontre même de l’approche lexicométrique qui entend déconstruire le plus objectivement possible un texte pour accéder à son sens ». Selon Maurice Tournier, la philosophie lexicométrique va à l’encontre de «la logique dictionnairique qui reprend la lemmatisation»

Reprenant l’ensemble du débat entre formalistes et lemmatiseurs, Damon Mayaffre propose de renommer la discipline « logométrie ». Aujourd’hui grâce au logiciel Hyperbase, il est possible de traiter des textes bruts(3) et des textes lemmatisés simultanément. Dans cette optique, on ne parle plus réellement de lexicométrie. « Il est tout aussi impossible de renoncer aux formes graphiques, que de s’en tenir à elles ; impossible de se priver des richesses de la lemmatisation ». En outre il s’agit d’accorder ces deux visions de l’analyse des textes afin de fournir des résultats objectifs et linguistiquement fiables.

Notes :
* extrait de l’article de Damon Mayaffre

1 Les dictionnaires sont lemmatisés. On y trouve la «plus petite unité lexicale» des mots. Pour trouver la définition du mot «partira», il faut chercher «partir», le verbe.

2 Formaliste : nom donné par Damon Mayaffre aux utilisateurs de la lexicométrie formelle (sans lemmatisation)

3 Textes bruts : textes non lemmatisés.