Connexion

Les critiques de Bifrost

Culturama

Jean-Baptiste MICHEL, Erez AIDEN
ROBERT LAFFONT
304pp - 20,00 €

Critique parue en juillet 2015 dans Bifrost n° 79

On sait que les big data, par leur capacité à traiter de grandes masses de données, sont en passe de corriger notre vision du monde. Un changement d'échelle comparable selon les auteurs à la révolution galiléenne où la lentille grossissante changea la vision et donc la compréhension du cosmos en révélant les lunes de Jupiter. Les recherches exploratoires des big data sont dépourvues d'hypothèse, mais offrent des résultats inattendus souvent instructifs. Profitant de la numérisation de trente millions d'ouvrages par Google, les auteurs ont imaginé une nouvelle approche de la culture, du langage et de l'Histoire basée sur la récurrence des termes à travers les textes, à laquelle ils ont donné le nom de culturomique. À vrai dire, elle n'est pas inédite puisque des recherches lexicographiques ont déjà été menées par des linguistes qui ont patiemment recensé les occurrences d'un terme à travers une période ou dans l'espace restreint d'un livre ; l'aspect fastidieux de l'entreprise limitait ces évaluations à quelques rares recherches. Les capacités de l'ordinateur permettent de systématiser ce type de questionnement.

Cet ouvrage retrace l'aventure des chercheurs : il a fallu convaincre Google de l'utilité d'une telle exploration pour se voir accorder l'accès aux calculateurs et aux données couvrant l'édition de 1800 à nos jours. L'obtention de graphes a rencontré un tel enthousiasme auprès des utilisateurs potentiels, sociologues, historiens, linguistes, qu'un Ngram Viewer, N identifiant le nombre d'éléments recherchés dans une requête, est désormais en libre accès (https://books.google.com/ngrams).

Cet aspect anecdotique est de peu d'intérêt. Les premiers chapitres sont un exposé un peu laborieux de la constitution du savoir et de sa consultation depuis les origines. Mais il s'agit d'un ouvrage grand public, qui a pour corollaire de délimiter clairement la question. Pour exploiter les statistiques, il est nécessaire de se doter d'outils mathématiques : on saura ainsi en quoi consiste la loi de Zipf (qui établit dans les années trente la liste des mots composant l'Ulysse de James Joyce), celle de Benford, ou la fréquence de Hautpoul.

À quoi sert-il de relever les occurrences d'un terme dans un ensemble de livres ou de revues ? On peut ainsi démolir des idées reçues ou constater des mouvements de fond invisibles autrement, car étalés dans le temps ou occultés par le crépitement de l'actualité. On réalise là une traque de la matière noire de la culture. Ainsi, véritable matière noire lexicale, la loi de Zipf détermine que les mots revenant moins d'un million de fois ne sont pas repérés par les dictionnaires, même spécialisés. Le seuil d'entrée est fixé à un milliard d'occurrences.

Il est troublant de constater que la fréquence de régularisation d'un verbe irrégulier en langue anglaise, du fait d'un emploi erroné généralisé, est similaire à la demi-vie d'une substance radioactive. Il est ainsi possible de connaître le nombre de verbes irréguliers qui le seront toujours dans cinq siècles et même de déterminer le prochain à recevoir une forme régulière. De même, l'entrée de mots nouveaux dans un dictionnaire est dépendante de leur fréquence.

Les exemples qui constituent l'essentiel de l'ouvrage, souvent surprenants, recensent les emplois possibles de telles recherches : mise en évidence d'une censure dans l'Allemagne nazie jusqu'à présent passée inaperçue, activités garantissant une célébrité rapide (les grands criminels avant les acteurs) et courbe de l'oubli au sein de la mémoire collective, taux de pénétration d'une invention, accélération de la capacité d'apprentissage de la population. Au passage, on fait appel aux fractales de Mandelbrot ou à la théorie des jeux de von Neumann. Des applications pratiques sont également envisageables avec les big data, comme la détection des fraudeurs dont les déclarations ne suivent pas la courbe de Benford lors du trucage des chiffres. Sur le plan culturel, la mesure de l'accélération du progrès et des changements du mode de vie humain met en évidence la proximité d'une singularité typiquement vingienne d'une limite au-delà de laquelle l'activité humaine telle que conçue actuellement ne pourrait se poursuivre. De façon plus prosaïque, des changements progressifs de l'opinion peuvent être mis au jour, dont des publicistes ou des politiques pourraient tenir compte. Nous ne sommes pas loin de la psychohistoire asimovienne.

Instructif et distrayant, l'ouvrage a le mérite de rendre ces notions statistiques accessibles au grand public. Corollaire : il manque une analyse plus en profondeur des implications philosophiques et sociales de telles recherches. Mais chaque lecteur trouvera ici les éléments pour mener sa propre réflexion.

Claude ECKEN

Ça vient de paraître

Les Armées de ceux que j'aime

Le dernier Bifrost

Bifrost n° 116
PayPlug