Il est trop tôt pour décrire l’impact du big data, ce flux considérable de données numériques accessibles sur Internet et les serveurs publics ou privés. Ce livre pose un indispensable premier jalon dans le monde foisonnant de ces quantités gigantesques de données, à l’heure où 98% des informations sont enregistrées sous forme numérique. Nous commençons à peine à entrevoir les bouleversements dans l’économie mais aussi le social, le juridique, les secteurs culturels et financiers. Pour le meilleur et pour le pire, le big data va transformer notre vie et notre travail mais nous ne savons pas encore ce qu’il adviendra des changements dans le domaine cognitif. Le livre début par un exemple rebattu, celui de la détection précoce de la propagation de la grippe en 2009, via le virus H1N1. Google a conçu un algorithme qui cherche la corrélation entre les requêtes concernant d’une part les demandes des internautes. D’autre part, la propagation de la grippe dans l’espace et dans le temps. A partir d’un nombre colossal de modèles mathématiques (450 millions!), les spécialistes de Google ont trouvé 45 mots-clés saisis par les internautes sur l’outil de recherche et permettant d’identifier en temps réel la propagation de la grippe. A comparer au délai de 1 à 2 semaines nécessaires avec les outils de détection précédents. Le correcteur orthographique de Google utilise des millions de termes issus des résultats de son outil de recherche pour corriger les fautes d’orthographe ou de syntaxe. En revanche, les outils de traduction butent encore sur les ambiguïtés et les particularités des idiomes. Le principe de base des big data repose sur la corrélation et non plus sur la causalité. En bref, sur le « quoi » et non le « pourquoi ». Amazon a appliqué concrètement ce concept en l’utilisant pour rédiger les recommandations d’achat qui généreraient un tiers de son chiffre d’affaire. De même, les 3/4 des nouvelles commandes de l’opérateur de VOD, Netflix, proviendrait des recommandations. Autre exemple concret, la ville de New York faisait face à l’explosion des trous d’homme éjectant des plaques de plus de 100 kg sur une hauteur de plusieurs étages. Un risque évident. En exploitant un nombre très important de données diverses (ancienneté des câbles, fréquence d’inspection,etc.) l’équipe d’analystes a identifié d’abord 106 variables,plus trad réduites à un petit nombre de signaux. Le taux de reconnaissance des trous d’homme à risques a été établi à 44%, un résultat remarquable. Les données les plus banales peuvent revêtir une grande importance, ainsi chez les opérateurs mobiles, le lieu et l’instant où les téléphones se connectent aux antennes-relais. Cela leur permet d’améliorer la qualité de réception de leurs systèmes.
Comme toutes les technologies, le big data est un système technique dual, à savoir qu’il procure des bénéfices mais aussi des inconvénients. Ainsi, le big data sert aussi aux spéculateurs sur les marchés financiers, de manière incontrôlée avec, à la clé, la constitution des bulles spéculatives.
Les grandes et les petites entreprises, seront les mieux à même de profiter des Big Data. Les auteurs ont identifié les entreprises qui pourraient profiter des big data. Les avantages d’échelle concernent les très grandes entreprises, les avantages en termes de coûts et d’innovation sont le fait de petites entreprises. Les entreprise moyennes ne seront pas éliminées mais beaucoup seront vulnérables à la pression crée par les big data.
Les risques du big data
L’intérêt de ce livre est qu’il explore les deux versants de cet fait technique majeur. Les auteurs indentifient 3 points à surveiller particulièrement.
D’abord, le risque potentiel de mettre à mal la vie privée des individus profilés par des systèmes de plus en plus performants.
Ensuite, le problème très préoccupant de la pénalisation des intentions. En bref, punir et sanctionner un individu en fonction de ce qui a été prédit par l’analyse de son profil comme dans le film Minority Report. Une situation abjecte que nous partageons avec les auteurs.
Enfin, le fétichisme à l’égard des chiffres et de la valeur des données. L’exemple de l’ancien secrétaire à la défense américain Robert Mc Namara cité dans l’ouvrage, montre les limites des indicateurs de toute nature. En l’occurrence, il s’agissait d’évaluer l’efficacité des troupes américaines en les comparant au pertes dans les deux camps, selon des statistiques biaisées par la chaine de commandement. Autre exemple fameux, la procédure d’embauche des cadres de Google qui exigeait de connaitre toutes les notes obtenues pendant le cursus scolaire … Un système semble t-il abandonné par les 2 fondateurs de Google.
Les conséquences d’une mauvaise interprétation des informations ainsi que des données incorrectes peuvent aboutir à des résultats catastrophiques. Il faut établir des règles qui garantissent la bonne utilisation des données. Transparence des éléments collectées, certification par des experts extérieurs ou en interne, réfutabilité possible comme dans la présentation de découvertes scientifique qui doivent être soumises aux pairs. Les auteurs suggèrent qu’une responsabilité contrôlée repose sur les utilisateurs de données. Il est dangereux de tirer des enseignements à partir d’une technologie qui est encore à découvrir et à évaluer. Avec les big data, la traçabilité sera très difficile, d’où la nécessité d’utiliser les résultats des corrélations avec précautions. Et les auteurs d’envisager un code de déontologie, tant pour ceux qui produisent les algorithmes que pour ceux qui utilisent les résultats. Sachant que les codes de déontologie sont contournés, il faut une bonne dose d’optimisme pour penser qu’il seront respectés à la lettre.
La lecture de ce livre est recommandée à tous ceux, médias, experts ou utilisateurs qui placent dans le big data des espoirs démesurés, sans appréhender la dimension humaine et les implications de toute découverte scientifique.
Big Data
La révolution des données est en marche
295 pages / 21€
Robert Laffont
Pour prolonger le sujet:
Un article daté du 24/08/2014 de The Economist stigmatisant la démesure de l’engouement actuel autour des big Data (en anglais)
Traduction d’un extrait de l’article:
Tout d’abord, il y a des biais inhérents aux données qui ne doivent pas être ignorées. C’est indéniablement le cas. Deuxièmement, certains partisans des données volumineuses ont prétendu que la théorie (c’est à dire, les modèles généralisables sur le fonctionnement du monde) est obsolète. En effet, la connaissance de la matière analysée reste nécessaire, même lorsqu’il s’agit des ensembles volumineux de données . Troisièmement, le risque de fausses corrélations — associations statistiquement robustes mais produite par le hasard — augmente avec plus de données. Bien qu’il existe de nouvelles techniques statistiques pour identifier et bannir les corrélations fallacieuses, telles que l’exécution de nombreux essais contre des sous-ensembles des données, ce sera toujours un problème.
Soyez le premier à commenter