Data Power

Comprenez et exploitez la valeur de la donnée

Editions Eyrolles

par Cyril de Sousa Cardoso, Emmanuel Galou, Aurore Kervella, Patrick Kwok

Destiné à un large public qui va des entreprises aux associations en passant par les organisations et institutions, ce livre donne quelques clés pour tirer le meilleur parti des données numériques. Et en dresser les limites.

Les bonnes pratiques

Comprendre ce qu’est une data (donnée), Anticiper l’impact de la data pour le marketing, l’industrie, la finance, les médias, la médecine, le territoire, la politique. Utiliser les données dans vos activités commerciales, pour explorer , apprendre, modéliser, prédire, etc. Décoder les enjeux et les perspectives de la data dans les domaines de l’IA , de l’Iot, les questions écologiques, les enjeux de la propriété intellectuelle. Ce livre expose en 5 items le vaste champ qui s’ouvre à tous les utilisateurs professionnels de la donnée massive. Très intéressant par son riche contenu, il reste cependant un peu confus et ne structure pas suffisamment les informations essentielles. Surtout, sa lisibilité est altérée par une mise en page qui privilégie de très nombreux et volumineux encadrés, pas toujours pertinents. Mais l’essentiel est d’y trouver matière à réflexion, c’est le cas ici.

La data n’est pas une baguette magique. Les espoirs entretenus par un marketing omniprésent des acteurs du numérique sur le Big Data depuis 2012, on fait place au Small ou au Smart Data, vocables qui désignent la même chose. A savoir, l’analyse exploratoire d’un faible nombre de données, triées et réellement utiles pour prendre des décisions et produire des connaissances.

Les atouts de la data dans l’industrie

L’un des intérêts incontestables de la donnée dans l’industrie est d’effectuer une maintenance prédictive des équipements. Cette utilisation est déjà mise en application par des grands groupes tels Air Liquide pour prévoir la future défaillance de composants essentiels grâce aux données des capteurs, débit, pression. Ce type de maintenance anticipée a un rôle éminemment utile et une rentabilité explicite qui permet de prolonger la durée de vie des équipements. Elle est à distinguer de la maintenance classique qui consiste à remplacer une pièce, uniquement quand elle est défaillante.

Data et campagne politique

La campagne de 2008 d’Obama a reposé sur le travail de data scientists qui ont croisé un grand ensemble de données issues des fichiers électoraux avec les bases de données consommateurs qui ont bâti des modèles prédictifs. Lesquels ont permis aux équipes d’Obama de cibler très précisément les électeurs susceptibles de voter pour le candidat. Et ainsi de mieux cibler les actions de porte-à-porte. Sa campagne de 2012 s’est faite avec des outils plus performants en affinant le travail d’analyse pour identifier ceux des électeurs qui pourraient devenir militant ou activiste en ligne. En 2016, Trump s’est appuyé sur l’analyse de dizaines de millions de profils Facebook. Ces données ont permis de cibler sur ce réseau social les électeurs potentiellement favorables à Trump.

La finance utilise les données pour évaluer le risque client

Le risque de défaillance client est basé sur les données bancaires mais aussi sur les données sociodémographiques pour prédire la capacité des clients à rembourser les prêts (scoring client) . Les modèles prédictifs utilisés par les banques sont, ironie du sort, susceptibles à leur tour de créer un risque. Pour détecter la fraude, les institutions disposent de méthodes de machine learning et d’algorithmes capables de détecter les mouvements financiers illégaux. Mais les outils ne sont rien sans une volonté politique de poursuivre la fraude par de lourdes sanctions et des autorités capables de les appliquer avec du personnel formé en nombre suffisant.

Le Trading Haute fréquence est un effet pervers majeur des Fintech. Les algorithmes de traitement sont capables de passer des milliers d’ordres à la seconde pour jouer à la baisse et à la hausse. C’est un jeu d’argent-casino découplé de l’économie réelle. Ainsi se créent les risques de dérapage qui participent à la création des bulles financières.

La sociologie associée aux outils d’analyse exploratoire des données

Le sociologue Pierre Bourdieu affirmait l’utilité prépondérante des statistiques et pronait notamment l’analyse des correspondances multiples (ACM), une technique exploratoire qui résume l’information contenue dans un grand nombre de variables qualitatives pour une population d’individus et de les confronter à des variables quantitatives. A ce jour, les sources de données sont multiples (réseaux sociaux, sites web, base de données, Open Data des institutions, etc.). Les outils numériques et les algorithmes peuvent produire des résultats plus précis et pertinents.

Data et prédiction des épidémies

Ce livre est paru avant la pandémie du Covid-19 et le chapitre Data, épidémiologie et médecine expliquait que les outils d’exploration de multiples sources de données massives, organismes publics, départements sanitaires, rapports officiels, Internet pouvaient prédire l’apparition des pandémies. Le confinement de plus de 3 milliards de personnes sur la planète en mars et avril 2020 montre que la donnée, l’IA et les techniques d’analyse exploratoires des données ne sont qu’un maillon largement perfectible. Surtout, cette énorme crise sanitaire mondiale montre sans aucune équivoque que les outils ne sont rien sans une organisation efficace, des politique de santé publique cohérente. Il n’y a pas d’outil magique!

Les règles pour tirer le meilleur parti des données

La plupart des entreprises, organisations et institutions sont dépourvues face à la profusion de données issues de l’IoT (objets connectés), base de données, Internet, réseaux sociaux, etc. Le livre préconise 5 étapes pour exploiter au mieux la data.

  1. Fixer l’objectif et appréhender les données nécessaires
  2. Préparer les data, nettoyer et contrôler (sans doute la phase la plus chronophage car seuls 20 % environ des donnés sont utilisables)
  3. Créer des modèles descriptifs ou prédictifs.
  4. Tester le modèle. Il s’agit ici de la phase d’apprentissage qui permet d’amender le modèle initial . La revue scientifique Nature montrait ainsi que Google Flu Trends censé prédire la propagation localisée des épidémies obtenait des résultats bien moins fiables que celui du Centre américain de contrôle et de prévention de maladies.
  5. Déployer le modèle sur un cas concret.
Chacune de ces étapes est itérative.

Beaucoup d’autres sujets sont abordés comme la consommation électrique très conséquente des serveurs dans les data center, des réseaux, supports de stockage, etc. ainsi que la propriété intellectuelle, la propagation exponentielle des fake news. Autant de sujets qui démontrent le déploiement massif et croissant d’une technologie qui ne semble pas entièrement sous contrôle humain. Déjà, il est question de la puissance de calcul considérable de l’informatique quantique pour faire face à une augmentation toujours constante de la quantité de données disponibles.

Les auteurs concluent en estimant que les données sont une source de valeur humaine, économique et sociale face à la complexification croissante du monde. Un postulat qui tient plus de l’incantation que d’une réalité.

Leave Comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *