Hadoop: devenez opérationnel dans le monde du Big Data

Hadoop
Hadoop, à l’usage des étudiants en informatique et de ceux qui souhaitent évoluer dans leur tâches

 Présentation par l’éditeur

Hadoop est un framework, à savoir un ensemble  cohérent de logiciels qui servent à créer des applications distribuées, au niveau du stockage des données et de leur traitement) et échelonnables pour traiter, parfois en temps réel, les énormes quantités de données du Big Data. Ces données issues des capteurs, smartphones, applications mobiles, etc. doivent être traitées selon un paradigme informatique radicalement différent des anciennes architectures client-serveur mono-canal. Ce livre est sans doute le premier en langue française à rassembler de manière claire et synthétique, les fondements et principes de cette technologie. Il permet d’acquérir de solides bases  pour mettre en pratique Hadoop. L’ouvrage se destine aux consultants en BI, développeurs d’applications, étudiants en SI, responsables SI, etc. Dans le domaine du big ou smart Data, exit les SGBR, autrement dit l’ancien modèle de bases de données. Dans les grandes lignes, Hadoop permet de répartir le stockage des données sur plusieurs clusters et de paralléliser le traitement de ces données sur des grappes d’ordinateurs (MPP), bénéficiant ainsi de rendements d’échelle  inédits. Pour gérer la croissance exponentielle des données, il est possible d’ajouter des noeuds  de clusters à la demande.  La brique essentielle d’Hadoop est le modèle d’architecture de développement informatique MapReduce, inventé par Google, pour gérer les millions de pages avec son moteur de recherche, pour calculer des index de pages en quasi temps réel. MapReduce effectue des calculs parallèles et souvent distribués, de données très volumineuses, typiquement supérieures en taille à 1 Téraoctet. Les solutions alternatives au MapReduce comme Spark ou Tez sont également évoquées.

L’intérêt du livre est de livrer des explications très claires sur les principes essentiels d’Hadoop, tels que HDFS, le système de fichiers distribués, Yarn, une application de planification des tâches, Storm, un environnement de développement et un moteur de déploiement de calcul distribué, etc. L’auteur ne se contente pas de faire entrer son lecteur au coeur d’Hadoop, il vulgarise les aspects technologiques associés à un déploiement, comme le streaming et le temps réel ou plus globalement, présente les avantages et limites de l’Open Source. Des conseils et tableaux récapitulatifs d’outils permettent de choisir les solutions adaptées à chaque cas particulier. Il s’agit, notamment, des 3 distributions Hadoop, Cloudera, HortonWorks et MapR avec les notions de disponibilité des briques logicielles, de sécurité,  les performances et enfin le support technique. Les profils métiers du Big Data sont présentés en détail pour orienter les étudiants ou les informaticiens qui veulent évoluer vers Hadoop. L’ingénieur de données (data engineer), spécialisé dans la gestion des données, le data scientist, un ingénieur capable de développer des algorithmes pour anticiper le comportement d’une variable, recommander des actions, catégoriser les données, le développeur d’applications métiers et l’architecte capable de choisir les briques pour résoudre un problème particulier ou les intégrer au SI existant.

Des cas concrets d’application d’Hadoop dans le livre

Air France utilise Hadoop dans le cadre du projet Karma, le système de gestion de revenus de la compagnie. Le rôle est double. D’une part, optimiser les revenus et permettre aux analystes des vols de faire des recommandations en fonction des marchés, des périodes,des évènements et d’autre part, agir sur la disponibilité des sièges à vendre pour un tarif donné, à une date donnée. Hadoop s’impose ici eut égard au grand volume de données et au nombre d’évènements à prendre en compte.

EDF utilise Hadoop pour gérer son projet de Smart Grid afin de faire face aux nouveaux usages comme la voiture électrique, les smart cities, etc.. Un Smart Grid optimise l’utilisation, la production, la distribution et la consommation de l’énergie. Pour cela , EDF s’appuie notamment sur les données issues des compteurs Linky.

Au fil des chapitres, l’auteur explique précisément pourquoi et comment les briques d’Hadoop répondent aux impératifs de disponibilité quasi totale des clients en B to B ou B to C et la nécessité de traiter une seule fois des données cruciales s’appuyant sur les exemples de Viadeo ou des centrales de réservation hôtelières. Dans ce dernier cas, il s’agit ainsi de ne plus mettre en vente un séjour ou une chambre d’hôtel dès lors qu’il a été réservé.

Dans un chapitre sur la transformation numérique des services, il est rappelé à juste titre que le changement contient une opportunité. A l’âge de l’information , de la communication et de la globalisation, il n’est plus possible d’ignorer la transition radicale qui est en train de s’effectuer, reconnaissable à des multiples signes, faute d’échouer définitivement comme Nokia et d’autres.

Un bémol toutefois la vision optimiste de la transformation numérique, positive à tous égards selon l’auteur quand il cite les réussites d’Uber et d’autres acteurs de la dernière vague numérique. La rupture numérique qui se déroule sous nos yeux impacte de manière brutale les organisations de travail et bouleverse les relations contractuelles de manière définitive. En bref, il faut d’évidence que les fruits de la nouvelle économie soient partagés de manière plus équitable entre les travailleurs sur le terrain et les propriétaires des plateformes collaboratives. Les modèles économiques, sociaux et fiscaux de l’écosystème numérique ne sont pas encore matures et demanderont de nombreux et profonds ajustements sous peine de cliver nos sociétés.

A notre avis, ce livre est une excellente trousse à outils, indispensable pour aborder les SI sous Hadoop avec des qualités pédagogiques indéniables pour hausser sa valeur professionnelle et couvrir la majorité des problématiques de traitement des données.

Soyez le premier à commenter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.


*