Maitrisez l’utilisation des techniques Hadoop – Editions Eyrolles –

Maitrisez l'utilisation des techniques Hadoop Eyrolles Juvenal Chokogoue

Initiation à l’écosystème Hadoop

Pour traiter l’énorme volume de données traitées par les géants du Web Google, Amazon et autres plateformes numériques, il fallait impérativement un nouveau paradigme technologique, l’écosystème Hadoop. Rappelons que Google traite chaque jour en temps réel 3,3 milliards de requêtes. L’écosytème Hadoop est un framework issu à l’origine des développements de Google, repris par la fondation Apache en 2009. Il s’agit d’un système de traitement distribué et parallélisé de gigantesques volumes de données. Le noyau d’Hadoop est construit essentiellement autour du système de fichier HDFS (Hadoop Distributed File System) et du modèle d’architecture informatique MapReduce. L’intérêt de cet ouvrage solidement charpenté est d’entrer dans le paradigme complexe des traitements distribués et massifs de données, sans verbiage inutile. L’auteur y parvient avec un sens aigu de la pédagogie qui ne laisse aucune notion de base au rencart. Les concepts des Bases de données SQL ou NoSql, d’infrastructures et architectures IT, de traitement et gestion en temps réél des données, sont clairement rappelées et explicitées. Ce qui caractérise la nature des données à traiter dans le Big Data ce sont leur diversité (données structurées ou non telles des sons, images, vidéos), leur volume et la nécessité de les gérer en temps quasi réél. Il faut donc des outils logiciels adaptés, en rupture profonde avec la précédente génération et de nouvelles manières de les implémenter et utiliser.

Un socle didactique pour Hadoop pour une cible variée de lecteurs

L’ouvrage s’adresse à 3 catégories de publics:

  • Les consultants BI ( Business Intelligence) big data, data scientists, chargés d’études et chefs de projets data
  • Les étudiants désireux de s’orienter vers le big data
  • De manière générale, tout professionnel souhaitant prendre le virage du big data ou valoriser les données de son entreprise.

A la fin de chaque chapitre, un résumé rappelle les points clés et un guide d’étude permet au lecteur de renforcer ses acquis sous forme de questions à compléter.

Les technologies Hadoop passées au crible

Le livre permet de comprendre et utiliser de façon professionnelle 18 technologies clés d’Hadoop répondant aux noms Spark, Hive, Pig, Impala, ElasticSearch, HBase, Lucene, HAWQ, MapReduce, Mahout, Tez, Phoenix, YARN, ZooKeeper, Storm, Oozie et Sqoop. Un long développement est consacré à HBase, la base de données NoSql d’Hadoop qui n’utilise plus la notion de SGBR comme MySql , Postgres ou Sybase. Toutes les briques Hadoop font l’objet d’une présentation didactique qui permet de les situer en fonction de leur place dans l’écosystème. Les grands acteurs de l’édition de logiciels présentent des solutions embarquées selon une intégration verticale dans le SI de l’entreprise. Le livre traite de 3 d’entres elles, IBM Big Insights, Pivotal Big Data et SAS High Performance Analytics. Pour les petites et moyennes entreprises qui n’ont pas les moyens de s’offrir une solution Hadoop On Premise (en interne sur leurs propres serveurs), reste la possibilité d’acquérir une solution en Cloud, avec un abonnement et un paiement en fonction des ressources consommées. Un chapitre leur est consacré et présente deux solutions pérennes, Amazon EMR et Microsoft HDInsights. Au final, la balle est maintenant dans le camp des utilisateurs métiers par secteur d’activité horizontal (Finance, RH, production, etc.) ou global comme l’Industrie, E-commerce, les grandes administrations, etc. Ce copieux ouvrage est une précieuse boite à outils qui devrait parfaitement répondre aux besoins de formation sur l’écosytème Hadoop. A la fin du livre, le lecteur sera capable d’identifier les portées fonctionnelles, stratégiques et managériales de ces technologies essentielles au traitement des gigantesques quantités de données générées par l’IoT, les ordinateurs et les smartphones sur tous les types de réseaux.

 

Maitrisez l'utilisation des techniques Hadoop Eyrolles Juvenal Chokogoue
Maitrisez l’utilisation des techniques Hadoop
Eyrolles
Juvenal Chokogoue

 

Pour aller plus loin voir le site Transition Numérique

Définition d’Hadoop par  Wikipedia:

Hadoop est un framework libre et open source écrit en Java destiné à faciliter
la création d'applications distribuées (au niveau du stockage des données et de
leur traitement) et échelonnables (scalables) permettant aux applications de
travailler avec des milliers de nœuds et des pétaoctets de données. 
Ainsi chaque nœud est constitué de machines standard regroupées en grappe

 

Soyez le premier à commenter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.


*