01 56 59 33 00
united-kingdom

Parcours « Consultant Big Data »

  • 37 Jours 259 Heures
  • 7 h par jour
  • REF: METIER-BIGDATA
  • Tarif sur demande
Objectifs

Ce parcours de formation permettra aux candidats d’apprendre les fondamentaux du métier de consultant BIG DATA.

Il permettra également de :

  • Maîtriser les fondamentaux du BIG DATA et de la BI
  • Connaitre la solution Hadoop et les technologies associées
  • Requêter, Analyser, Administrer, Optimiser les systèmes et clusters mis en place
  • Utiliser la suite ELK
  • Alimenter et restituer les données (Concepts BI)
  • Maîtriser l’écosystème Spark en utilisant Scala comme langage de programmation
  • Appliquer en mode projet
Prérequis
  • Connaissances en informatique
Profils
  • Consultants, Ingénieurs, Développeurs, Administrateurs…
  • BAC + 5 scientifique
Module COMPRENDRE LE ROLE DE CONSULTANT ESN  1 jour
  • Les principes de la relation client.
  • Le cadre de la relation contractuelle, ses atouts et ses limites.
  • Les rôles de consultant et de salarié.
  • Les qualités nécessaires au rôle de consultant.

Jeu de rôle:  Auto-évaluation sur la gestion de la relation client. Jeux de prise de conscience des principes de base de la communication. Jeux, entrainement filmés et débriefés. Jeux de rôles sur l’assise du charisme et de la légitimité d’une autorité non hiérarchique. Jeux de rôles filmés.

Module INTRODUCTION A LA GESTION D’UN PROJET INFORMATIQUE 2 jours
  • La gestion de projet informatique.
  • La planification et le suivi de projets informatiques.
  • Assurer la qualité des projets informatiques.
  • L’amélioration continue de la qualité.

Travaux pratiques: Découpage d’un projet par composant et définition du cycle de vie. Établir une planification et un diagramme de Gantt dans MS-Project. Créer, définir et affecter des ressources aux tâches dans MS-Project.

Module METHODE AGILES SCRUM 2 jours

AGILE SCRUM :

  • Développement logiciel agile
    • Les fondamentaux du développement logiciel agile
    •  Les développements agiles et le manifeste agile
    • Approche d’équipe intégrée
    • Un feedback au plus tôt et fréquent
    • Aspects des approches agiles
    • Approches de développement agile
    • Pourquoi automatiser les tests sur mobiles ?
    • Création collaborative de user story
    • Rétrospective
    • Intégration continue
    • Planification des releases
  • Principe, pratiques et processus fondamental agile
    • Les différences des tests entre les approches classiques et agiles
    • Activités des tests et développement
    • Produits d’activité des projets
    • Niveau de test
    • Test et gestion de configuration
    • Option d’organisation avec des tests indépendants
    • Statuts de test dans les projets
    • Compétences
    • Gérer les risques de régression en faisant évoluer les cas de test manuels et automatisés
    • Rôles et compétence d’un testeur dans une équipe agile : Compétence d’un testeur agile
  • Méthodes agiles
    • Présentation des familles de conduite de projet
    • Méthodes prédictives
    • Méthodes adaptatives
  • La méthode SCRUM
    • Présentation de Scrum
      • Scrum comme conduite de l’équipe projet
      • Gestion de projet généraliste
      • Spécification dynamique
      • Adaptation aux projets logiciels
  •  Rôles dans un projet Scrum
    • Les acteurs intervenant dans et autour d’un projet SCRUM
    • Répartition des responsabilités
    • Client
    • Equipe
    • Scrum master
  • Itérations
    • Présentation des phases de SCRUM
    • Objectifs
    • Version
    • Sprint
    • Scrum
  • Suivi du projet SCRUM
    • Les objectifs fonctionnels dans SCRUM et le suivi des livrables
    • Backlog de produit
    • Backlog de sprint
  • SCRUM avec Sprint
    • Détail sur le cycle principal de SCRUM
    • But
    • Itérations de 4 semaines
    • Livraison

CYCLE EN V :

  • Cycle des projets
    • Présentation des fondamentaux de la conduite de projet
    • Expression des besoins
    • Analyse
    • Conception
    • Réalisation
    • Vérification et validation
  •  Utilisation du cycle en V
    • Définition du cycle en V
      • Analyse des besoins
      • Spécifications
      • Conception architecturale
      • Conception détaillée
      • Réalisation
      • Tests unitaires
      • Tests d’intégration
      • Test de validation
      • Recette fonctionnelle
  • Avantages du cycle en V
  • Inconvénients du cycle en V
  • Alternatives au cycle en V
Module PYTHON 5 jours

Syntaxe du langage Python

  • Les Identifiants et les références.
  • Les Conventions de codage et les règles de nommage
  • Les blocs, les commentaires
  • Les types de données disponibles
  • Les variables, l’affichage formaté, la portée locale et globale
  • La manipulation des types numériques, la manipulation de chaînes de caractères
  • La manipulation des tableaux dynamiques (liste), des tableaux statiques (tuple) et des dictionnaires
  • L’utilisation des fichiers
  • La structure conditionnelle if / elif / else
  • Les opérateurs logiques et les opérateurs de comparaison
  • Les boucles d’itérations while et for. Interruption d’itérations break / continue
  • La fonction range
  • L’écriture et la documentation de fonctions
  • Les Lambda expression
  • Les générateurs
  • La structuration du code en modules
  • Les packages
  • Map, reduce et filter

Approche orientée objet

  • Les principes du paradigme Objet
  • La définition d’un objet (état, comportement, identité)
  • La notion de classe, d’attributs et de méthodes
  • L’encapsulation des données
  • La communication entre les objets
  • L’héritage, transmission des caractéristiques d’une classe
  • La notion de polymorphisme
  • Association entre classes
  • Les interfaces
  • Notion de modèle de conception (design pattern)

Utilisation StdLib

  • Les arguments passés sur la ligne de commande
  • L’utilisation du moteur d’expressions régulières Python avec le module « re », les caractères spéciaux, les cardinalités
  • La manipulation du système de fichiers
  • Présentation de quelques modules importants de la bibliothèque standard : module « sys », « os », « os.path
  • Empaquetage et installation d’une bibliothèque Python
  • Les accès aux bases de données relationnelles, le fonctionnement de la DB API
  • Utilisation de contenus XML
Module PYTHON SCIENTIFIQUE 4 jours

Présentation de l’écosystème « python scientifique »

  • Les outils scientifiques de calcul
  • Les librairies

– Numpy

– SciPy

– Matplotlib

– Pylab (les 3 précédentes en 1)

– Pandas

– Scikit-Learn …

Environnement de travail

  1. Les distributions Python (Enthought, Anaconda, WinPython, …)
  2. Les IDE de développement (Spyder, Eclipse, PyCharm, …)

Calcul numérique avec Python

Représentation des nombres avec Python

  • Les nombres avec Python
  • Les nombres avec NumPy
  • Les problèmes d’arrondi

NumPy – Le socle de calcul numérique

  • Les différents types de données avec Numpy
  • Opérations matricielles
  • Les fonctions incontournables
  • Entrées/Sorties et formats de fichiers : natif Numpy, NetCDF, HDF5, Matlab

Panda

  • Séries et Matrices de données hétérogènes(DataFrame)
  • Entrées/Sorties
  • Sélection et indexation des données
  • Manipulations de données (groupement, ajout, suppression, redimensionnement, pivots, …)
  • Concepts des tracés
  • Premiers graphiques : courbes, titres et légendes
  • Axes, échelles de représentations
  • Couleurs et styles

SciPy

  • L’interpolation de données météorologiques
  • Le traitement d’images

DATAVIZ

Quelques librairies : Seaborn, Altaïr

  • Visualisation de données cartographiques
  • Applications opensources pour la visualisation de larges jeux de données

Les essentiels de la programmation parallèle

  • La parallélisation

– Principes de base de la parallélisation

– Python et la parallélisation

  • Multi-threading

– Qu’est ce qu’un thread ?

– Accès concurrentiel aux données

– Les verrous

– Les sémaphores

– Deadlock

– File d’attente

– Limites du Multi-threading en Python

  • Multi-processing

– Qu’est ce qu’un process ?

– Mémoire partagée

– Verrous et sémaphores

– File d’attente

– Communication

– Barrière

– Pool

Module LES FONDAMENTAUX DU BIG DATA 2 jours

Introduction

  • Introduction au Big Data : de quoi s’agit-il ?
  • Exemples pratiques
  • Les technologies concernées
  • Les outils
  • Les langages :
  • Hortonworks
  • MapR
  • Cloudera
  • IBM Watson
  • Démystification du Big Data
  • Les acteurs principaux
  • Les différents métiers du Big Data

Enjeux et évolutions du Big Data

  • La qualité des données
  • Le traitement des données
  • La protection des données
  • L’image de la donnée
  • L’humanité des données

Enjeux stratégiques et organisationnels

  • Le challenge technique
  • Investissement dans la capacité de stockage
  • Investissement dans l’analyse
  • Le Web sémantique
  • Les nouvelles techniques de Data mining
  • L’enjeux économique
  • L’impact organisationnel
  • La conduite du changement
  • L’apparition de nouveaux métiers
  • Etude de cas

Les technologies utilisées dans des projets Big Data

  • Les outils de stockage
  • L’écosystème Hadoop (Apache, Hortonworks, Cloudera, MapR, IBM, Oracle)
  • Les solutions de visualisation (Microstrategy, Tableau, QlikView)

Sécurité, éthique et enjeux juridiques

  • Assurer la protection des données
  • L’anonymisation d’une donnée
  • Le contrôle d’intégrité
  • Le chiffrement d’une donnée
  • Qu’est-ce que la blockchain
  • Cas d’usage : Bitcoin
Module HADOOP 1 jour

Origine d’Hadoop

  • Qu’est-ce que le NoSQL ?
  • Définition du Big Data
  • Histoire d’Hadoop

Installation d’un environnement Hadoop de base

  • Écosystème complexe
  • Distributions Hadoop
  • Introduction à CDH : Cloudera Hadoop
  • Démarrage d’une QuickStart VM

Stockage de fichiers: HDFS

  • Présentation de l’HDFS
  • Manipulation de fichiers en ligne de commande

Paradigme MapReduce

  • Principe général
  • Fonction Map
  • Fonction Reduce

Développement d’un premier MapReduce

  • Mapper
  • Reducer
  • Lancement de votre premier MapReduce
  • Combineur

Ecosystème Hadoop

  • Hbase
  • Pig
  • Zookeeper
  • Sqoop
  • Oozie
  • Flume
  • Kafka
  • Spark
Module ENTREPOT DE DONNEES, ANALYSE ET REQUETAGE SUR HIVE 1 jour

Le data warehouse finalité et principes

  • Les enjeux stratégiques d’un SI décisionnel.
  • Les solutions apportées par l’architecture technique et fonctionnelle du Data Warehouse.
  • Caractéristiques des données du SI décisionnel.

Les principes de la modélisation Data Warehouse

  • Les modèles relationnels opérationnels et dénormalisés.
  • Les modèles hybrides.
  • Les modèles génériques.
  • Comprendre le modèle en étoile, sa finalité.
  • Comprendre les notions de faits et d’analyse. Les hiérarchies d’axe d’analyse.
  • Le modèle en flocon.
  • La problématique des dimensions à évolution.
  • Gestion des agrégats et de la stabilité du périmètre fonctionnel.
  • Quelle approche favorise les informations de détail ou les agrégats ? Bonnes pratiques, questions à poser au métier.

Introduction à HIVE

  • Qu’est-ce qu’Hive ?
  • Schema Hive et stockage de données,
  • Comparer Hive aux bases de données traditionnelles,
  • Hive vs. Pig,
  • Cas d’utilisation d’Hive
  • Interagir avec Hive.

Analyse de données et requêtage avec HIVE

  • Bases de données et tableaux Hive,
  • Syntaxe HiveQL basique,
  • Types de données,
  • Assembler des ensembles de données,
  • Fonctions communes de Built-in,
  • Exercice « hands-on » : « Running Hive Queries on the Shell, Scripts and Hue ».
Module ORDONNANCEMENT ET TRAITEMENT BIG DATA AVEC OOZIE 1 jour

OOZIE

  • Les enjeux
  • Qu’est ce que l’ordonnancement ?
  • Les fonctions clés d’une solution d’ordonnancement

Travaux pratiques

  • L’orchestrateur Apache OOZIE
  • Les workflows OOZIE
  • Les coordinateurs OOZIE (Coordinators)
  • Limitations de OOZIE
  • Création et utilisation d’ un workflow OOZIE
Module LES BASES DE L’ADMINISTRATION D’UN CLUSTER CLOUDERA 3 jours
  • CLOUDERA ENTERPRISE DATA HUB
    • Cloudera Enterprise Data Hub
    • Introduction au CDH
    • Introduction à Cloudera Manager
    • Les responsabilités d’un administrateur Hadoop
  • INSTALLATION DE CLOUDERA MANAGER ET DU CDH
    • Introduction à l’installation du cluster
    • Installation de Cloudera Manager Installation
    • Installation du CDH
    • Les services du cluster CDH
  • CONFIGURER UN CLUSTER CLOUDERA
    • Introduction
    • Paramètres de configuration
    • Modifier la configuration des services
    • Fichiers de configuration
    • Gérer les instances de rôle
    • Ajouter des nouveaux services
    • Ajouter et supprimer des hôtes
  • HADOOP DISTRIBUTED FILE SYSTEM
    • Introduction
    • Topologie et rôles HDFS
    • Modifier les logs et le checkpointing
    • La performance HDFS et la tolérance à la panne
    • Introduction à la sécurité de HDFS et de Hadoop
    • Interfaces utilisateurs web pour HDFS
    • Utiliser la ligne de commande HDFS
    • Autres outils de ligne de commande
  • INGESTION DE DONNÉES SUR HDFS
    • Introduction à l’ingestion de données
    • Formats de fichiers
    • Ingérer de la donnée en utilisant File Transfer ou les interfaces REST
    • Ingérer de la donnée d’une base de donnée relationnel avec Sqoop
    • Ingérer de la donnée d’une source externe avec Flume
    • Les bonnes pratiques d’ingestion de donnée
  • HIVE ET IMPALA
    • Apache Hive
    • Apache Impala
  • YARN ET MAPREDUCE
    • Introduction à YARN
    • Exécuter des applications sur YARN
    • Explorer les applications YARN
    • Les logs d’application YARN
    • Les applications Map Reduce
    • Réglage mémoire et CPU pour YARN
  • APACHE SPARK
    • Introduction à Spark
    • Les applications Spark
    • Comment les applications Spark s’exécutent sur YARN
    • Monitorer les applications Spark
  • DIMENSIONNEMENT DE VOTRE CLUSTER HADOOP
    • Considérations générales relatives au dimensionnement
    • Choix du matériel
    • Considérations sur le réseau
    • Options de virtualisation
    • Options de déploiement cloud
    • Configuration des noeuds
  • CONFIGURATION AVANCÉ DU CLUSTER
    • Configurer les ports de service
    • Paramétrer HDFS et MapReduce
    • Activer la Haute Disponibilité HDFS
  • GESTION DES RESSOURCES
    • Configuration de cgroups avec des centres de services statiques
    • Le Fair Scheduler
    • Configurer la gestion dynamique des ressources
    • Planification des requêtes Impala
  • MAINTENANCE DU CLUSTER
    • Vérification du statut HDFS
    • Copier les données entre clusters
    • Rééquilibrage du cluster
    • Snapshots de répertoires
    • Mise à niveau du cluster
  • MONITORING DU CLUSTER
    • Fonctionnalités de monitoring de Cloudera Manager
    • Tests de santé
    • Événements et alertes
    • Graphiques et rapports
    • Recommandation de monitoring
  • DIAGNOSTIC DU CLUSTER
    • Introduction
    • Outils de diagnostic
    • Exemples de mauvaises configurations
  • INSTALLER ET GÉRER HUE
    • Introduction
    • Gérer et configurer Hue
    • Authentification et autorisation Hue
  • SÉCURITÉ
    • Les concepts de sécurité sur Hadoop
    • Authentification sur Hadoop en utilisant Kerberos
    • Authorisation sur Hadoop
    • Chiffrement sur Hadoop
    • Sécuriser un cluster Hadoop
Module DATA PIPELINE AVEC KAFKA 2 jours

Présentation

  • Retour sur l’historique du projet
  • L’intérêt de Kafka dans le Big Data
  • L’architecture fonctionnelle de Kafka
  • Les composants du système : brokers, topics, conumer, producers
  • Principes de fonctionnement
  • Installer Kafka
  • Configurer les composants
  • Installer l’écosystème de développement de Kafka
  • Installer le matériel nécessaire
  • Effectuer des manipulations de base

Installation

  • Etudier la conception des APIs et leur implémentation
  • Comprendre les cas d’usages et les solutions
  • Gérer la couche réseau et le format des messages
  • Gérer, administrer et compacter les Logs
  • Gérer le schéma de distribution des données
  • Effectuer les actions de base sur les topics
  • Gérer les Datacenters
  • Monitorer le système et gérer les alertes
  • Mise en œuvre de Zookeeper

Configuration et utilisation des APIs

  • Comprendre les enjeux et les principes de sécurité d’un système

Kafka

  • Utiliser le protocole SSL/TLS pour le cryptage et l’authentification
  • Utiliser la couche SASL pour l’authentification
  • Utiliser des listes de contrôle ACL pour les autorisations
  • Authentifier avec Zookeeper

Mise en place de la sécurité du système

  • Data stream scalable avec Kafka Connect
  • Utiliser Kafka Connect pour l’intégration de données
  • Developper des connecteurs personnalisés
Module LA SUITE ELASTIC LOGSTASH KIBANA 3 jours

Présentation

  • Présentation et histoire d’Elasticsearch, logstash et Kibana.
  • Les prérequis d’installation. Installation type « as a Cloud ».
  • La mise en œuvre d’Elasticsearch, logstash et Kibana.
  • La configuration d’Elasticsearch.
  • Les principes clés l’administration d’Elasticsearch.
  • Le développement d’applications en utilisant Elasticsearch.
  • L’impact d’Elasticsearch sur l’architecture et les applications existantes.
  • Rôles de Logstash et de Kibana.

Aller plus loin avec Kafka

  • Présentation d’Apache Lucene.
  • L’architecture et les concepts clés.
  • Le format d’échange JSON par Service Container.
  • L’API REST.
  • Le scoring et la pertinence de requêtes.
  • Le stockage de données et la recherche simple.

Possibilité offertes

  • L’indexation des documents et des données.
  • La recherche sur les documents et les données.

Caractéristiques noSQL

  • Le calcul des listes de réponses.
  • Le filtrage et le tri des résultats.
  • Les suggestions de requêtes.
  • Le surlignage des résultats.

Fonctionnement d’elasticsearch

  • Comment donner un sens aux données avec Elasticsearch et Kibana?
  • Démarche d’amélioration de l’indexation des données.
  • Démarche d’amélioration des requêtes de recherche.
  • La pertinence géographique des recherches.
  • La percolation.
Module NoSQL 1 jour

Présentation

  • Origine des bases de données, les notions de transaction, les SGBD, la standardisation SQL,
  • L’arrivée de nouveaux besoins : volumes importants liés aux technologies et aux nouveaux usages, traitements optimisés de flux de données au fil de l’eau
  • Développement des techniques sur différents aspects : stockage, indexation/recherche, calcul
  • Définition ETL : Extract Transform Load
  • Structure de données proches des utilisateurs, développeurs : sérialisation, tables de hachage,

JSON

  • Priorité au traitement du côté client
  • Protocoles d’accès aux données, interfaces depuis les langages classiques
  • Données structurées et non structurées, documents, images
  • Stockage réparti : réplication, sharping, gossip protocl, hachage,…
  • Parallélisation des traitements : implémentation de MapReduce
  • Cohérence des données et gestion des accès concurrents : »eventual consistancy » et multi-version concurrency control

Possibilités offertes

  • Les solutions NoSQL et leurs choix techniques : CouchDB, MongoDB, Cassandra, HBase (Hadoop),
  • ElasticSearch, …
  • Démonstrations avec Cassandra et couchDB
  • Critères de choix

Mise en oeuvre

  • Points à vérifier : méthode d’utilisation des données
  • Format de stockage JSON, XML,
  • Choix de la clé, notion de clé composite, …
  • Aspects matériels, besoins en mémoire, disques, répartition, …
  • Import des données : outils et méthodes selon les moteurs NoSQL
Module HBASE 1 jour

Architecture

  • HBase Master Node
  • Region Master
  • Liens avec les clients HBase
  • Rôle de ZooKeeper
  • Choix des packages
  • Installation et configuration dans le fichier conf/hbase-site.xml
  • Démarrage en mode Standalone start-hbase
  • Test de connexion avec HBase Shell
  • Installation en mode distribué
  • Interrogations depuis le serveur HTTP intégré

Installation

  • Présentation des différentes interfaces disponibles
  • Travaux pratiques avec HBase Shell
  • Commandes de base
  • Syntaxe
  • Variables
  • Manipulation des données : create, list, put, scan, get
  • Désactiver une table ou l’effacer

– Disable (enable)

– Drop…

  • Programmation de scripts
  • Gestion des tables : principe des filtres
  • Mise en oeuvre de filtres de recherche
  • Paramètres des tables
  • Présentation des espaces de nommage

Hbase Utilisation Shell

  • Fonctionnement en mode distribué
  • Fonctionnement indépendant des démons

– HMaster

– HRegionServer

– ZooKeeper

  • Mise en oeuvre avec HDFS dans un environnement distribué
  • Tables réparties : mise en oeuvre des splits

Programmation

  • Introduction
  • Les APIs

– REST

– Avro

– Thrift

– Java

– Ruby…

  • Utilisation d’un client Java
  • Gestion des tables
  • Lien avec MapReduce
  • Principes des accès JMX
  • Exemple d’un client JMX
Module CONCEPTS BI 1 jour

Introduction

  • Objectifs et définitions
  • Architecture générale
  • Architecture technique
  • Le stockage des données
  • La conception du Datawarehouse
  • L’analyse du besoin : Exercice
  • Les limites du SI opérationnel

La modélisation des données

  • La base de données
  • Optimisation du modèle
  • L’administration des données
  • Exercices

L’alimentation du Datawarehouse

  • Les ETL
  • Architecture de divers ETL
  • Présentation d’un ETL
  • Exercices

Les outils de restitution

  • Présentation de différents outils
  • Exercices
  • La gestion de projet
  • Le décisionnel et la législation
  • Les perspectives d’évolutions

Conclusion

  • Connaître les logiciels et outils du décisionnel
  • Avoir une vue d’ensemble de ces outils
  • Connaître leurs historiques et leurs places sur le marché du décisionnel
Module TALENT STUDIO 2 jours

Introduction

  • Problématique
  • EAI / ERP
  • Installation

Découverte de l’environnement

  • Premier pas avec TOS
  • Vue d’ensemble des composants

Les premiers flux

  • Le Business Model
  • Le job
  • Les bonnes pratiques
  • tRowGenerator
  • tFileInputExcel et tFileOutputExcel
  • tMsgBox
  • tSendMail
  • Type de liaisons entre composants
  • Exécuter un job

Traiter les données

  • tFilterRow
  • tUniqRow
  • tAgregateRow
  • tSortRow
  • tMap

Les métadonnées

  • Vue d’ensemble
  • Créer une métadonnée Excel
  • Utiliser une métadonnée Excel
  • Créer une métadonnée Access
  • Récupérer les tables d’une BDD

Travailler avec la base de données

  • AccessInput
  • tAccessOutput

Autres composants et fonctionnalités

  • Variables globales
  • tBuffer
  • tSystem
  • tServerAlive
  • tUnite
  • tReplicate

Les itérations

  • tFileList
  • tInfiniteLoop
  • tLoop
  • tPOP
  • tFlowToIterate

Gestion des log et des erreurs

  • tLogRow
  • tDie et tLogCatcher
  • tWarn
  • tStatCatcher
  • tFlowMeter et tFlowMeterCatcher

Fonctionnalités avancées

  • Variables de contexte
  • Créer une variable de contexte
  • Utiliser une variable de contexte
  • Modifier une variable de contexte
  • Cascade de jobs
  • Les routines

Automatisation et documentation

  • Documenter ses jobs
  • Générer des scripts
Module INGESTION DE DONNEES AVEC KAFKA et NiFi 2 jours

Rappel de Kafka

  • Kafka : une plateforme de données de flux
  • Aperçu de Kafka et de son efficacité
  • Producers, Brokers, Consumers

Présentation de NiFi

  • Différence entre données froides et données chaudes
  • Présentation des outils et technologies Big Data
  • Hadoop (HDFS et MapReduce) et Spark
  • Installation et configuration de NiFi
  • Vue d’ensemble de l’architecture NiFi
  • Approches de développement
  • Outils de développement d’applications et état d’esprit
  • Extraction, transformation et chargement (ETL) des outils et de la mentalité

Mise en oeuvre de NiFi

  • Considérations sur la conception
  • Composants, événements et modèles de processeur
  • La gestion des erreurs
  • Services de contrôleur
  • Tests et dépannage
  • Contribuer à Apache NiFi
Module CONCEPTS DATAVIZ ET POWER BI 2 jours

DATAVITZ

Découvrir les tendances actuelles de la visualisation de données

  • Comprendre la l’origine et la structure

Ce parcours de formation permettra aux candidats d’apprendre les fondamentaux du métier de consultant BIG DATA.

Il permettra également de :

  • Maîtriser les fondamentaux du BIG DATA et de la BI
  • Connaitre la solution Hadoop et les technologies associées
  • Requêter, Analyser, Administrer, Optimiser les systèmes et clusters mis en place
  • Utiliser la suite ELK
  • Alimenter et restituer les données (Concepts BI)
  • Maîtriser l’écosystème Spark en utilisant Scala comme langage de programmation
  • Appliquer en mode projet
  • Consultants, Ingénieurs, Développeurs, Administrateurs…
  • BAC + 5 scientifique
  • Connaissances en informatique
  • Formateur/consultant ayant une expérience significative en entreprise sur le métier concerné et plus de 10 ans d’expérience
  • Support de cours remis à chaque participant, 1 stylo et un bloc-notes par stagiaire, 1 ordinateur à disposition
  • Vidéoprojecteur et tableau blanc et/ou paperboard
  • Feuille d’émargement à la demi-journée, questionnaire de satisfaction stagiaire, évaluations des acquis tout au long de la formation, attestation de stage
  • Attestation de formation

Modalités d’évaluation

 En amont de la formation :

– Audit par téléphone par nos commerciaux et formateurs

– Tests d’auto-positionnement avant l’entrée en formation par le biais de questionnaire

Au cours de la formation :

Exercices pratiques et mises en situation professionnelle pour valider la compréhension de chaque notion abordée dans le programme de cours.

En fin de formation :

– Validation des acquis par le formateur ou via un questionnaire renseigné par les stagiaires

– Evaluation qualitative par les participants à l’issue de la formation via un questionnaire de satisfaction accessible en ligne.

Une attestation de fin de formation reprenant les objectifs de formation est également remise aux stagiaires puis signée par le formateur.

Modalités d’inscription :

Inscription possible jusqu’à la veille de la formation, sous réserve de places disponibles, en nous contactant au 01 56 59 33 00 ou par mail formation@sii.fr

Modalités particulières :

Nos formations sont accessibles aux personnes en situation de handicap. Renseignez-vous auprès de notre référente handicap au 01 56 59 33 00 ou par mail pedagogie@sii.fr

Possibilité de faire du distanciel

 

 

Que cherchez-vous ?