×

Cette dernière décennie, toutes les problématiques relatives à l’analyse de données et à leur exploitation – par  le Machine Learning – ont pris une place très importante dans le monde professionnel. De nombreuses entreprises (PME/TPE) ont donc vu le jour, ou se sont adaptées afin de répondre à ce nouveau besoin grandissant. Toutefois, on ignore parfois de mentionner une autre conséquence importante de cette tendance : l’apparition ou la spécialisation de nombreux profils qui permettent quotidiennement le succès de ces projets data comme les métiers de Data Scientist, Data Engineer, Data Analyst, Chief Data Officer…


le travail du Data Engineer vient avant celui du Data Scientist et sert à sa mise en production. L’ingénieur se concentre sur la mise en place du pipeline de données et s’applique à ce que les autres puissent faire leur travail correctement en assurant sa maintenance. D’une manière générale, le data engineer est donc bien plus concerné par l’infrastructure et l’architecture qui permettent de générer les données et les “ranger” afin qu’elles soient exploitables.


Le Data Scientist, lui, utilise ensuite ces données pour y appliquer des algorithmes et détecter des tendances. C’est pourquoi le poste du Data Engineer est primordial, au même titre que celui du Data Scientist ou du Data Miner, et c’est cette interdépendance qui fait leur complémentarité. Le gap entre leurs missions a d’ailleurs donné des idées à certains puisque le rôle du machine learning engineer est aussi de plus en plus populaire, et son métier est justement à la croisée de celui des data engineers et des data scientists.


Établir les structures adéquates pour mettre en œuvre votre stratégie data


On ne commence pas la construction d’une maison par le toit. Il en va de même lorsqu’on fait de l’analyse de données : avant de commencer les calculs, il faut pouvoir accéder aux données.

Dans un projet data, on considère souvent que la valeur réside dans l’algorithme permettant de transformer automatiquement et rapidement des données massives en une information non triviale : recommandation de produits, traduction des textes, reconnaissance faciale…etc, de fait, le data scientist – chargé du développement de cet algorithme – semble être l’acteur essentiel du projet.

C’est corrélativement faux, pour une raison très simple : la valeur ajoutée demeure, en majeure partie, dans les données elles-mêmes. En effet, les algorithmes de machine learning sont souvent open source, les données, en revanche, sont précieusement gardées ; il y a une raison à cela. Par conséquent, en caricaturant, si vous avez des données précises, pertinentes et bien documentées, la valeur ajoutée du data scientist sera  logiquement  mineur. Bref, le data scientist ne pourra jamais faire mieux que ce que les données lui permettent de faire.

C’est la raison pour laquelle le data engineer est essentiel : c’est lui qui crée, entretient et améliore les systèmes d’information permettant aux autres membres de l’équipe data de faire leur travail. Sans lui, vos data scientist passeront probablement plus de temps à administrer les données qu’à les analyser.

Quelles sont ses compétences ?


Le Data Engineer est très centré sur l’infrastructure de gestion des données de l’entreprise, ainsi les compétences requises sont, de manière prévisible, centrées sur l’architecture des données :

  •     -Connaissance approfondie de SQL et autres langages de base de données : le Data Engineer  maîtrise les outils de gestion des bases de données (BDD) et une bonne connaissance en SGBDR (SQL, DB2…). Une maîtrise d’autres technologies de requêtage telles que Cassandra ou Bigtable, sont intéressantes en fonction des technologies utilisées par l’entreprise, d’autant plus que les grandes entreprises ne se contentent souvent pas d’une seule technologie de requêtage ;
  •     -Stockage de données et outils ETL : la maîtrise des outils de stockage de données (Hadoop) et des ETL (Talend, Nifi…) du marché est essentielle ;
  •     -Analyses basées sur Hadoop (Hbase, Hive, etc.) :  l’analyse de donnée basée sur Apache Hadoop est une compétence de plus en plus courante dans le Data Engineer,
  •     -Maîtrise du Code : la connaissance d’une ou plusieurs langues de programmation est un vrai plus et devient même un prérequis. On exigera une familiarité, sinon une expertise dans un des langages suivants : Python, C / C ++, Java, Scala, Perl, ou dans d’autres langues similaires ;
  •     -Machine Learning, Deep Learning et Intelligence Artificielle : l’analyse statistique et de la modélisation des données, le domaine de l’apprentissage automatique.
  •     -Divers systèmes d’exploitation : UNIX, Linux et Solaris.


Parmi les responsabilités des data engineers, on retrouve les points suivants :

  •     -conception et gestion de bases de données et/ou de data lake ;
  •     -collecte de différentes sources et rapprochement ;
  •     -mise en place de « pipeline » permettant d’automatiser les différentes étapes d’acquisition des données, de l’extraction jusqu’au stockage ;
  •     -création d’outils permettant d’accéder aux données ;
  •     -gestion de la scalabilité de l’infrastructure (horizontale et verticale) de manière transparente pour les autres acteurs.



    Professionnelle

    249$/Mois
    • Pages illimitées ( sur mesure)
    • Tableau d'administration
    • Prospects illimités
    • Trafic illimité
    • Intégrations des API
    • Intégrations des passerelles de paiement
    • Hébergement gratuit
    • Nom de domaine Gratuit
    • Sous domaines illimitées
    • Adresses email pro illimitées
    • Certificat SSL (https)
    • Indexation dans Google
    • UI/UX design
    • charte graphique
    • Maquettage et prototypage
    • Outils de collaboration
    • Infogérance et astreinte
    • Assistance technique 7j/7