Toutes les grandes entreprises ont lancé des programmes de transformation pour devenir «Data Centric».
Aujourd’hui, le socle technique est là, des dispositifs de gouvernance sont déployés, des cas d’usages ont été identifiés, des POC ou POV ont été lancés, mais l’industrialisation et l’ancrage dans le temps restent à pérenniser.
Afin d’assurer le déploiement de ces projets Data, un des leviers est de s’inspirer ou d’appliquer les méthodes DataOps qui permettent de répondre à trois principaux challenges :
– Le challenge humain / organisationnel : l’entreprise se construit en créant, volontairement ou malgré elle, des silos de données. Il peut s’agir de silos structurels liés à l’historique et au legacy de l’entreprise, de silos liés à la différence de maturité entre filiales ou branches issues de différentes opérations financières, type rachats. Également des silos liés à des considérations de politique interne. Il n’est pas toujours facile pour des métiers de partager leurs données et cela contribue au ralentissement de l’industrialisation des projets data.
– Le challenge projet : déployer une organisation projet agile et multi-compétences est important. Les profils Métiers et de l’IT vont devoir collaborer et itérer ensemble au sein de groupes de collaborateurs choisis pour leur motivation et leur adhésion aux différents enjeux.
– Le challenge technologique : Les projets lancés peuvent nécessiter de nouvelles technologies pour les mener à bien. Des arbitrages peuvent être réalisés en amont pour éviter qu’un projet ne soit abandonné, faute d’investissement si la technologie nécessaire n’est pas existante.
Le DataOps est une méthodologie collaborative de gestion des données dont l’objectif est d’améliorer la communication, l’intégration et l’automatisation des flux de données entre les gestionnaires et consommateurs de données au sein d’une organisation. Source : Gartner
Le DataOps, inspiré du DevOps, en reprend les principes, mais implique les profils projets et Métiers. Il améliore les résultats opérationnels en supprimant les silos entre les différentes parties du projet (l’IT, les équipes analytiques, les Métiers), les processus et la technologie en vue d’obtenir une meilleure agilité des données. Ceci, afin d’industrialiser les processus analytiques, accélérer et optimiser les projets, tout en réduisant le temps consacré au data management.
AGILITÉ :
L’agilité favorise la communication et la collaboration entre les différentes équipes ainsi que l’accélération du déploiement des projets.
De nouvelles méthodes inspirées de l’Agilité permettent d’établir ou de renouer le dialogue entre des Directions qui travaillent le plus souvent en silos. Les équipes comprennent des collaborateurs des différentes directions, elles sont le plus souvent constituées de :
– Business Owner qui représentent les besoins métiers
– Data Product Owner qui conçoivent un produit/service au sein d’une équipe Agile
– Data Scientist ou Data Analyst qui ont pour rôle est de produire des reportings, des analyses, des études prédictives, …
– Data Engineer qui sont responsables du développement, de la construction, de la maintenance et du test des architectures.
Les différentes équipes peuvent aussi comprendre des UX developers, des Data Architects ou des représentants du Legal.
DEVOPS :
Pour les développements, on s’appuie sur la méthode DevOps afin d’aligner les différentes équipes (Métiers, Projet, IT) et d’automatiser les étapes du cycle de vie des uses cases, de sa conception jusqu’au run, selon 2 grands principes :
– Intégration continue : Construire, intégrer et tester de manière automatisée chaque itération avant le déploiement en production. Cette méthode permet d’identifier et de résoudre rapidement les potentiels problèmes grâce à une phase de tests intégrée aux flux déploiement.
– Déploiement continu : Livrer, automatiquement, chaque modification apportée directement aux utilisateurs finaux. Ainsi, le passage en production est accéléré et les développeurs se concentrent sur les développements.
DATA PIPELINE :
Le contrôle statistique des processus est le 3ème pilier de la méthode DataOps.
Ceci afin d’automatiser le pipeline, c’est-à-dire, créer une séquence de traitements de données, de l’extraction à la visualisation en intégrant progressivement les données qui s’ajoutent constamment.
Les modèles d’origine sont analysés puis affinés avant d’être mis en production sous forme de rapports ou de tableaux de bord.
Au fur et à mesure de l’intégration des nouvelles données, les données sont surveillées, vérifiées puis validées lorsqu’elles sont jugées prêtes pour la production. En cas d’anomalie, l’équipe concernée sera informée pour lancer dans les meilleurs délais un plan de remédiation.
Cela permet donc une surveillance constante, une plus grande conformité et une meilleure cohérence des données recueillies.
CONCLUSION :
Cette pratique émergente permet l’augmentation de la fréquence des déploiements, de réaliser des tests automatisés, un contrôle des métadonnées, une surveillance constante et une collaboration continue entre les différents acteurs, tout en améliorant la gestion de différents environnements et en orchestrant un nombre important de technologies.
Ainsi, les délais de mise en production des projets Data sont optimisés.