Les données sont le nouveau champ de bataille des entreprises. En effet, la situation est claire : leur avenir dépend de leur capacité à transformer rapidement et efficacement leurs données en informations qualifiées.
Du fait de ce défi, les directions informatiques subissent une pression immense : elles doivent non seulement gérer des volumes, sources et types de données de plus en plus nombreux, mais aussi prendre en charge un nombre croissants d’utilisateurs de données, ainsi que de nouveaux cas d’usages, toujours plus complexes.
Face à cette situation critique, les directions informatiques peuvent compter sur des innovations technologiques sans précédent. En effet, les nouvelles plateformes cloud, les bases de données comme Apache Hadoop, ou le traitement de données en temps-réel ne sont que quelques-uns des exemples de ces nouvelles capacités désormais à leur disposition. Cependant, les innovations se succèdent à un rythme tellement effréné et les modifications apportées sont si profondes que la plupart des entreprises ne parviennent pas à suivre le rythme, et encore moins à tirer parti de celles-ci pour bénéficier d’un avantage concurrentiel.
La nécessitée d’infrastructure plus évolutive
Face aux besoins, les infrastructures de données ne peuvent plus être statiques. L’environnement concurrentiel actuel nécessite des infrastructures adaptables et évolutives, capables de résoudre les défis d’aujourd’hui, mais surtout d’anticiper ceux de demain. Après tout, la vitesse avec laquelle les données sont traitées et analysées peut faire la différence entre la conquête et la perte d’un client. Cela est significativement plus important aujourd’hui qu’il y a 10 ou 15 ans. A cette époque, les entreprises faisaient le choix d’une base de données et s’en servaient pendant une, voire deux décennies. Désormais, elles sont mises au pied du mur et doivent mettre à jour leurs plateformes de données plus fréquemment.
Pour réussir dans une économie orientée données, les organisations ne peuvent plus se permettre d’être pieds et poings liés à des technologies héritées d’un ancien temps. Elles ont besoin de la flexibilité et de l’agilité nécessaires pour réagir instantanément aux dernières innovations du marché. Cependant, il ne suffit pas d’être tout simplement agnostique dans ses choix de technologies, il faut également pourvoir être en mesure de réutiliser les projets de données, en incluant leurs modèles de transformation et tâches quotidiennes, à chaque migration de plateformes et de technologies.
Comment les entreprises peuvent-elles répondre à cet impératif d’agilité ?
Débutons en abordant la question du cloud.
Une multitude de cloud et d’usages
Dans une entreprise pilotée par la donnée, le choix d’une solution IaaS (Infrastructure as a Service) doit se faire en tenant compte des besoins de chacun : des développeurs aux analystes en passant par les utilisateurs métiers sans compétences techniques particulières. Par exemple, les développeurs d’applications utilisant des outils tels que Microsoft Visual Studio et .NET préféreront généralement une intégration à Microsoft Azure. Les Data Scientists, quant à eux, auront un faible pour Google Cloud Platform et ses capacités avancées de machine learning, tandis que d’autres seront davantage séduits par l’étendue de l’offre d’AWS. Dans un monde décentralisé où il est possible de profiter de solutions dans le cloud en toute simplicité, il est fréquent que les différents départements prennent des décisions indépendamment des autres, en fonction de leurs propres besoins. Dans cet univers multi-cloud dont elles ont hérité, les équipes informatiques sont alors contraintes de gérer une multitude de problèmes (qui s’avèrent souvent plus graves que prévu).
Pour répondre aux besoins de ces diverses parties prenantes et afin d’adopter les toutes dernières technologies à disposition, une solution pour les entreprises est de planifier un environnement multi-cloud par nature, et de créer une architecture de données moderne capable de servir un large éventail d’utilisateurs. Cette approche permet en effet d’éviter d’être dépendant d’un prestataire, et surtout de passer à côté des innovations introduites par chaque fournisseur de services cloud.
Des approches basées sur l’intégration pour plus d’agilité
Auparavant considéré comme un simple outil tactique, la solution d’intégration est aujourd’hui un élément essentiel et stratégique des architectures de données modernes, contribuant à rationaliser et à maximiser l’utilisation des données dans l’ensemble de l’entreprise. Le logiciel d’intégration de données doit non seulement permettre de traiter des données en environnement multi-cloud, hybride ou en local, mais il se doit également d’adopter les toutes dernières innovations pour que les entreprises puissent s’adapter aux cas d’utilisation et aux utilisateurs concernés.
Le développement spécifique
Les logiciels d’intégration de données ont un rôle prépondérant à jouer. L’intégration à une architecture de données moderne ne peut tout simplement plus être prise en charge uniquement par du développement spécifique. Bien que du code développé manuellement puisse paraître indiqué pour des projets simples et très ciblés, qui nécessiteront peu de maintenance, cette option n’est pas viable dans cette nouvelle architecture.
Le développement spécifique est consommateur de temps et très coûteux (rareté des profils techniques, frais de maintenance élevés). En outre, les projets développés manuellement sont liés à la plateforme sur laquelle ils ont été développés, et souvent même à une version de particulière de celle-ci. La solution résultante est donc liée à un éditeur et à sa technologie au moment du développement. Compte tenu de l’innovation continue des technologies, cette stratégie est un choix désastreux.
Par ailleurs, le développement spécifique implique que les développeurs effectuent eux-mêmes tous les changements, ce qui limite la capacité de l’organisation à répondre à la grande variété de besoins des consommateurs de données. Enfin, ce type de codage est incapable de tirer parti des métadonnées pour faire face aux problématiques de sécurité, de conformité et de réutilisation.
Les outils ETL traditionnels
Les outils traditionnels d’extraction, de transformation et de chargement de données (ou ETL) représentent une amélioration par rapport au développement spécifique. Ils permettent d’être indépendant de la plateforme, d’avoir recours à des ressources moins spécialisées et de réduire les coûts de maintenance. Cependant, le principal inconvénient de ces outils est qu’ils nécessitent des moteurs d’exécution propriétaires limitant les utilisateurs aux performances et aux fonctionnalités initialement conçues.
La grande majorité du temps, ils sont incapables de traiter des flux de données en temps réel ou de tirer parti de la pleine puissance du traitement natif et de la couverture des plateformes de nouvelle génération, qui bénéficient d’investissements énormes de la part de l’ensemble de l’industrie afin d’améliorer leurs fonctionnalités. Il ne s’agit pas simplement d’avoir la flexibilité nécessaire pour se connecter à une variété de plateformes et de technologies : la clé est de tirer parti du meilleur de chacune d’entre elles. De même, les technologies d’exécution propriétaires nécessitent généralement que les logiciels soient déployés sur chaque nœud, ce qui augmente considérablement la complexité des déploiements et des opérations de gestion courante.
Du fait de cette exigence liée aux logiciels propriétaires, il est impossible de tirer parti des capacités de lancer/arrêter (spin up/spin down) du cloud, pourtant essentielles pour profiter de sa flexibilité, de son agilité et des économies potentielles qu’il permet de générer. Les outils ETL traditionnels ne peuvent tout simplement pas soutenir le rythme des activités ou de l’innovation, et constituent donc un frein pour la réussite des entreprises numériques.
Une infrastructure de données agile
À l’heure du numérique, il est crucial pour les entreprises d’adopter des logiciels d’intégration évolutifs conçus pour des environnements de données, des utilisateurs, des styles et des workflows modernes (des données en lot ou en vrac, aux flux de données IoT, en passant par des capacités de traitement en temps réel). En d’autres termes, il faut une infrastructure de données agile.
Les logiciels doivent pouvoir intégrer les données depuis le cloud, et tourner à la fois dans le cloud et en local. Ils doivent être optimisés pour fonctionner nativement sur toutes les plateformes, et proposer un ensemble unifié et cohérent de fonctionnalités (intégration de données et d’applications, gestion des métadonnées, gouvernance et qualité des données) en réponse aux besoins croissants d’agilité et d’adaptabilité. Il n’y a qu’ainsi que les organisations pourront adopter une approche neutre et être en mesure de tirer pleinement parti des capacités natives (cloud ou autre) des technologies de traitement de données de chaque plateforme. Tout le travail réalisé sur une technologie spécifique doit pouvoir être transféré en toute simplicité afin d’apporter des économies d’échelle et optimiser le retour sur investissement.
La gestion des données en libre-service est un autre ingrédient indispensable d’une infrastructure de données agile. Passer d’un modèle de gestion de données d’amont en aval, d’un contrôle centralisé à une approche entièrement distribuée, est la seule solution pour générer plus rapidement des informations qualifiées et fiables dans l’ensemble de l’organisation. Si les données sont à la base de toutes les prises de décisions, dès lors les équipes informatiques, analystes et départements métiers doivent tous s’impliquer de façon coordonnée dans l’intégration, la préparation, l’analyse et l’administration des données. Bien entendu, en l’absence des contrôles adéquats, ce libre-service peut être à l’origine d’un véritable chaos. Ces fonctionnalités doivent donc s’accompagner de fonctions de gouvernance pour les décideurs, afin d’éviter de compromettre les données et leur conformité.
Conclusion
En conclusion, pour les directions informatiques, les progrès rapides des plateformes et technologies, et le volume inédit de sources à connecter et d’utilisateurs à prendre en charge, constituent un défi de taille. Afin d’y faire face à ces nouvelles exigences, les entreprises doivent créer une infrastructure de données suffisamment agile pour s’adapter aux évolutions du marché et à leurs besoins.
Source : Le journal du net