Réunir toutes ses données au sein d’un même référentiel, c’est le principe du data lake ou lac de données. Les grands groupes ont entrepris quelques années plus tôt de créer de tels data lakes, principalement en mode on-premise.
Une transition est cependant en cours chez la majorité de ces acteurs. Un basculement sur le cloud s’est amorcé, comme cela s’est déjà opéré pour de nombreux pans de l’infrastructure IT. « Ils veulent tous le faire et se donnent deux ans maximum pour le finaliser. On peut estimer que dans deux ans, 80% des data lakes seront dans le cloud » avance le consultant du cabinet Kynapse, Christophe Tricot.
Le chantier est lui déjà finalisé au sein d’Accor. A l’image du reste du marché, le groupe hôtelier s’est d’abord équipé d’un data lake on-premise, hébergé par Thales. En 2016, une première migration de la solution Hadoop Cloudera est réalisée. L’hébergement est confié à OBS. La distribution Cloudera est à cette occasion couplée à une baie de stockage Isilon.
publicité
« Scalabilité, partage des données, temps réel, API, machine learning… Nous étions un peu limités »
Comme l’explique Olivier Tissot, responsable de projets [Big] Data chez AccorHotels, le DataLake Accor présentait dans cette configuration des limitations, notamment sur les services et la capacité de montée en charge.
« Scalabilité, partage des données, temps réel, API, machine learning… Nous étions un peu limités. Or c’est justement sur ces aspects que nous souhaitions aller plus loin » commente l’expert. Dans le cadre de sa stratégie data, Accor a donc souhaité faire évoluer son data lake.
L’entreprise a notamment évalué les offres des grands fournisseurs cloud que sont Azure, AWS et Google Cloud. Les équipes en charge de la data avaient déjà à leur actif différents prototypes sur AWS. De quoi faire a priori pencher la balance en faveur d’Amazon.
Multitude de fichiers Excel
L’hôtelier a quoi qu’il en soit mené une évaluation approfondie des différents prestataires du marché, sur les fonctionnalités, mais bien sûr aussi sur les coûts. Et parvenir à un chiffrage global (mise en place, migration de l’existant et dépenses de fonctionnement) n’est pas chose facile.
Pour parvenir à une première estimation, Accor a notamment eu recours aux simulateurs mis à disposition par les fournisseurs cloud – et à une multitude de fichiers Excel. Ce premier chiffrage devait prendre en compte de nombreux facteurs : instances de calcul (réservées ou non), espaces de stockage, coûts réseaux, d’échanges et de sortie de données…
Un travail conséquent réalisé en interaction avec le département des achats. Et un objectif fort : faire des économies. Christophe Tricot le confie, un data lake « coûte très très cher », au point que la question de son ROI relève souvent du tabou.
Réduire les coûts et de gagner en flexibilité
En clair, il s’agissait pour Accor, grâce à une migration dans le cloud public, de réduire les coûts et de gagner en flexibilité, en particulier en matière d’APIsation, un « point noir » de l’existant. Sur l’aspect financier, la société a atteint son but.
Son passage « full AWS », réalisé courant 2018 (9 mois de migration), lui a permis de diviser ses coûts par deux, tout en doublant la puissance de calcul.
Cependant, l’objectif était « surtout de libérer les besoins métiers » insiste Olivier Tissot. Le DataLake v2 d’Accor devait en effet « faciliter l’innovation », au travers par exemple d’espaces « bac à sable pour tester de nouveaux outils », et de la disponibilité de nouveaux services (traduction, analyse de sentiments…)
Développement d’un catalogue de services sur étagère
Autre critère de choix lié aux métiers, « l’introduction d’éléments de self-service au niveau de la mise à disposition des données, rendues plus accessibles. » Les métiers restent d’ailleurs au cœur des prochaines évolutions du data lake.
Est ainsi développé un catalogue de services sur étagère. Sur le volet entrepôt de données, les équipes travaillent en outre au déploiement de Snowflake sur AWS. Un premier livrable est prévu pour la fin d’année.
Si Accor a conservé Cloudera, le contrat de licence prend cependant fin en 2019. Une étude déterminera d’ici début 2020 si cette technologie est conservée. Pour mener à bien ces différents chantiers d’infrastructure, le responsable Big Data souligne l’importance de disposer de compétences clés.
“Avoir les bonnes personnes avec les bonnes compétences réunies autour de la table”
Et ces compétences ne sont pas seulement techniques : « Il faut une vision sur le projet et la stratégie business à court et à moyen terme pour s’assurer de ne pas mettre en place une solution qui sera déjà obsolète dans six mois » note ainsi l’expert.
Mais bien sûr de l’expertise technologique est également indispensable sur l’architecture, les services cloud, Data Engineer, Ops, sécurité et réseau. « Même pour monter un gros projet de data lake, il n’est pas nécessaire d’être très nombreux. Il suffit juste d’avoir les bonnes personnes avec les bonnes compétences réunies autour de la table. »
Comments