top of page

Que va pouvoir faire Cloudera avec Cloudera Data Platform

Que va pouvoir faire Cloudera avec Cloudera Data Platform

Cloudera a connu une année mouvementée, pour le moins turbulente. Bien qu’il y ait longtemps que Cloudera ne soit plus assimilé exclusivement à Hadoop, sa fortune a néanmoins été liée à la plate-forme open source développée pour la première fois par Doug Cutting et Mike Cafarella il y a plus de dix ans.

Dans un récent article paru dans Medium, Arun Murthy, chef de produit de Cloudera, résume bien toute la saga par un titre élégant : Hadoop is Dead. Long live Hadoop. Selon Murthy, ce post a manifestement touché une corde sensible, obtenant environ 10 fois le nombre de lectures de la plupart des blogs Cloudera.

La semaine dernière, Andrew Brust a fourni un compte rendu exhaustif des nouveaux produits de la nouvelle génération de Cloudera, Cloudera Data Platform (CDP). À son crédit, Cloudera n’a pas simplement fait du copier-coller avec la nouvelle offre, qui est la plate-forme convergente tant attendue issue de sa fusion avec Hortonworks.

Refonte complète

Il s’agit d’une refonte complète, à commencer par le remaniement du stockage et du calcul qui a rompu la connexion entre la plate-forme Cloudera et HDFS. A une époque où la technologie de cloud computing est enfin en train de s’imposer dans Hadoop, l’entreprise a fait le choix judicieux d’opter pour une architecture cloud native. Du côté du stockage, il propose du stockage objet en mode cloud de type S3 au même titre que le HDFS. Et du côté du calcul, il ouvre la voie à Kubernetes pour remplacer YARN.

Qu’est-ce que ça veut dire ? Au-delà de l’élasticité, cela signifie un déploiement à la volée. Si vous regardez la première tentative de Cloudera pour proposer une offre de en mode cloud, Altus, elle était basée sur le déploiement via des machines virtuelles (VM), un processus qui prenait généralement environ 8 minutes pour faire tourner des clusters. Avec Docker et Kubernetes sur CDP, ça descend à 30 secondes. Voilà.

Dans son article, Andrew Brust a également raconté la trajectoire de l’entreprise cette année. Après un Q1 désastreux, et avec MapR sur la corde raide, il paraissait assez clair que Hadoop était mort, et avec lui, Cloudera et MapR devaient mourir aussi. Puis vint Carl Icahn. Et HPE.

Aggrégations de technologies

Ted Dunning, qui se présente toujours comme le directeur de la technologie de MapR, a assuré que l’équipe d’ingénierie produit est passée chez HPE et est encore largement intacte. La saveur de Hadoop de MapR n’est peut-être pas si morte.

Côté Cloudera, la question est plus celle d’une entreprise à l’aube d’un changement de plate-forme. Donc il n’est pas impossible que les clients hésitent quelque peu avant d’investir. De quoi plomber un premier trimestre. La bonne nouvelle, c’est que le deuxième trimestre a été meilleur que prévu, ce qui a suffi à immobiliser les forces de Carl Icahn. Pour l’heure en tout cas.

Du côté des produits, non seulement Cloudera a ré-architecturé CDH et du HDP. Shared Data Experience (SDX), qui était un vaporware lorsqu’il a été introduit pour la première fois il y a 18 mois, est maintenant une solution réelle. Surtout, désormais Cloudera propose une offre cohérente qui, sous le capot, intègre les fonctionnalités de gestion des politiques d’Apache Ranger, le marquage des métadonnées d’Apache Atlas et la capacité de Single Sign-on d’Apache Knox.

Dans le cloud Cloudera attaque le marché en tant que challenger

C’est un fait que dans le cloud, Cloudera attaque le marché en tant que challenger d’offres Hadoop telles que AWS EMR, Azure HDInsight (bien qu’enraciné dans Hortonworks, c’est un produit Microsoft maintenant), et Google Cloud Dataproc.

Ils offrent tous la plupart des composants open source de CDP. Mais, à part la sécurité du périmètre et la gestion des identités et des accès, ils n’ont pas les capacités de gouvernance plus granulaires et spécifiques aux données, de contrôle d’accès et de suivi/audit de SDX. Soit dit en passant, il en va de même pour les services ponctuels comme Databricks ou tout autre service d’apprentissage machine ou de service AutoML qui sont proposés dans le cloud.

Nous ne nous attendons pas à ce que cette situation dure longtemps. Par exemple, l’offre d’ETL Glue d’AWS pourrait former la base d’une capacité de gouvernance des données élargie en exploitant les métadonnées. Nous nous attendons à ce qu’Azure et GCP montent en capacité sur ce plan également.

Sur le plan technologique Cloudera est sur la bonne voie

Mais pour l’instant, à part les offres de gouvernance de données tierces qui s’attaquent à certains éléments du problème, Cloudera est la seule plate-forme de données hétérogènes qui a cette capacité.

Mais ce n’est pas tout. Parce que SDX est lié à d’autres projets open source qui sont utilisés avec Hadoop, Cloudera pourrait bien le proposer séparément et avoir quelque chose à vendre aux clients EMR, HDInsight, ou Cloud Dataproc qui sans cela seraient hors de sa portée. Ajoutez à cela le positionnement de Cloudera comme étant cloud agnostique, nous pensons que SDX est le véritable joyau de la Cloudera Data Platform.

La bonne nouvelle sur le plan technologique, c’est que Cloudera est sur la bonne voie. Le travail n’est pas terminé, mais le défi de Cloudera est désormais plus dans l’exécution. Si vous avez un produit, vous avez besoin de communiquer efficacement avec les clients et de le vendre.

Que vend Cloudera ?

La base installée de Cloudera comprend près d’un millier de clients avec des engagements supérieurs à six chiffres et il reste une marge de manœuvre importante pour accroître sa présence auprès des clients existants. Cloudera prévoit de renforcer sa force de vente et son ingénierie sur la nouvelle plate-forme au cours du prochain trimestre.

Mais la question est : qu’est-ce que Cloudera vend ? Jusqu’à présent, ils ont rationalisés et simplifiés la plate-forme. Mais de par sa nature, la plate-forme Cloudera Data est avant une sujet hétérogène : un mélange hétérogène de charges de travail, de stockage, de calcul, de données et de types de données.

C’est le sujet le plus difficile à résoudre pour Cloudera, mais aussi le plus difficile à définir. D’ailleurs, Cloudera n’est pas le seul à s’attaquer à l’hétérogénéité. Nous voyons beaucoup de grands noms du data warehouse qui utilisent SQL comme point de départ. Ils ont une proposition de valeur forte étant donné l’important réservoir de compétences SQL qui existe.

Une plateforme pour quoi faire ?

Bien que Cloudera proposera un package adapté à l’utilisation de sa plate-forme pour l’entreposage de données, l’ingénierie des données et l’apprentissage machine, il a encore du pain sur la planche pour démontrer pourquoi vous avez besoin d’une plate-forme couteau suisse pour analyser de grands ensembles de données.

C’est là que la présentation de la plateforme à des publics en dehors des publics traditionnels de DSI et d’architectes devient essentielle. L’un des piliers clés de cette stratégie est bien sûr le multi cloud et le cloud hybride, mais c’est un argument de poids pour chaque opérateur historique qui n’est pas AWS, Azure ou GCP.

Cloudera doit définir un message qui va au-delà du “nous avons résolu la complexité de Hadoop”. Cloudera doit penser à mettre en avant en quoi la plate-forme est multi-cloud, gouvernable, et multicharge de travail. Pour l’instant, Cloudera a un message qui s’adresse aux publics auxquels ses équipes de vente font habituellement appel.

Mais en fin de compte, les DSI et les architectes ne sont pas intéressés par des solutions techniquement parfaites, mais par des solutions qui répondent aux besoins des directions métiers qui les financent, directement ou indirectement.

Article “Where does Cloudera go from here?” traduit et adapté par ZDNet.fr

0 vue0 commentaire

Comments


bottom of page