top of page

Azure Synapse Analytics combine un entrepôt de données, un lac de données et des pipelines


Azure Synapse Analytics combine un entrepôt de données, un lac de données et des pipelines

La première génération d’Azure SQL Data Warehouse (SQL DW) a été annoncée en 2015, et SQL DW “Gen 2” a été publié en version générale en 2018. Et voici que Microsoft annonce cette semaine Synapse Analytics, soit la troisième itération de SQL DW, ainsi que de nouvelles fonctionnalités en mode preview.

Synapse Analytics cherche à unifier un ensemble de charges de travail analytiques, y compris les entrepôts de données (data wharehouse), les lacs de données (datalake), l’apprentissage machine et les pipelines de données qui agissent comme le ciment entre ces briques.

Azure Synapse Analytics dans le détail

Lors d’un briefing avec ZDNet, Daniel Yu, Directeur Produits – Azure Data and Artificial Intelligence chez Microsoft et Charles Feddersen, Principal Group Program Manager – Azure SQL Data Warehouse, ont passé en revue les détails de la nouvelle offre d’analyse unifiée de Microsoft. D’après cet exposé, ma compréhension de la transition de SQL DW à Synapse se résume à trois piliers :

  1. Le moteur de base de l’entrepôt de données a été amélioré, avec de nouvelles fonctionnalités pour concurrencer d’autres plates-formes d’entrepôt de données en mode cloud, y compris la capacité de s’adapter aux charges de travail grâce à une infrastructure explicitement provisionnée ou à la demande (serverless), chacune avec son modèle tarifaire associé.

  2. L’intégration d’Apache Spark (la version open source, et non Azure Databricks) et d’Azure Data Lake Storage (ADLS) pour s’adapter aux charges de travail des lacs de données.

  3. Une interface utilisateur Web unifiée, appelée Azure Synapse studio, qui permet de contrôler à la fois l’entrepôt de données et le côté lac de données de Synapse, ainsi que Azure Data Factory, pour la préparation et la gestion des données.

L’intégration de Spark, et plus encore

L’intégration d’Apache Spark semble être plus qu’un simple “bundling” du framework open source d’analyse de données. Par exemple, lorsqu’un cluster Synapse est provisionné, la capacité ADLS — qui peut stocker des tables SQL Spark — est réquisitionnée avec lui (comme Azure Data Factory).

Les tables SQL Spark sont immédiatement interrogeables à partir du langage T-SQL basé sur SQL-Server, sans nécessiter de commandes explicites comme CREATE EXTERNAL TABLE. Le moteur que ces requêtes exploitent semble s’intégrer nativement avec les fichiers de données stockés au format Apache Parquet.

Une telle fonctionnalité sera un concurrent du service Athena d’Amazon Web Services, qui fournit des requêtes SQL sur les données dans S3. Au-delà de cette capacité, cependant, le studio Azure Synapse intègre une expérience d’ordinateur portable, ostensiblement adaptée au développement et à l’exécution de blocs de code Python, Scala et Spark SQL natifs.

L’intégration de Spark signifie également que Synapse peut gérer les charges de travail d’apprentissage machine, grâce à Spark MLlib.

Au-delà de Spark ML, Microsoft discute également de l’intégration avec Azure Machine Learning, Power BI, Azure Data Share et les applications/services qui supportent l’Open Data Initiative (basé sur le Common Data Model de Microsoft), mais avec moins de spécificités.

Un fork SQL Server-Spark ?

Il est intéressant de noter que le produit SQL Server sur site, dont le moteur et le langage Transact SQL Synapse Analytics permettent de retracer son héritage, lance également une nouvelle version aujourd’hui – SQL Server 2019 – qui, avec une fonctionnalité appelée Big Data Clusters (BDC) intègre également Apache Spark, et les charges de travail des datalake.

BDC est entièrement basée sur l’orchestration des conteneurs Kubernetes, qui est particulièrement bien mise en œuvre par Azure Kubernetes Service (AKS).

Cela signifie que Microsoft lance, le même jour et au même événement, deux nouvelles options pour combiner la technologie SQL Server avec Apache Spark, et les deux peuvent fonctionner sur Azure.

Dans le même temps, les deux sont mis en œuvre différemment. Synapse possède son studio Azure Synapse, SQL Server 2019 propose une interface utilisateur de bureau multiplateforme (Windows/macOS/Linux) compatible avec les ordinateurs portables, appelée Azure Data Studio.

Cette double alternative pour l’intégration et l’outillage de Spark ne peut que semer la confusion chez les clients, malheureusement. Et l’offre d’une autre implémentation d’Apache Spark sur Azure, distincte d’Azure Databricks, peut poser ses propres difficultés, d’autant plus que Microsoft cite Databricks comme un de ses partenaires pour Synapse.

Il existe cependant des différences importantes entre tous ces services. SQL Server s’adresse principalement aux besoins OLTP (Online Transactional Processing). Les databricks brillent dans les domaines de l’ingénierie des données et de l’apprentissage machine.

Synapse est le service dont vous avez besoin si l’analyse MPP (traitement massivement parallèle – massively parallel processing) des data warehouse analytics est une nécessité pour vous. Le fait que Spark et les datalakes recoupent ces trois éléments montre à quel point ce modèle technologique et analytique est devenu important.

0 vue0 commentaire

Comments


bottom of page