Voilà qui devrait ravir les spécialistes des données. L’équipe data-science de Netflix a ouvert sa bibliothèque Metaflow Python, un élément clé de l’infrastructure Machine learning “centrée sur l’humain” que la plateforme de SVOD utilise pour construire et déployer des flux de travail data-science.
Rappelons en effet que le géant du streaming par abonnement a recours à l’apprentissage automatique dans tous les aspects de ses activités, de l’analyse de scénarios à l’optimisation des calendriers de production, en passant par la prévision du taux de désabonnement, la tarification, la traduction et l’optimisation de son réseau géant de distribution de contenus.
Selon les ingénieurs logiciels de Netflix, Metaflow a été conçu pour aider à augmenter la productivité de ses data-scientists qui aiment exprimer la logique métier à travers le code Python mais ne veulent pas passer trop de temps à penser à des problèmes annexes d’ingénierie, tels que les hiérarchies d’objets, les problèmes de packaging ou à traiter des API obscures sans rapport avec leur travail. L’idée derrière Metaflow était d’offrir aux data-scientists de Netflix la possibilité de voir très tôt si un modèle prototypé échouerait en production, ce qui leur permettrait de résoudre le problème quel qu’il soit et, idéalement, d’accélérer le déploiement. En février dernier, Netflix révélait que l’outil s’était avéré concluant, contribuant notamment à réduire le délai de déploiement médian de quatre mois à seulement sept jours.
publicité
Compatibilité avec les outils d’AWS
Netflix propose cette description succincte de sa bibliothèque Python sur le nouveau site metaflow.org : “Metaflow vous aide à concevoir votre flux de travail, à l’exécuter à l’échelle et à le déployer en production. Il versionne et suit automatiquement toutes vos expériences et données. Il vous permet d’inspecter facilement les résultats dans les ordinateurs portables”. L’outil peut également être utilisé avec les bibliothèques de sciences de données Python populaires, y compris PyTorch, Tensorflow et SciKit Learn.
Netflix, comme on le sait, est l’un des plus grands utilisateurs des services Web d’Amazon (AWS), il n’est donc pas surprenant que Metaflow s’intègre à de nombreux services AWS, y compris la possibilité d’avoir un accès instantané à tout le code et toutes les données d’Amazon S3, que Netflix utilise comme son “lac de données”. Cette capacité devrait aider les utilisateurs à mettre rapidement à l’échelle les modèles en utilisant les services de stockage, de calcul et d’apprentissage machine d’AWS.
La capacité d’instantané du code dans S3 est ce qui permet à Metaflow d’automatiser le suivi des versions et des expériences afin que les développeurs puissent inspecter et restaurer l’exécution de Metaflow en toute sécurité. Metaflow est également fourni avec un “client S3 haute performance, qui peut charger des données jusqu’à 10Gbps”.
Intégration à Batch
Le client permet aux spécialistes des données de n’importe quelle organisation de réaliser ce que les spécialistes des données de Netflix ont fait au cours des dernières années. Netflix a révélé en avril qu’il utilisait Metaflow pour “repousser les limites de Python”, lui permettant d’utiliser “du code Python parallélisé et optimisé pour récupérer des données à 10 Gbps, gérer des centaines de millions de points de données en mémoire, et orchestrer le calcul sur des dizaines de milliers de cœurs CPU”.
“Ce client a été massivement populaire parmi nos utilisateurs, qui peuvent maintenant charger les données dans leurs flux de travail un ordre de grandeur plus rapidement qu’auparavant, permettant des cycles d’itération plus rapides “, ont fait savoir les ingénieurs logiciels de Netflix.
Metaflow s’intègre également à Batch, la plate-forme de calcul basée sur les conteneurs AWS. Netflix soutient que Metaflow sur AWS permet aux développeurs d’obtenir la vitesse de développement sur un ordinateur portable, avec les ressources de calcul plus profondes disponibles dans le cloud. “Metaflow facilite le va-et-vient entre le mode d’exécution local et le mode d’exécution distant en ne nécessitant pas de modifications au code ou aux bibliothèques pour chaque état, ce qui devrait faciliter le dépannage”, affirme ainsi la plateforme américaine. Charge désormais au data-scientists en herbe d’évaluer par eux-mêmes les qualités et les limites de cet outil.
Source : ZDNet.com
Comments