top of page

Google met fin à la version bêta de Dataset Search

Google met fin à la version bêta de Dataset Search

Google Dataset Search, un outil conçu à l’origine pour aider les chercheurs à trouver des données en ligne disponibles à l’utilisation, est maintenant sorti de sa version bêta, et il a été amélioré avec de nouvelles fonctionnalités, a annoncé la société.

Ce travail de recherche, lancé en 2018 pour tenter d’agréger les données en ligne en libre accès, a maintenant indexé 25 millions d’ensembles de données, selon Natasha Noy, chercheuse chez Google Research. Le contenu couvre des informations allant des populations de pingouins aux données médicales, et peut être utilisé par les chercheurs pour tester des hypothèses, ou par les scientifiques pour former des algorithmes d’apprentissage automatique. Bien entendu, l’outil est également ouvert aux utilisateurs occasionnels. Tapez “ski” par exemple, et vous trouverez des ensembles de données montrant les vitesses des skieurs les plus rapides, ou les chiffres d’affaires des stations de ski.

Les nouvelles fonctionnalités annoncées par la société vendredi dernier sont principalement destinées à simplifier le processus de recherche pour les utilisateurs. Les résultats peuvent désormais être filtrés en fonction du type d’ensemble de données requis, tels que des tableaux, des images ou des textes, ou en fonction de la liberté d’utilisation de l’ensemble de données. Le moteur de recherche peut également être utilisé comme une application mobile.

publicité

Partage de données

Natasha Noy a souligné qu’il est possible – et encouragé – pour ceux qui détiennent un ensemble de données particulier de rendre les informations accessibles par l’intermédiaire de l’outil Google en utilisant une norme ouverte, appelée schema.org, pour décrire les propriétés de leur ensemble de données sur leur page web.

Lors du lancement de Dataset Search, l’équipe de Google avait déjà identifié qu’un des défis serait de trouver un moyen simple de s’assurer que les dépôts de données existants se retrouvent dans le catalogue du moteur de recherche, afin que les données puissent être effectivement trouvées par les utilisateurs. La société a alors proposé la solution schema.org, qu’elle a décrite comme une norme pouvant être ajoutée à une page contenant un ensemble de données, afin de permettre à Google de lier la page au moteur de recherche des ensembles de données.

« Notre but ultime est de contribuer à la création d’un écosystème pour la publication, la consommation et la découverte d’ensembles de données », a déclaré Google. Bien que l’équipe de recherche n’ait pas révélé combien d’utilisateurs avaient testé l’outil, elle a fourni quelques indications sur le type de données que les gens recherchent depuis 2018. Les requêtes les plus courantes, selon Natasha Noy, comprennent “éducation”, “météo”, “cancer”, “criminalité”, “football” et… “chiens”.

La plupart des données qui ont été liées au moteur de recherche concernent les géosciences, la biologie et l’agriculture, ajoute-t-elle. Heureusement, la plupart des gouvernements dans le monde utilisent déjà la norme schema.org pour publier des données ouvertes. Le gouvernement américain, à lui seul, compte deux millions d’ensembles de données. Bien que la recherche d’ensembles de données ne soit plus en version bêta, Natasha Noy explique que Google continuera à mettre à jour l’outil à l’avenir. Elle suggère de l’utiliser « pour faire un tour » si vous ne l’avez pas encore essayé, c’est-à-dire si vous ne cherchez pas déjà des chiens.

Source : ZDNet.com

0 vue0 commentaire

Commentaires


bottom of page