OpenRefine par Stefan Gaget

Vous disposez de données sous différents formats et standards? vous constatez des erreurs de saisie, voire des données manquantes? Le travail de reprise de données peut être fastidieux. Compatible avec Linux, Mac et Windows, OpenRefine va vous permettre de manipuler facilement de grandes quantités de données.

OpenRefine permet d’effectuer des opérations de nettoyage en masse, mais aussi d’explorer des jeux de données, de convertir les données d’un format à un autre, d’appliquer des transformations cellulaires de base et avancées, de filtrer et de créer un partitionnement des données avec des expressions régulières, d’extraire des entités nommées sur des champs de texte intégral. Dans ses dernières version, OpenRefine s’est enrichi de fonctionnalité d’agréation afin d’enrichir votre jeu de données par des données en open data sur Internet.

Si l’interface est en ligne, toutes les données restent stockées en local. Ex Google Refine, OpenRefine est désormais un outil open source, toujours disponible gratuitement.

Stefan Gaget est ingénieur de recherche dans l’unité Génomique Intégrative et Modélisation des Maladies Métaboliques (UMR8199), où il est responsable des développements logiciels et bases de données. Il est également membre des comités de pilotage des réseaux DevLog et Min2Rien.

Pendant quelques mois il est possible de regarder la vidéo directement sur le site de webex ce qui offre des options supplémentaires de visualisation (comme par exemple voir l’orateur en même temps que son écran).

Télécharger les transparents