OpenRefine/Nettoyage des données

Un livre de Wikilivres.
Sauter à la navigation Sauter à la recherche


Une fois l'analyse des données effectuées, on peut se lancer dans le nettoyage de celles-ci.

Il existe au moins deux manières principales de nettoyer des données : travailler individuellement sur chacune de celles-ci ou de faire des modifications en masse. OpenRefine permet les deux mais évidemment son principal avantage réside dans les transformations de masse.

Modifications individuelles[modifier | modifier le wikicode]

Chaque cellule du tableur affiché dans OpenRefine peut être modifiée individuellement. Cela est aussi possible sur les facettes elles-mêmes.

Ligne[modifier | modifier le wikicode]

Ajouter une ligne dans OpenRefine c'est possible.

  1. Choisir la colonne dans laquelle se trouve l'information à répartir sur deux lignes;
  2. Puis "Éditer les cellules"->"Diviser les cellules multivariées"
  3. Définir le type de séparateur qui opérera la séparation.

Journal des actions[modifier | modifier le wikicode]

OpenRefine offre dans la zone de gauche de l'interface de traitement des données un journal des actions et transformations opérées. Cela permet de revenir en tout temps en arrière, y compris jusqu'à la première action.

Ce journal des actions peut aussi être exporté (via "Extraire") afin de pouvoir être rejoué (via "Appliquer") tel quel sur un nouveau ensemble de données. Cette fonctionnalité est très pratique si on travaille sur plusieurs fichiers similaires ou sur plusieurs versions d'un même fichier (par exemple fichier mis à jour régulièrement).

Modifications en masse[modifier | modifier le wikicode]

Groupe[modifier | modifier le wikicode]

À partir d'une liste de termes obtenus par la demande d'une facette, ou simplement en choisissant Éditer les cellules->Grouper et éditer, OpenRefine offre une proporition de regroupement des valeurs par similitude. À partir de cette visualisation, il est possible de procéder à des fusions de termes sous une même valeur. Voir à ce sujet la video no 1 d'introduction de 2011.

Chaînes de caractères[modifier | modifier le wikicode]

Il existe de nombreuses fonctions GREL pour manipuler les chaînes de caractères :

  • pour les découper (trim(c) strip(c) chomp(c1, c2) substring(c, 0, 10) split(c1, c2)),
  • pour changer la casse (toLowercase(c) toUppercase(c) toTitlecase(c)),
  • pour calculer ou compter la chaîne (length(c) contains(c1, c2)),
  • etc.

Dates[modifier | modifier le wikicode]

Typer une colonne en date[modifier | modifier le wikicode]

Transformer le format d'une colonne en date (de type aaaa-mm-jjT00:00:00Z, soit jusqu'à l'heure !) permet d'utiliser la facette chronologique, et donc la jauge temporelle.

Pour ce faire : Clic sur la colonne -> Editer les cellules -> Transfomations courantes -> En date.

Un conseil : dupliquer la colonne date pour faire la manipulation sur un double...

Source : le blog de Maïwenn Bourdic[1].

Changer le type de date[modifier | modifier le wikicode]

Clic sur la colonne -> Editer les cellules -> Transformer -> la commande GREL :

value.toDate('yyyy-MM-dd','MMM-yy').toString('dd-MM-yyyy')

Source : le blog de Maïwenn Bourdic[2].

GREL[modifier | modifier le wikicode]

GREL est un acronyme qui signifie General Refine Expression Language.

Voir la documentation officielle et aussi le mémo de Mathieu Saby[3]

La base[modifier | modifier le wikicode]

  1. Les formules GREL ne commence pas par un signe = contrairement à celles des tableurs habituels.
  2. La formule n'est pas stockée dans la cellule. C'est le résultat qui l'est.
  3. value appelle la valeur de la colonne d'où est partie la requête.
  4. cells['nom de la colonne'] ou cells.nom_colonne permet d'appeler n'importe quel valeur sur une autre colonne.
  5. les transformations peuvent être enchaînées par un point.
  6. les transformations peuvent encapsulées par des parenthèses (seule possibilité pour les transformations conditionnelles).

Tiré en partie du mémo de Mathieu Saby[3],

Transformations primaires[modifier | modifier le wikicode]

Comme le dit Mathieu Saby dans son mémo[3], Les formules GREL permette de réaliser les opérations simples comme :

  • concaténer des valeurs : "a"+"b"->ab
  • calculer sur les nombres grâce aux opérateurs + - / *: 1+2->3
  • comparer grâce aux opérateur : ==,!==,<,>,=>,<=

Transformations directes[modifier | modifier le wikicode]

Mathieu Saby distingue[3] les formules GREL de fonction et celles de contrôle, nous les avons distingué ici entre celles de transformations directes et celles de transformations conditionnelles, recoupant plus ou moins la même distinction.

premier modèle[modifier | modifier le wikicode]

Le premier modèle s'écrit fonction(paramètres)[3].

  • forEach(value.split("-"), v, v.toTitlecase()).join("-") pour appliquer une majuscule sur les intiales à un nom composé, par exemple : nadine-josette[4].
  • value(1,5) qui signifie reprendre les valeurs ayant la position de 1 à 5 dans la nouvelle colonne[5].
  • value + " " + cells["nom de la colonne"].value[6] permet de concatener les valeurs de deux colonnes dans une troisième.

second modèle[modifier | modifier le wikicode]

Le second modèle s'écrit Paramètre1.fonction(Paramètre2)[3].

  • value.log()[7].
  • value.parseJson().responseData.language[8].
  • value.replace("quelque chose","par quelque chose d'autre")[7]>.
    • value.replace(value,"par quelque chose d'autre") permet de créer une nouvelle colonne en fonction d'une existante avec une valeur nouvelle.
  • value.substring(2) qui signifie reprendre tous les caractères moins ceux ayant les deux premières positions[5].
  • value.toDate('yyyy-MM-dd','MMM-yy').toString('dd-MM-yyyy') pour changer le type de date[2].

Transformations conditionnelles[modifier | modifier le wikicode]

  • if(cells["titre d'une autre colonne"].value, value + "un texte", value) qui nécessite que l'autre colonne dispose de valeur de requête vrai ou faux. Si c'est le cas alors on peut utiliser if (si) le valeur est vraie alors ajoute au texte existant un texte, sinon on laisse la valeur telle quelle[5].
  • if(isBlank(cells["colonne 1"].value), " - ", cells["colonne 1"].value) + " - " + if(isBlank(cells["colonne 2"].value), " - ", cells["colonne 2"].value) + " - " + if(isBlank(cells["colonne 3"].value), " - ", cells["colonne 3"].value) + " - " + if(isBlank(cells["colonne 4"].value), " - ", cells["colonne 4"].value) pour concatener le contenu de 4 colonnes dont certaines ne disposent pas de valeur[9].
  • "film de "+if(isBlank(cells["Réal1"].value), " ", cells["Réal1"].value) + if(isBlank(cells["Réal2"].value), "", ", "+cells["Réal2"].value) + if(isBlank(cells["Réal3"].value), "", ", "+cells["Réal3"].value)+ if(isBlank(cells["Réal4"].value), "", ", "+cells["Réal4"].value)+ if(isBlank(cells["Réal5"].value), "", ", "+cells["Réal5"].value)+ if(isBlank(cells["Réal6"].value), "", ", "+cells["Réal6"].value)+ if(isBlank(cells["Réal7"].value), "", ", "+cells["Réal7"].value)
  • not(value.startsWith("quelque chose"))[5].
  • with(value.parseJson()[0],pair, pair.lat + ',' + pair.lon)[8].
  • filter
  • forEach
  • forEachIndex
  • forRange
  • IsBlank
  • IsNonBlank
  • IsNull
  • IsNotNull
  • IsNumeric
  • IsError
  • forNonBlank

Références[modifier | modifier le wikicode]

  1. (fr) Maïwenn Bourdic, « Typer une colonne en date » sur https://www.patrimoine-et-numerique.fr, 12 avril 2017. Consulté le 6 décembre 2019.
  2. 2,0 et 2,1 (fr) Maïwenn Bourdic, « Changer le type de date » sur https://www.patrimoine-et-numerique.fr, 12 avril 2017. Consulté le 7 décembre 2019.
  3. 3,0 3,1 3,2 3,3 3,4 et 3,5 (fr) Mathieu Saby, « Programmer dans Openrefine avec GREL » sur https://fr.slideshare.net, 24 novembre 2019. Consulté le 11 février 2020.
  4. Merci à Ettore Rizza de nous avoir fourni l'expression.
  5. 5,0 5,1 5,2 et 5,3 Voir video 2 de 2011
  6. (en) Illionois University Library, « Combining Cell Values » sur https://guides.library.illinois.edu/openrefine, 05.02.2018. Consulté le 28 janvier 2020.
  7. 7,0 et 7,1 Voir video 1 de 2011
  8. 8,0 et 8,1 Voir video 3 de 2011
  9. (fr) Maïwenn Bourdic, « Concatener », 12 avril 2017. Consulté le 28 janvier 2020.