OpenRefine/Réconciliation et enrichissement

Un livre de Wikilivres.

Avec Wikidata[modifier | modifier le wikicode]

Réconciliation / Enrichissement[modifier | modifier le wikicode]

  • Voir la documentation en ligne sur Wikidata.
  • Voir la procédure proposée par Mathieu Saby [1].
  • Voir la procédure proposée par Maiwenn Bourdic [2].

Pour ajouter un service de réconciliation, voir la documentation officielle. En introduisant l'URL https://wdreconcile.toolforge.org/en/api il est possible en modifiant l'acronyme avant /api de choisir la langue que l'on souhaite[3]. Visiblement, il semble plus performant d'utiliser le lien suivant:https://wikidata.reconci.link/en/api [4].

Importer dans OpenRefine des valeurs depuis Wikidata[modifier | modifier le wikicode]

Il est possible d'ajouter des colonnes avec des valeurs importées depuis l'entitée Wikidata réconciliées dans les données travaillées dans OpenRefine.

En particulier, il est possible d'importer des label Wikdata (ou des descriptions, etc..) en choississant la langue.

Pour ce faire :

  • "Editer la colonne"->"Ajouter des colonnes à partir de valeurs réconciliées".
  • voir la documentation [1]

Création de nouveaux éléments Wikidata à partir de Openrefine[modifier | modifier le wikicode]

Attention : lorsque vous souhaitez créer des éléments totalement nouveaux dans Wikidata à partir de Openrefine, il faut faire attention aux points suivants [5] :

  • Si vous lancez une réconciliation sur une colonne comportant que des éléments nouveaux en suivant la procédure Réconcilier->Action>"Créer un nouveau sujet pour chaque cellule". Cette action fonctionne et affiche 100% d'élément nouveaux. Mais lorsque l'on souhaite éditer le schéma en vue de leur import dans Wikidata, on n'arrive pas à sélectionner cette colonne pour en-tête d'élément (le premier champs à spécifier). Elle est inactive au sens de Wikidata.
  • Le problème vient du fait que Openrefine ne sait pas avec quel service externe on veut les réconcilier et Wikidata ne les reconnaît dès lors pas.
  • Pour contourner, ce problème, on peut faire deux choses:
    • soit lancer une réconciliation"classique" tout d'abord en sélectionnant Wikidata, puis dans un second temps lancer l'action "Créer un nouveau sujet pour chaque cellule".
    • soit choisir Réconcilier->"Utiliser les valeurs comme identifiants", en choisissant Wikidata.
  • Dans les deux cas, Wikidata sera identifié et la colonne "valide" pour sa sélection dans le schéma.
  • Il existe un ticket de développement d'Openrefine qui documente cette difficulté.

Via Quickstatements[modifier | modifier le wikicode]

Openrefine propose d'exporter le schéma de réconciliation dans un format (.txt) lisible par Quickstatements. Voir d:Wikidata:Tools/OpenRefine/Editing/Uploading#Uploading_with_QuickStatementsdocumentation en ligne.

Cette démarche a les avantages suivants :

  • Elle permet de relire l'entièreté des données avant l'import;
  • Elle permet suivi détaillé de l'avancée des imports au contraire d'Openrefine.

Voir aussi[modifier | modifier le wikicode]

Avec un CSV[modifier | modifier le wikicode]

Dans ce cas nous allons réconcilier en vue d'une normalisation nos données dans le projet Openrefine ouvert et des données externes dont nous disposons sous forme de fichier .csv.

Nous allons effectuer pour cela un fuzzy matching. La manœuvre va nous permettre de réconcilier des données dont l'orthographe est plus ou moins proche et de récupérer le cas échéant leurs identifiants externes. Pour tout autre enrichissement, il faudra se tourner dans un second temps vers d'autres procédures.

La plupart des informations pour réaliser cela ont été tirées du tutoriel video sur ce sujet réalisé par Ettore Rizza sur le sujet [6].

Réconciliation[modifier | modifier le wikicode]

  1. Lancer Openrefine;
  2. Créer un projet OpenRefine à partir de nos données A de base;
  3. Créer un dossier de travail sur notre ordinateur;
  4. Créer un fichier .csv avec nos données B avec lesquelles on veut réconcilier les données A. Le fichier doit dispose de deux colonnes, l'une avec un identifiant unique (ex.1, 2, 3 etc.) et une seconde avec les valeurs que l'on souhaite réconcilier. Enregistrer ce fichier dans le dossier de travail;
  5. Télécharger le plugin d'OpenRefine permettant le fuzzy matching [7] qui est sous la forme d'une archive JAVA;
  6. Enregistrer ce plugin dans le dossier;
  7. Activer le plugin au travers d'une invite de commande, à partir du dossier dans lequel l'archive JAVA a été déposée, au moyen de la commande suivante (sans les crochets) :
    java -jar [nom de l'archive] [le nom de fichier de référence] [Nom de la colonne qui servira au matching] [Nom de la colonne où se trouve l'identifiant unique]
  8. Retourner au projet OpenRefine avec nos données A. Choisir la colonne que nous voulons réconcilier, dans l'en-tête de colonne choisir au moyen du petit triangle : Reconcilier->Démarrer la réconciliation->Ajouter un service standard puis indiquer l'adresse URL préciser sur la page du plugin (http://localhost:8000/reconcile)->Add Service->Start Reconciling;
  9. Le matching s'est effectué;
  10. Dans le cas de doute, le service propose des différents choix, nous devons alors effectuer un choix à la main de façon sérielle ou unique.

Enrichissement[modifier | modifier le wikicode]

Via l'application java permettant le fuzzy matching, on ne peut récupérer que l'identifiant de la valeur réconciliée. Voici comment procéder :

  1. Dans le projet OpenRefine avec nos données A à présent réconciliées avec les données B du fichier .csv, il faut choisir la colonne réconciliée, dans l'en-tête de colonne choisir au moyen du petit triangle : "Éditer la colonne"->"Ajouter une colonne en fonction de cette colonne" puis:
    • Donner un "Nouveau nom de colonne";
    • Introduire une expression GREL
      cell.recon.match.id
      .

Avec une API[modifier | modifier le wikicode]

Réconciliation[modifier | modifier le wikicode]

Enrichissement[modifier | modifier le wikicode]

Voir la procédure proposée par Mathieu Saby [8].

Enrichissement par jointure[modifier | modifier le wikicode]

Lorsque l'on dispose de données avec une clé de concordance absolument identique, il est alors possible de faire une jointure entre deux projets OpenRefine afin d'enrichir un projet par les données de l'autre.

La plupart des informations pour réaliser cela ont été tirées du tutoriel video sur ce sujet réalisé par Ettore Rizza sur le sujet [9].

Selon Ettore Rizza, il existerait au moins deux manière de faire une jointure dans OpenRefine, soit par un plugin soit par une commande GREL.

GREL[modifier | modifier le wikicode]

  1. Il faut ouvrir le projet A et le projet B dans OpenRefine;
  2. Dans le projet OpenRefine avec nos données A, il faut choisir la colonne qui servira de pivot entre les deux projets, dans l'en-tête de cette colonne choisir au moyen du petit triangle : "Éditer la colonne"->"Ajouter une colonne en fonction de cette colonne" puis dans l'interface qui s'ouvre alors:
    • Donner un "Nouveau nom de colonne";
    • Introduire cette expression GREL :
      cell.cross("titre du projet B", "titre de la colonne pivot dans le projet B").cells["titre dans le projet B de la colonne contenant les données à rapatrier dans le projet A"].value[0]
      .
    • Appuyer sur ok.

Plugin[modifier | modifier le wikicode]

Voir aussi[modifier | modifier le wikicode]

Maïwenn Bourdic, « Enrichir à partir d'un autre projet openrefine », sur https://www.patrimoine-et-numerique.fr, (consulté le 7 décembre 2019).

Références[modifier | modifier le wikicode]

  1. Mathieu Saby, « Réconcilier des données avec Wikidata », sur Nettoyer et préparer des données avec OpenRefine : atelier pour les journées du consortium MASA, 14 novembre 2018 (mise à jour le 19 novembre 2019) (consulté le 4 décembre 2019).
  2. Maïwenn Bourdic, « Enrichir depuis Wikidata », sur https://www.patrimoine-et-numerique.fr, (consulté le 7 décembre 2019).
  3. (en) « Reconciliation », sur OpenRefine : Documentation For Users, (consulté le 13 août 2020).
  4. (en) « New OpenRefine reconciliation service », sur Wikidata, (consulté le 18 septembre 2020).
  5. Je remercie Pintoch de m'avoir indiqué ces solutions et ces informations.
  6. Ettore Rizza, « Tuto Open refine : le fuzzy matching », sur https://www.youtube.com, (consulté le 2 décembre 2019).
  7. Reconcile-csv : http://okfnlabs.org/reconcile-csv/#download
  8. Mathieu Saby, « Enrichissement de données à partir d’API », sur Nettoyer et préparer des données avec OpenRefine : atelier pour les journées du consortium MASA, 14 novembre 2018 (mise à jour le 19 novembre 2019) (consulté le 4 décembre 2019).
  9. Ettore Rizza, « Tuto Open Refine : jointure entre deux projets (VLOOKUP) », sur https://www.youtube.com, (consulté le 2 décembre 2019).