OpenRefine-Introduction-Workshop

<< Back to the index of this workshop >> To the Github repo of this page

OpenRefine Introduction Workshop - Outline and notes (in Dutch)

Latest update: 3 August 2023

Uitleg over de 4 belangrijke functionaliteiten van OpenRefine

Context workshop

In deze workshop gaan we aan de slag met de winnaars van de Halewijnprijs, een Nederlandse literatuurprijs.

Werkvormen bij deze workshop

Checks, ready to go?

Opstarten OR

Aanmaken OR project

We gaan een project maken met data van de winnaars van de Halewijnprijs, zoals die vernoemd zijn op https://www.halewijnprijs.nl/ (tabblad Winnaars).

Copy-paste deze data naar klembord.

Twee manieren om deze data in OR te krijgen:

  1. Rechtstreeks (Get data from clipboard)
    • Plak data in invoerveld –> Next –> Automatische herkenning vd kolommen Jaar-Auteur
    • Parse data as “Fixed-width field text files” (want: jaartal is steeds 4 cijfers) –> laat ook andere opties zien. Leg uit waarom “Line-based text files” en “CSV / TSV / separator-based files” in dit geval minder geschikt zijn.
    • Kies Column widths = 4
    • Character encoding = UTF-8
    • Vul project name + tags in (rechtsboven)
    • Create project
  2. Via Excel (Get data from this computer)
    • Plak data vanaf https://www.halewijnprijs.nl in lege Excel
    • Gegevens –> Tekst naar kolommen –> Vaste breedte –> Datatype van beide kolommen = tekst
    • Voeg kolomheaders toe
    • Sla Excel op.
    • Importeer Excel in OR
    • Vul project name + tags in (rechtsboven)
    • Create project

Na “Create project”:

Opdracht: Laat cursisten bovenstaande beide manieren om een project te maken nu zelf nadoen

Opschonen en sorteren data

Opdracht: Laat cursisten spelen met sortering

In de hierna nog volgende uitleg zal de cursusleider aldoende meer datatransformaties de revu laten passeren

Reconciliatie tegen Wikidata

We gaan nu reconcilieren tegen Wikidata, d.w.z.

Acties:

Je krijgt nu allerlei matchsuggesties, licht toe

OK, we hebben nu 32 rijen met gereconcilde winnaars!

Extra/externe data ophalen uit Wikidata

We willen nu extra data van deze schrijvers ophalen uit Wikidata

Edit column –> Add column from reconciled values. Leg dialoogscherm uit.

Licht resultataten toe

Meervoudige cellen samen tot lijst

Opdracht voor cursisten: Maak van de geboortedatum 3 apart kolommen: Jaar, Maand, Dag

Opdracht voor cursisten: Splits alle beroepen in aparte kolommen

Facetten aanbrengen

Optioneel: Geboorteplaatsen toevoegen

Afbeeldingen: van naam naar URL

Je krijgt nu halvegare URLs door de spaties in de bestandsnamen

Reconciliatie tegen de NTA

Optioneel, geavanceerd (alleen indien er tijd over is)

Winaars toevoegen aan Q-item Halewijn-prijs

We willen (de Qitems van) alle winnaars toevegen aan Q-item over Halewijn-prijs

Opbouwen schema in OR

We gaan een Wikidata OR schema bouwen

Uploaden naar Wikidata

Laat 1 van de cusisten de upload proberen, als het niet werkt kan de cursusleider de upload doen.