Open datasets
Inleiding
In deze story gaan we de relatie onderzoeken tussen het standaardjaarverbruik en andere gegevens van buiten Liander. Het standaarjaarverbruik is een gegeven die Liander publiceert waarin het gemiddelde gas en elektriciteitsverbruik van een postcode gebied openbaar wordt gedeeld.
Doordat het standaardjaarverbruik (en de andere databronnen) getransformeerd zijn naar linked data kunnen we ze integraal bevragen en deze meteen in context plaatsen. Op deze manier doen we een analyse over verschillende kwalitatief goede open data die uit verschillende domeinen komen. De data is gelinkt aan elkaar en bevraagbaar terwijl de verschillende organisaties in deze domeinen normaal op datagebied niet met elkaar samen werken.
In deze story zullen we de linked data gebruiken en analyseren door deze te bevragen met SPARQL. We limiteren ons tot het gebied Arnhem en gebruiken we de volgende data:
- Standaardjaarverbruik
- Energielabels
- Gebouwgegevens van het Kadaster
- Postcode 6 geometrieen (dus van de vorm 1111AA)
Introductie
In deze story staat een korte introductie over linked data. Vervolgens gaat deze verder in op het datamodel wat ontwikkeld is voor de Proof of Value (PoV) opstelling voor het Research Center van Alliander.
Voor meer detail over linked data en ook introductie voor ontwikkelaars, kijk ook eens naar de uitstekende introductie bij het Kadaster. Deze story is specifiek voor de PoV bij Alliander.
Linked Data
Vaak wordt er binnen organisaties gebruik gemaakt van tabulaire data. Deze data is dan opgeslagen in cellen in rijen en kolommen. Bij Linked data gaat dat een beetje anders en slaat de data op in de vorm van "Triples". Een triple beschrijft een data-feit welke bestaat uit een subject, predicaat en een object. Het is een verbintenis van twee objecten (het subject en het object) met een relatie daartussen (het predicaat). Op deze manier bouw je een netwerk van relaties tussen klassen om zo een graaf structuur te beschrijven.
Hieronder staat een voorbeeld triple:
Data over het standaard jaarverbruik van verschillende postcodes, is niet alleen afkomstig van Liander. Als er wordt gekeken naar meerdere postcodes in Nederland, gelegen in andere provincies, zullen we ook gebieden tegenkomen die van elektriciteit en gas worden voorzien door andere netbeheerders, zoals bijvoorbeeld Stedin of Enexis. In deze data story gaan we hier dieper op in.
Met deze data story kunnen we laten zien dat door het gebruik van linked data gegevens van verschillende bronnen gemakkelijk samen gebruikt kunnen worden. Als alle netbeheerders op eenzelfde wijze hun standaardjaarverbruik opslaan als linked data, kunnen hier gemakkelijker analyses op worden uitgevoerd. Hier zijn dan geen ingewikkelde vertaalslagen voor nodig.
Zo gaan we met behulp van de eerste tabel, kijken naar de overlap tussen netbeheerders. Je kan in deze tabel bijvoorbeeld teruglezen dat er 4 gebieden zijn waar Enexis de energy provider is, terwijl Stedin het gas levert.
In de verschillende datastories hebben we de kracht van Open Linked Data laten zien door de publieke informatie van Alliander in Linked Data vorm te publiceren en te koppelen met externe bronnen. Dit is het natuurlijk het droom scenario, alle data vrij beschikbaar om te bekijken en te analyseren. Maar we moeten ook realistisch blijven. Binnen bedrijven is er ook genoeg data die niet publiekere gedeeld kan worden. Denk aan data over klanten, financiën of medische informatie. Deze data mag niet publiek gemaakt worden maar bevat wel veel waardevolle informatie voor de bedrijfsvoering, zeker als je het kan koppelen met andere databronnen. In deze datastory laten we zien hoe je gesloten data (data die niet publiekelijk beschikbaar is) in Linked Data vorm kan koppelen met andere open data bronnen zowel intern als extern.