Relatie tussen Bouwjaar, Energielabels en jaarlijks Energieverbruik

Inleiding

In deze story gaan we de relatie onderzoeken tussen het standaardjaarverbruik en andere gegevens van buiten Liander. Het standaarjaarverbruik is een gegeven die Liander publiceert waarin het gemiddelde gas en elektriciteitsverbruik van een postcode gebied openbaar wordt gedeeld.

Doordat het standaardjaarverbruik (en de andere databronnen) getransformeerd zijn naar linked data kunnen we ze integraal bevragen en deze meteen in context plaatsen. Op deze manier doen we een analyse over verschillende kwalitatief goede open data die uit verschillende domeinen komen. De data is gelinkt aan elkaar en bevraagbaar terwijl de verschillende organisaties in deze domeinen normaal op datagebied niet met elkaar samen werken.

In deze story zullen we de linked data gebruiken en analyseren door deze te bevragen met SPARQL. We limiteren ons tot het gebied Arnhem en gebruiken we de volgende data:

  • Standaardjaarverbruik
  • Energielabels
  • Gebouwgegevens van het Kadaster
  • Postcode 6 geometrieen (dus van de vorm 1111AA)

Eerst kunnen we even kijken naar welke postcode gebieden we hebben ingeladen. Hieronder zie je de postcode gebieden in Arnhem. De data is gelimiteerd op deze subset aan postcodes. In de proefopstelling hebben we alleen de data ingeladen van gebieden in Arnhem. Hieronder staan de eerste 400 postcode gebieden. Dit is een subset vanwege de performance van deze visualisatie. Als je alle postcodegebieden uit deze set wilt bekijken kun je de query openen (try this query yourself) en het "LIMIT 400" statement weghalen.

We kunnen nu voor ieder postcodegebied opvragen wat de gegevens zijn die er aan gekoppeld zijn. Als we deze opvragen vanuit de linked data die in deze triple store hebben opgeslagen zien we het onderstaande resultaat. We zien een aantal bolletjes (objecten of klassen) met relaties (pijltjes) ertussen. Vanuit die "wolk" kunnen we vervolgens verder redeneren.

Het postcodegebied en het StandaardJaarverbruik

We zien dat aan een specifiek postcodegebied een aantal verschillende soorten objecten zijn gekoppeld. Wat opvalt zijn een aantal nummeraanduidingen (groene bolletjes). Dit zijn de adressen die binnen dit postcodegebied vallen. Zometeen gaan we via het Kadaster de relevante informatie via deze nummeraanduidingen opvragen.

Verder zien we twee transportbeperkingen (paars), eentje voor invoeding en een voor uitvoer. Deze laten we nu buiten beschouwing. Als laatste zien we ook nog een elektriciteitsmeting (blauw). Dit is de meting waarin het standaardjaarverbruik staat opgeslagen.

Merk op dat er niet direct een energielabel zichtbaar is. Dat komt omdat energielabels slaan op "verblijfsobjecten", wat weer wat anders is als een "nummeraanduiding". Deze staat verderop op de pagina.

We gaan nu eerst kijken naar het StandaardJaarverbruik.

Van dit postcode gebied hebben we zojuist de elektriciteits standaardjaarverbruikmeting opgevraagd. Aan dat object zit een waarde en een aantal gegevens over de meest voorkomende aansluiting. Als we verder in het model duiken zullen we vinden dat dit de definities zijn van een 1-fase (cim:s1) 25Ampere (liander:25A) aansluiting. En op deze aansluiting is het standaardjaarverbruik "7313" kWh. Het is natuurlijk niet zo bijzonder om 1 gebied te bekijken. Het is veel interresanter om een verdeling van alle postcode gebieden te bekijken. Dat zien we hieronder.

De bovenstaande grafiek laat het aantal postcodes zien die tussen de waarden ligt op de x-as. Het wordt meteen zichtbaar dat een groot gedeelte van het kleinverbruik van elektriciteit een standaardjaarverbruik heeft van tussen de 2000 en 4000 kWh.

Dezelfde data kunnen we ook weergeven op een lijn. In de bovenstaande grafiek zien we opnieuw het standaardjaarverbruik Elektriciteit, gesorteerd op de waarde in kWh. Als je over de grafiek heen beweegt kun je het desbetreffende postcode gebied ontdekken via de popup.

De energielabels

We kunnen ook de energielabels bekijken. Deze set komt van het RVO. Omdat deze labels gekoppeld zijn aan verblijfsobjecten moeten we daar een extra stap voor doen om deze uiteindelijk bij onze postcode gebieden te krijgen. Maar eerst kunnen we de verdeling los even bekijken.

De verdeling van de energielabels ziet er zoals verwacht uit. Het is wel belangrijk om te realizeren dat dit labels zijn met verschillende uitgifte jaren. De labels van oudere jaartallen zullen een stukje slechter zijn dan de labels van na 2020.

We kunnen ook de postcode groeperen in de query zodat we de verschillende aantallen per postcode per jaar kunnen visualiseren. Hieronder zie je dat resultaat. Het is duidelijk dat er in 2020 veel energielabels zijn uitgegeven en dat het grootste deel van B en C zijn. Er zijn heel weinig labels van A+ of beter. Ook zie je dat in de loop van tijd relatief steeds minder labels van lagere score worden uitgegeven.

Integraal bevragen

Hieronder zien we een resultaat waarin we de energielabels per postcodegebied kunnen weergeven. Hiervoor maken we gebruik van de data van het Kadaster om de koppeling te kunnen leggen tussen verblijfsobjecten en nummeraanduidingen. Zoals hierboven al genoemd zijn de energielabels gekoppeld aan verblijfsobjecten maar zijn postcodegebieden gekoppeld aan nummeraanduidingen. De koppeling tussen verblijfsobjecten en nummeraanduidingen halen we op via het Kadaster. Op deze manier slaan we de brug tussen drie datasets in 1 query: energielabels (RVO), verblijfsobjecten en nummeraanduidingen (Kadaster) en het standaardjaarverbruik (Liander).

In de bovenstaande visualisatie zien we de verschillende databronnen per postcode samenkomen. Je kunt een postcode invullen die in Arnhem voorkomt (en data bevat) om een ander gebied te bekijken. Als je op het gebied klikt zie je dat er een opsomming van deze data wordt weergegeven. Hiervoor gebruiken we de verschillende bronnen en kunnen we deze in 1 query samen bevragen.

Externe tooling

Tot zover zijn alle visualisaties gemaakt rechtstreeks op het SPARQL endpoint in de triple store. Uiteindelijk kom je in de situatie waar je ook nog analyse wilt doen op je data die buiten de database gedaan moeten worden. Dit is vergelijkbaar met bijvoorbeeld andere databases waarbij eerst een SQL query wordt uitgevoerd om data op te halen en vervolgens te verwerken. Zo kunnen we ook in python een analyse doen met als bron een SPARQL query.

Door middel van een SPARQL library in python kunnen we gemakkelijk een query defineren en parameteriseren om zo data op te halen en verder met python te interpreteren. Het resultaat is in een JSON formaat en kan vervolgens verder worden geanalyseerd. Hieronder zie je een visualisatie van een simpele correlatie analyse gemaakt in python. De gebruikte data komt rechtstreeks vanuit de triple-store en bevat dus weer de gegevens van de postcodegebieden in Arnhem. Het is leuk om te zien dat er een paar lichte correlaties zichtbaar worden die we verwachten, namelijk een hoger bouwjaar (nieuwere woning) correleert negatief met het standaardjaarverbruik (lagere energieverbruik). Ook correleert energielabel A relatief sterk met nieuwere woningen.

<img src=https://iamlabdemo.triply.cc/Alliander/Open-datasets/assets/6411c4bbdefae40beee5d006>