Het regeerakkoord doorgelicht met Natural Language Processing
Deze middag werd het regeerakkoord van de toekomstige Vlaamse regering gepubliceerd. Het gaat over een verzameling van tientallen hoofdstukken die steeds uit ongeveer tien bladzijden bestaan en die thematisch geclusterd zijn op onderwerpen als justitie, onderwijs en cultuur. Omdat niet iedereen de tijd heeft om honderden pagina's te doorploegen, zochten we naar een oplossing.
Op basis van sentimentanalyse bouwden we een heatmap die toont hoe positief of negatief de politici elk onderwerp beschrijven. Hiervoor gebruikten we natural language processing, een tak binnen de artificiële intelligentie die zich bezighoudt met het begrijpen van taal.
We schreven met de programmeertaal Python een eigen script waarbij we verschillende tools van de Google Cloud NLP API bijeenbrengen. Om de tekst vervolgens te analyseren gebruikten we eerst Google Translate - omdat het systeem vooralsnog geen Nederlandse teksten begrijpt - waardoor er een beperkt kwaliteitsverlies was.
Dit was het eerste resultaat van ons onderzoek. Iedere rij is een ander hoofdstuk en ieder blokje is een aparte alinea binnen dat hoofdstuk. Hoe groener, hoe positiever de bewoordingen, hoe roder, hoe negatiever. Omdat dit nogal nietszeggend is, zijn we per hoofdstuk gaan clusteren, waarna we dit resultaat kregen:
Bij deze thematische clustering valt al snel op in welke hoofdstukken positieve woorden gebruikt worden en bij welke dat minder het geval is. Al wie morgen op kantoor wil kunnen meepraten over het regeerakkoord zonder zich door alle pagina's te moeten worstelen: graag gedaan.