TVDW: Wet van Zipf

De taal­term van deze week, de wet van Zipf, kijkt graag tv. Vooral van de “Rank­ing the Some­thing” programma’s is hij een groot fan. Dat is ook niet vreemd, want hij heeft zelf een belan­grijke rank­ing op zijn naam staan.

Definitie

De wet van Zipf beschri­jft een taalkundig fenomeen waar­bij het woord dat in een taal het meest gebruikt wordt ongeveer twee keer zo vaak voorkomt als de num­mer twee, drie keer zo vaak als de num­mer drie, etc.

Dit geldt ook voor de woord­fre­quen­tie in lange tek­sten, en het geldt niet alleen in het Ned­er­lands, maar voor alle tal­en.

Deze sta­tis­tis­che dis­trib­u­tie – waar­bij de ran­gorde de fre­quen­tie voor­spelt (de “Zip­fi­aanse verdel­ing”) – komt niet alleen in de taal voor. Je ziet haar bijvoor­beeld ook als je kijkt naar de bevolk­ings­g­rootte van ste­den in som­mige lan­den, de omvang van bedri­jven, de hoeveel­heid mensen die naar dezelfde tv-zen­der kijken en inkomensverdelin­gen (bron).

Voorbeeld

Als je de verdel­ing van de wet van Zipf in een grafiek weergeeft, dan heeft het eerste item de hoog­ste score, het tweede 1/2 daar­van, het derde 1/3 daar­van, en zo voort. Het is een lijn die (van links naar recht) eerst heel snel daalt, maar daar­na steeds vlakker en vlakker wordt.

Tel je ver­vol­gens de fre­quen­tie van de woor­den in een dik boek en zet je ze uit in een grafiek, dan zie je dat die verdel­ing min of meer over­lapt met de lijn in de Zipf-grafiek.

Hieron­der zie je een voor­beeld (bron) op basis van de roman Moby Dick van Her­man Melville:

Etymologie

De wet van Zipf ontleent zijn naam aan de Amerikaanse lin­guïst George Kings­ley Zipf (1902–1950). Hij was niet de eerste die dit patroon zag: de Franse stenograaf Jean-Bap­tiste Estoup had het al eerder gespot, net als de Duitse natu­urkundi­ge Felix Auer­bach. Maar het was Zipf die rond 1935 als eerste een serieuze poging waagde om het fenomeen te verk­laren.

Weetje

De kroon op het werk van Zipf is pas onlangs gezet, en wel door een Ned­er­landse taal­weten­schap­per, Sander Lestrade. In 2017 pub­liceerde hij onder­zoek waarin hij aan­toont dat de regels voor zins­bouw, de gram­mat­i­ca en de woord­beteke­nis (semantiek) samen dit taalfenomeen veroorza­k­en.

Wat vind jij?