Taalterm: Wet van Zipf

De taal­term van deze week, de wet van Zipf, kijkt graag tv. Vooral van de “Rank­ing the Some­thing” programma’s is hij een groot fan. Dat is ook niet vreemd, want hij heeft zelf een belan­grijke rank­ing op zijn naam staan.

Definitie

De wet van Zipf beschri­jft een taalkundig fenomeen waar­bij het woord dat in een taal het meest gebruikt wordt ongeveer twee keer zo vaak voorkomt als de num­mer twee, drie keer zo vaak als de num­mer drie, etc.

Dit geldt ook voor de woord­fre­quen­tie in lange tek­sten, en het geldt niet alleen in het Ned­er­lands, maar voor alle talen.

Deze sta­tis­tis­che dis­trib­u­tie – waar­bij de ran­gorde de fre­quen­tie voor­spelt (de “Zip­fi­aanse verdel­ing”) – komt niet alleen in de taal voor. Je ziet haar bijvoor­beeld ook als je kijkt naar de bevolk­ings­g­rootte van ste­den in som­mige lan­den, de omvang van bedri­jven, de hoeveel­heid mensen die naar dezelfde tv-zen­der kijken en inkomensverdelin­gen (bron).

Voorbeeld

Als je de verdel­ing van de wet van Zipf in een grafiek weergeeft, dan heeft het eerste item de hoog­ste score, het tweede 1/2 daar­van, het derde 1/3 daar­van, en zo voort. Het is een lijn die (van links naar recht) eerst heel snel daalt, maar daar­na steeds vlakker en vlakker wordt.

Tel je ver­vol­gens de fre­quen­tie van de woor­den in een dik boek en zet je ze uit in een grafiek, dan zie je dat die verdel­ing min of meer over­lapt met de lijn in de Zipf-grafiek.

Hieron­der zie je een voor­beeld op basis van de roman Moby Dick van Her­man Melville:

Etymologie

De wet van Zipf ontleent zijn naam aan de Amerikaanse lin­guïst George Kings­ley Zipf (1902–1950). Hij was niet de eerste die dit patroon zag: de Franse stenograaf Jean-Bap­tiste Estoup had het al eerder gespot, net als de Duitse natu­urkundi­ge Felix Auer­bach. Maar het was Zipf die rond 1935 als eerste een serieuze poging waagde om het fenomeen te verklaren.

Weetje

De kroon op het werk van Zipf is pas onlangs gezet, en wel door een Ned­er­landse taal­weten­schap­per, Sander Lestrade. In 2017 pub­liceerde hij onder­zoek waarin hij aan­toont dat de regels voor zins­bouw, de gram­mat­i­ca en de woord­beteke­nis (semantiek) samen dit taalfenomeen veroorzaken.

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *