TVDW: Wet van Zipf

De taalterm van deze week, de wet van Zipf, kijkt graag tv. Vooral van de “Ranking the Something” programma’s is hij een groot fan. Dat is ook niet vreemd, want hij heeft zelf een belangrijke ranking op zijn naam staan.

Definitie

De wet van Zipf beschrijft een taalkundig fenomeen waarbij het woord dat in een taal het meest gebruikt wordt ongeveer twee keer zo vaak voorkomt als de nummer twee, drie keer zo vaak als de nummer drie, etc.

Dit geldt ook voor de woordfrequentie in lange teksten, en het geldt niet alleen in het Nederlands, maar voor alle talen.

Deze statistische distributie – waarbij de rangorde de frequentie voorspelt (de “Zipfiaanse verdeling”) – komt niet alleen in de taal voor. Je ziet haar bijvoorbeeld ook als je kijkt naar de bevolkingsgrootte van steden in sommige landen, de omvang van bedrijven, de hoeveelheid mensen die naar dezelfde tv-zender kijken en inkomensverdelingen (bron).

Voorbeeld

Als je de verdeling van de wet van Zipf in een grafiek weergeeft, dan heeft het eerste item de hoogste score, het tweede 1/2 daarvan, het derde 1/3 daarvan, en zo voort. Het is een lijn die (van links naar recht) eerst heel snel daalt, maar daarna steeds vlakker en vlakker wordt.

Tel je vervolgens de frequentie van de woorden in een dik boek en zet je ze uit in een grafiek, dan zie je dat die verdeling min of meer overlapt met de lijn in de Zipf-grafiek.

Hieronder zie je een voorbeeld (bron) op basis van de roman Moby Dick van Herman Melville:

Etymologie

De wet van Zipf ontleent zijn naam aan de Amerikaanse linguïst George Kingsley Zipf (1902–1950). Hij was niet de eerste die dit patroon zag: de Franse stenograaf Jean-Baptiste Estoup had het al eerder gespot, net als de Duitse natuurkundige Felix Auerbach. Maar het was Zipf die rond 1935 als eerste een serieuze poging waagde om het fenomeen te verklaren.

Weetje

De kroon op het werk van Zipf is pas onlangs gezet, en wel door een Nederlandse taalwetenschapper, Sander Lestrade. In 2017 publiceerde hij onderzoek waarin hij aantoont dat de regels voor zinsbouw, de grammatica en de woordbetekenis (semantiek) samen dit taalfenomeen veroorzaken.

Wat vind jij?