Statistische Struktur

Die statistische Struktur der Sprache


Es gibt interessante statistische Untersuchungen, mit welcher Häufigkeit Wörter, Buchstaben, Silben, usw. vorkommen.

Anhand der Häufigkeitswerte läßt sich ermitteln, daß ihre Verwendung statistischen Gesetzmäßigkeiten unterliegt. Dabei hat sich herausgestellt, daß viele statistische Eigenschaften allen Sprachen gemein sind: Diese werden manchmal als statistische Gesetze oder als Universalien bezeichnet.

Statistische Gesetzmäßigkeiten sind unabhängig von Sprecher, Autor oder Thema. In gewissem Sinne haben wir zwar die Freiheit, zu sagen, was immer wir wollen, doch in Wirklichkeit entspricht unser sprachliches Verhalten meist weitgehend statistischen Erwartungen.

Wir können mit großer Sicherheit sagen, daß im Englischen auf ein q ein u folgt (trotz einiger Ausnahmen wie Iraq).
Weniger offenkundig aber ebenso sicher ist, daß mehr als 60 Prozent unserer mündlichen Äußerungen aus Konsonanten bestehen und nur knapp 40 Prozent aus Vokalen.
Etwa ein Drittel der Silben der englischen Umgangssprache haben die Form Konsonant + Vokal + Konsonant, wie in cat.
Und die 50 meistgebrauchten Wörter einer (jeden) Sprache machen etwa 45 % jedes geschriebenen Textes aus.

Das Erstaunliche an solchen Tatsachen ist, daß wir unsere Sprache nicht bewußt kontrollieren, um die Aufrechterhaltung dieser statistischen Verteilung zu gewährleisten. Dies wäre ohnehin unmöglich. Wir stoßen in jeder umfangreicheren Probe unserer eigenen Äußerungen oder Texte auf die gleiche grundlegende statistische Regelmäßigkeit, ohne daß wir uns absichtlich darum bemüht hätten. Die Erforschung dieser Gesetzmäßigkeiten und ihrer Faktoren ist das Anliegen der statistischen Linguistik.

Buchstabenhäufigkeit


Einer der augenscheinlichsten Belege der statistischen Regelhaftigkeit einer Sprache ist die Häufigkeit, mit der die Buchstaben des Alphabets vorkommen.

Die aufgeführten Häufigkeitswerte beziehen sich auf das (amerikanische) Englisch und wurden bei einer Untersuchung folgender Genres ermittelt:

  1. Presseberichte,
  2. religiöse Texte,
  3. wissenschaftliche Literatur,
  4. allgemeine Belletristik.
  5. findet sich die durchschnittliche Rangordnung, ermittelt aus einer Übersicht über 15 Textkategorien mit insgesamt mehr als einer Million Wörtern.
  6. gibt die von Samuel Morse (1791-1872) bei der Erstellung des Morsealphabets benutzte Reihenfolge an. Seine Häufigkeitshierarchie basierte auf der Anzahl von Typen, die er in einer Druckerei vorfand (Spalte g).


Die Ermittlung der Buchstabenhäufigkeit hat eine große Bedeutung u.a. in der Kryptologie (Verschlüsselung von Texten).

So wird es einem Verschlüsseler wenig nützen, wenn er die einzelnen Buchstaben einfach durch andere Symbole ersetzt. Denn es ist einer der ersten Schritte bei der Entzifferung verschlüsselter Texte, die Häufigkeit der einzelnen Symbole zu zählen.

Vorausgesetzt, daß das vorliegende Material umfangreich genug ist (so daß statistische Aussagen möglich sind), kann man dann bereits einige Buchstaben vergeben und andere ausschließen.

Mit großer Wahrscheinlichkeit wird es sich bei dem häufigsten Buchstaben (und zwar in sämtlichen romanischen und germanischen Sprachen gleichermaßen!) um den Buchstaben „e“ handeln.

(a) (b) (c) (d) (e) (f) (g)
e e e e e e 12 000
t t t t t t 9 000
a i a a a a 8 000
o a i o o i 8 000
n o o h i n 8 000
i n n n n o 8 000
s s s i s s 8 000
r r r s r h 6400
h h h r h r 6200
l l l d l d 4 400
d d c I d I 4 000
c c d u c u 3 400
m u u w u c 3 000
u m m m m m 3 000
f f f c f f 2 500
p p p g p w 2 000
g y g f g y 2 000
w w y y w g 1 700
y g b p y p 1 700
b b w b b b 1 600
v v v k v v 1 200
k k k v k k 800
j x x j x q 500
x j q x j j 400
q q j z q x 400
z z z q z z 200

Worthäufigkeit


Die Bedeutung der Unterscheidung zwischen geschriebener und gesprochener Sprache ist augenfällig, wenn man die Häufigkeit von l, yes und well im gesprochenen Englisch betrachtet.


Auffällig ist auch, wie oft deutsche Zeitungen in den sechziger Jahren (in der die Untersuchung durchgeführt wurde) das Wort DDR verwendeten.

Derartige Wortlisten haben auch eine große Bedeutung bei der Zusammenstellung von Wörterbüchern, insbes. mit sog. “Grundwortschatz” und “Aufbauwortschatz”.


Da die häufigsten 2.000 Wörter bereits rund 90 % des Wortschatzes einer (jeden) Sprachen ausmachen und die 4.000 häufigsten Wörter rund 97 %, ist es natürlich wichtig zu wissen, welches die 4.000 häufigsten Wörter sind.

Generell wollen die Verlage, die Wörterbücher herausgeben, ja nicht “irgendwelche” Wörter darin aufnehmen, sondern - je nach Größe und Anspruch des Wörterbuches - die 4.000 oder 30.000 oder 100.000 häufigsten.

Rang Französisch Deutsch geschrieb. Englisch gesproch. Englisch
1 de der the the
2 le (Art.) die of and
3 la (Art.) und to I
4 et in in to
5 les des and of
6 des den a a
7 est zu for you
8 un (Art.) das was that
9 une (Art.) von is in
10 du für that it
11 que (Pron.) auf on is
12 dans mit at yes
13 il sich he was
14 ä daß with this
15 en dem by but
16 ne sie be on
17 on ist it well
18 qui im an he
19 au eine as have
20 se DDR his for
Häufigkeit

Silbenhäufigkeit

Die bei weitem häufigsten Wörter sind einsilbig, wie die nebenstehende Statistik zeigt.

Zweisilbige Wörter sind schon häufiger, und unter den 800 häufigsten Wörtern fanden sich nur wenige mit drei oder mehr Silben.

Die genauen Zahlen (Verhältnis zwischen Silbenzahl und Häufigkeit von rund 11 Millionen deutschen Wörtern) ergeben sich aus dieser Tabelle:

Silben pro Wort Häufigkeit
der Wörter
Anteil (%) am Gesamtkorpus
1 5.426.326 49,76
2 3.156.448 28,94
3 1.410.494 12,93
4 646.971 5,93
5 187.738 1,72
6 54.436 0,50
7 16.993 insgesamt: 0,22
8 5.038
9 1.225
10 461
11 59
12 35
13 8
14 2
15 1

Eigener Test

Die obigen Aussagen lassen sich leicht überprüfen: Man nehme einen x-beliebigen Text (gleich welcher Sprache) und ordne die Wörter nach abnehmender Häufigkeit.

Der statistischen Vorhersage zufolge machen die ersten 15 Wörter 25 % des Textes aus, die ersten 100 Wörter 60 % und die ersten Tausend 85 %. Mit den ersten 4.000 sind dann 97,5 % des Textes erfaßt.

(Bei kurzen Textauszügen kann es naturgemäß – entsprechend den Gesetzen der Statistik – zu erheblichen Abweichungen kommen.)