Statistische Struktur

Die statistische Struktur der Sprache

Es gibt interessante statistische Untersuchungen, mit welcher Häufigkeit Wörter, Buchstaben, Silben, usw. vorkommen.

Anhand der Häufigkeitswerte läßt sich ermitteln, daß ihre Verwendung statistischen Gesetzmäßigkeiten unterliegt. Dabei hat sich herausgestellt, daß viele statistische Eigenschaften allen Sprachen gemein sind: Diese werden manchmal als statistische Gesetze oder als Universalien bezeichnet.

Statistische Gesetzmäßigkeiten sind unabhängig von Sprecher, Autor oder Thema. In gewissem Sinne haben wir zwar die Freiheit, zu sagen, was immer wir wollen, doch in Wirklichkeit entspricht unser sprachliches Verhalten meist weitgehend statistischen Erwartungen.

Wir können mit großer Sicherheit sagen, daß im Englischen auf ein q ein u folgt (trotz einiger Ausnahmen wie Iraq).
Weniger offenkundig aber ebenso sicher ist, daß mehr als 60 Prozent unserer mündlichen Äußerungen aus Konsonanten bestehen und nur knapp 40 Prozent aus Vokalen.
Etwa ein Drittel der Silben der englischen Umgangssprache haben die Form Konsonant + Vokal + Konsonant, wie in cat.
Und die 50 meistgebrauchten Wörter einer (jeden) Sprache machen etwa 45 % jedes geschriebenen Textes aus.

Das Erstaunliche an solchen Tatsachen ist, daß wir unsere Sprache nicht bewußt kontrollieren, um die Aufrechterhaltung dieser statistischen Verteilung zu gewährleisten. Dies wäre ohnehin unmöglich. Wir stoßen in jeder umfangreicheren Probe unserer eigenen Äußerungen oder Texte auf die gleiche grundlegende statistische Regelmäßigkeit, ohne daß wir uns absichtlich darum bemüht hätten. Die Erforschung dieser Gesetzmäßigkeiten und ihrer Faktoren ist das Anliegen der statistischen Linguistik.

Buchstabenhäufigkeit

Einer der augenscheinlichsten Belege der statistischen Regelhaftigkeit einer Sprache ist die Häufigkeit, mit der die Buchstaben des Alphabets vorkommen.

Die aufgeführten Häufigkeitswerte beziehen sich auf das (amerikanische) Englisch und wurden bei einer Untersuchung folgender Genres ermittelt:

Presseberichte,
religiöse Texte,
wissenschaftliche Literatur,
allgemeine Belletristik.
findet sich die durchschnittliche Rangordnung, ermittelt aus einer Übersicht über 15 Textkategorien mit insgesamt mehr als einer Million Wörtern.
gibt die von Samuel Morse (1791-1872) bei der Erstellung des Morsealphabets benutzte Reihenfolge an. Seine Häufigkeitshierarchie basierte auf der Anzahl von Typen, die er in einer Druckerei vorfand (Spalte g).

Die Ermittlung der Buchstabenhäufigkeit hat eine große Bedeutung u.a. in der Kryptologie (Verschlüsselung von Texten).

So wird es einem Verschlüsseler wenig nützen, wenn er die einzelnen Buchstaben einfach durch andere Symbole ersetzt. Denn es ist einer der ersten Schritte bei der Entzifferung verschlüsselter Texte, die Häufigkeit der einzelnen Symbole zu zählen.

Vorausgesetzt, daß das vorliegende Material umfangreich genug ist (so daß statistische Aussagen möglich sind), kann man dann bereits einige Buchstaben vergeben und andere ausschließen.

Mit großer Wahrscheinlichkeit wird es sich bei dem häufigsten Buchstaben (und zwar in sämtlichen romanischen und germanischen Sprachen gleichermaßen!) um den Buchstaben „e“ handeln.

*(a)*	*(b)*	*(c)*	*(d)*	*(e)*	*(f)*	*(g)*
e	e	e	e	e	e	12 000
t	t	t	t	t	t	9 000
a	i	a	a	a	a	8 000
o	a	i	o	o	i	8 000
n	o	o	h	i	n	8 000
i	n	n	n	n	o	8 000
s	s	s	i	s	s	8 000
r	r	r	s	r	h	6400
h	h	h	r	h	r	6200
l	l	l	d	l	d	4 400
d	d	c	I	d	I	4 000
c	c	d	u	c	u	3 400
m	u	u	w	u	c	3 000
u	m	m	m	m	m	3 000
f	f	f	c	f	f	2 500
p	p	p	g	p	w	2 000
g	y	g	f	g	y	2 000
w	w	y	y	w	g	1 700
y	g	b	p	y	p	1 700
b	b	w	b	b	b	1 600
v	v	v	k	v	v	1 200
k	k	k	v	k	k	800
j	x	x	j	x	q	500
x	j	q	x	j	j	400
q	q	j	z	q	x	400
z	z	z	q	z	z	200

Worthäufigkeit

Die Bedeutung der Unterscheidung zwischen geschriebener und gesprochener Sprache ist augenfällig, wenn man die Häufigkeit von l, yes und well im gesprochenen Englisch betrachtet.

Auffällig ist auch, wie oft deutsche Zeitungen in den sechziger Jahren (in der die Untersuchung durchgeführt wurde) das Wort DDR verwendeten.

Derartige Wortlisten haben auch eine große Bedeutung bei der Zusammenstellung von Wörterbüchern, insbes. mit sog. “Grundwortschatz” und “Aufbauwortschatz”.

Da die häufigsten 2.000 Wörter bereits rund 90 % des Wortschatzes einer (jeden) Sprachen ausmachen und die 4.000 häufigsten Wörter rund 97 %, ist es natürlich wichtig zu wissen, welches die 4.000 häufigsten Wörter sind.

Generell wollen die Verlage, die Wörterbücher herausgeben, ja nicht “irgendwelche” Wörter darin aufnehmen, sondern - je nach Größe und Anspruch des Wörterbuches - die 4.000 oder 30.000 oder 100.000 häufigsten.

Rang	Französisch	Deutsch	geschrieb. Englisch	gesproch. Englisch
1	de	der	the	the
2	le (Art.)	die	of	and
3	la (Art.)	und	to	I
4	et	in	in	to
5	les	des	and	of
6	des	den	a	a
7	est	zu	for	you
8	un (Art.)	das	was	that
9	une (Art.)	von	is	in
10	du	für	that	it
11	que (Pron.)	auf	on	is
12	dans	mit	at	yes
13	il	sich	he	was
14	ä	daß	with	this
15	en	dem	by	but
16	ne	sie	be	on
17	on	ist	it	well
18	qui	im	an	he
19	au	eine	as	have
20	se	DDR	his	for

Silbenhäufigkeit

Die bei weitem häufigsten Wörter sind einsilbig, wie die nebenstehende Statistik zeigt.

Zweisilbige Wörter sind schon häufiger, und unter den 800 häufigsten Wörtern fanden sich nur wenige mit drei oder mehr Silben.

Die genauen Zahlen (Verhältnis zwischen Silbenzahl und Häufigkeit von rund 11 Millionen deutschen Wörtern) ergeben sich aus dieser Tabelle:

Silben pro Wort	Häufigkeit der Wörter	Anteil (%) am Gesamtkorpus
1	5.426.326	49,76
2	3.156.448	28,94
3	1.410.494	12,93
4	646.971	5,93
5	187.738	1,72
6	54.436	0,50
7	16.993	insgesamt: 0,22
8	5.038
9	1.225
10	461
11	59
12	35
13	8
14	2
15	1

Eigener Test

Die obigen Aussagen lassen sich leicht überprüfen: Man nehme einen x-beliebigen Text (gleich welcher Sprache) und ordne die Wörter nach abnehmender Häufigkeit.

Der statistischen Vorhersage zufolge machen die ersten 15 Wörter 25 % des Textes aus, die ersten 100 Wörter 60 % und die ersten Tausend 85 %. Mit den ersten 4.000 sind dann 97,5 % des Textes erfaßt.

(Bei kurzen Textauszügen kann es naturgemäß – entsprechend den Gesetzen der Statistik – zu erheblichen Abweichungen kommen.)