11. Januar 2026
Immer wieder höre ich: Hilfe, mein Gutachter sagt, meine Variable ist nicht normalverteilt, was soll ich tun?
Keine Panik - dies sind meine Schritte, um das Problem einzuschätzen:
- Wann ist eine Normalverteilung überhaupt nötig?
- Ist eine Normalverteilung überhaupt möglich?
- Wenn nötig und möglich, wie gravierend ist die Abweichung?
…nötig
Hartnäckig halten sich Mythen rund um die Annahme der Normalverteilung.
Z.B. in der linearen Regression:
- Missverständnis 1: die unabhängige Variable muss normalverteilt sein
- Missverständnis 2: die abhängige Variable muss normalverteilt sein
- Richtig: In der linearen Regression sollten die Residuen (annähernd) normalverteilt sein
Missverständnis 1 ist absoluter Quatsch, so sehr dass ich da gar nicht drauf eingehen möchte. Missverständnis 2 hat einen wahren Kern: In der Praxis ist es oft der Fall, dass wenn die abhängige Variable absolut nicht normalverteilt ist, meist die Residuen auch nicht normalverteilt sind. Das bleibt aber abzuwarten, und ist dann an den Residuen direkt testbar, also keine Panik…
…möglich
Die Normalverteilung ist eine kontinuierliche Verteilung, die von minus unendlich bis unendlich geht.
Also: wenn die Variable z.b. die Anzahl an Jahren ist - hier gibt es keine negativen Werte. Folgeschluss: Diese Variable kann strenggenommen gar nicht normalverteilt sein! Das gleiche bei quasi-kontinuierlichen Variablen, wie z.B. der Mittelwert mehrerer 1:5-Items: nicht alle Werte sind hier möglich, dh die beobachtete Verteilung des Mittelwerts ist nicht kontinuierlich. Folgeschluss: Diese Variable kann gar nicht normalverteilt sein!
Wenn die Variable nicht normalverteilt sein kann, ist es relativ witzlos überhaupt zu testen, ob sie es ist, oder?
Wir können schauen, ob die Variable annähernd normalverteilt ist, und es eine tragbare Vereinfachung ist, sie so zu behandeln. Aber ein numerischer Test à la Shapiro-Wilk ist in diesen Fällen eigentlich prinzipiell unlogisch. (siehe dazu mehr in Teil 2).
…wie gravierend ist die Abweichung
Die meisten statistischen Methoden liefern sehr robuste Ergebnisse, auch wenn die Daten nicht perfekt normalverteilt sind: wenn die Verletzung der Annahme nicht eklatant ist, und die Fallzahl ausreichend groß (siehe z.B. hier). D.h. in der Praxis fallen die Auswirkungen leichter Verletzungen oft nur in den Rundungsbereich der dritten Nachkommastelle.
Aber wann ist eine Verletzung so folgenreich, dass wir etwas unternehmen sollten?
Das verlangt etwas Fingerspitzengefühl, das mit der Erfahrung kommt. Gerne schauen wir uns das gemeinsam einmal an, kontaktiere mich hier für ein kostenloses Erstgespräch.
Wenn sonst alles mit der Methodik passt, sehe ich in der Praxis selten gravierende Verletzungen. Anders herum könnte man auch sagen: Meist deutet eine gravierende Verletzung auf tieferliegende Probleme hin, wie z.B.
- das gewählte Modell passt nicht zur abhängigen Variable. Das ist z.B. der Fall, wenn die abhängige Variable ein Count ist, das Modell aber linear
- das Modell ist falsch spezifiziert oder wichtige Variablen wurden nicht gemessen (omitted variable bias)
- unpassendes Messmodell, Datenfehler, Ausreißer oder leverage points
Wenn diese tieferliegenden Probleme gehoben sind, sieht es meist schon eher wie eine Normalverteilung aus. Aber ich prädiere stark dafür, nicht zu kleinlich zu sein. Ein Modell ist immer nur ein Modell, und ein Modell ist immer “falsch”. Falsch in dem Sinne dass es die Realität vereinfacht, aber das soll es ja auch.
Im zweiten Teil zeige ich drei Wege, wie wir mit einer verletzten Normalverteilungsannahme souverän umgehen können.
Deep Dive: Warum es manchmal gut ist, wenn Variablen NICHT normalverteilt sind
Was ist in der Realität wirklich perfekt normalverteilt? Eigentlich nur der reine Zufall, oder?[1] Im Englischen sagt man dazu auch white noise, das Hintergrundrauschen.
Und diese Noise ist auch was wir in einem Modell gezielt einsetzen: Alle statistischen Verfahren separieren mehr oder weniger das “signal” von der “noise”. Man kann auch sagen: die systematische Komponente und der Zufallsfehler.
In der linearen Regression schreiben wir das als \(Y = \beta X + \epsilon\), wo \(\beta X\) der geschätzte Koeffizient \(\times\) die erklärende Variable X ist (signal). Der Fehlerterm \(\epsilon\) (noise) ist normalverteilt, nehmen wir jedenfalls an.
Gedankenexperiment: 1000 Befragte werden zufällig einer Test- oder Kontrollgruppe zugeteilt. Das Outcome Y besteht aus dem Treatmenteffekt = 1.5 plus einem Zufallszug aus der Normalverteilung mit Mittelwert 0, genau so wie wir es in der Regressionsanalyse annehmen würden. Was für eine Verteilung hat Y? Wir simulieren das schnell in R:
library(tidyverse)
N = 1000
x <- rbinom(n = N, size = 1, prob = .5) # x ist eine 0/1 variable, zb Treatment vs Kontrollgruppe
Y = 1.5*x + rnorm(n = N, mean = 0, sd = .5)
data <- data.frame(Y, x)
ggplot(data = data, aes(x=Y)) + geom_histogram()

Die Verteilung von Y ist absolut nicht normal! Bei manchen würden jetzt alle Alarmglocken schrillen. Aber wir wissen, das ist kein Problem! Schauen wir uns an warum:
ggplot(data = data, aes(x=Y, fill=factor(x))) + geom_histogram(position = "identity", alpha = .7)

Wenn wir jetzt die Treatment- und Kontrollgruppe farblich einzeichnen, sehen wir, in der Tat sind es zwei Normalverteilungen, die zusammen Y ergeben (genauso wie wir es in der Simulation festgelegt haben)
Normalverteilt müssen nur die Residuen, unser Fehlerterm sein- Schätzen wir das Modell und überprüfen es gleich:
fit <- lm(Y ~ x, data = data) # regressionsmodell
tibble(resid = residuals(fit)) %>% ggplot(aes(x=resid)) + geom_histogram()

Und das sind die Residuen natürlich auch.
Fazit: Normalverteilt braucht nur der Fehler sein. Wenn es in den Daten eine Struktur gibt (und das wollen wir ja herausfinden), ist die Outcome-Variable oft nicht normalverteilt. Und das ist dann auch gut so!
1: Selbst der IQ-Wert, der immer als Standardbeispiel angeführt wird, ist es eigentlich nicht. Der IQ-Test wurde so konstruiert, dass die Werte annähernd normalverteilt sind. Und wenn wir den Wertebereich anschauen: Logisch macht ein negativer IQ-Wert nicht wirklich Sinn, der laut der IQ-Normalverteilung zwar extrem unwahrscheinlich ist, aber möglich.
file
1↩︎