In der Statistik ist das Testen von Hypothesen ein Eckpfeiler, der es Forschern und Datenanalysten ermöglicht, fundierte Entscheidungen auf der Grundlage von Daten zu treffen. Im Wesentlichen geht es bei der Hypothesenprüfung darum, die Wahrscheinlichkeit zu bestimmen, mit der eine bestimmte Hypothese über einen Datensatz wahr ist. Es handelt sich um eine Methode zur Annahme oder Ablehnung von Hypothesen, die häufig zu neuen Einsichten und Erkenntnissen führt.

Wie Hypothesen getestet werden

Das Testen von Hypothesen ist ein grundlegendes statistisches Instrument, das es ermöglicht, auf der Grundlage von Stichprobendaten Rückschlüsse über eine Grundgesamtheit (Population) zu ziehen. Im Kern geht es darum, zwei konkurrierende Hypothesen zu formulieren: die Nullhypothese (H0) und die Alternativhypothese (H1).

Die Nullhypothese H0 stellt eine Grundannahme oder den Status quo dar. Sie besagt, dass es keinen Effekt oder keinen Unterschied gibt, z.B. «Es gibt keinen Unterschied im Umsatz durch das Verpacken der Brote in nachhaltigen Papiertüten». Im Gegensatz dazu steht die Alternativhypothese H1 für das, was Sie nachweisen wollen. Sie ist eine Aussage über einen Effekt oder einen Unterschied, z.B. «Es gibt einen signifikanten Unterschied im Umsatz durch das Verpacken der Brote in nachhaltigen Papiertüten».

Um zwischen diesen Hypothesen zu entscheiden, wird oftmals der p-Wert verwendet, eine wichtige statistische Grösse beim Testen von Hypothesen. Der p-Wert gibt die Wahrscheinlichkeit an, mit der unsere Daten beobachtet werden, wenn die Nullhypothese wahr ist. Ein niedriger p-Wert (in der Regel unter 0.05) deutet darauf hin, dass die beobachteten Daten unter der Nullhypothese unwahrscheinlich sind, was dazu veranlasst, die Alternativhypothese in Betracht zu ziehen.

Hypothesentests sind jedoch nicht ohne Risiken, nämlich dann, wenn ein Fehler 1. Art (auch α-Fehler genannt) oder ein Fehler 2. Art (β-Fehler) vorliegt. Ein Fehler vom Typ I oder falsches Positiv liegt vor, wenn fälschlicherweise eine wahre Nullhypothese verworfen wird. Ein Fehler vom Typ I wäre zum Beispiel die Schlussfolgerung, dass ein neues Medikament wirksam ist, obwohl dies nicht der Fall ist. Dieser Fehlertyp kann zu falschem Vertrauen in unwirksame Behandlungen oder Interventionen führen.

Umgekehrt liegt ein Fehler vom Typ II oder ein falsches Negativ vor, wenn eine falsche Nullhypothese nicht verworfen wird. Dies wäre so, als würde man die Wirksamkeit eines nützlichen Medikaments nicht erkennen. Typ-II-Fehler können dazu führen, dass Gelegenheiten für nützliche Interventionen oder Behandlungen verpasst werden.

Realität
kein Effekt Effekt
Studienergebnisse kein Effekt β-Fehler
Type II-Error
False Negative
Effekt α-Fehler
Type I-Error
False Positive

Die Teststärke (statistische Power) beschreibt die Fähigkeit eines Tests, einen in der Stichprobe tatsächlich vorhandenen Effekt zu erkennen. Die Power errechnet sich aus 1 minus dem Beta-Fehler (Fehler 2. Art), z.B. 1 – 0.2 = 0.8 (80%). Je nach Quelle wird die anzustrebende Teststärke zwischen 80% und 95% angegeben bzw. der β-Fehler mit 5 bis 20%. Dies hängt insbesondere mit der Bedeutung des Beta-Fehlers zusammen. Bei einem Schwangerschaftstest ist z.B. ein niedriger Prozentsatz des Fehlers zweiter Art wichtiger als ein niedriger Alpha-Fehler. Für das Berechnen der statistischen Power gibt es Software. Ein kostenloses Tool der Uni Düsseldorf ist G*Power und kann von der Website heruntergeladen werden.

Das Gleichgewicht zwischen Alpha- und Beta-Fehler ist entscheidend. Das Signifikanzniveau, das häufig auf 0.05 bzw. 5% festgelegt wird, trägt dazu bei, die Rate der Fehler 1. Art zu kontrollieren. Eine Verringerung der Fehler vom Typ I kann jedoch die Wahrscheinlichkeit von Fehlern vom Typ II erhöhen. Bei der statistischen Analyse geht es daher nicht nur um die Anwendung einer Formel, sondern um eine sorgfältige Abwägung des Kontexts, der Daten und der möglichen Auswirkungen der beiden Fehlertypen.

Hypothesentest durchführen

Die R-Programmierung mit ihrem umfassenden Angebot an statistischen Werkzeugen ermöglicht eine erprobte Anwendung von Hypothesentests. R führt nicht nur die notwendigen Berechnungen durch, sondern hilft auch bei der Visualisierung von Daten, die zusätzliche Erkenntnisse liefern können.

Datensatz verstehen

Der Datensatz «brot» simuliert den Umsatz von dunklem Brot. Die Gruppe «ctrl» enthält den Umsatz mit der herkömmlichen Verpackung und die Gruppe «trt» den Umsatz mit einer neuen und nachhaltigen, weil kompostierbaren, Verpackungsvariante.

library(tidyverse)

set.seed(666)

stichprobe <- 50
umsatz_standard <- 7.20
umsatz_nachhaltig <- 7.90

brot_ctrl <- rnorm(n = stichprobe, mean = umsatz_standard, sd = 0.72)
brot_trt <- rnorm(n = stichprobe, mean = umsatz_nachhaltig, sd = 1.19)

brot <- data.frame(ctrl = brot_ctrl, trt = brot_trt) %>%
  stack() %>%
  rename(umsatz = values, gruppe = ind)


Der erste Schritt eines Hypothesentests besteht darin, sich einen Überblick über den Datensatz zu verschaffen.

> head(brot)

  umsatz   gruppe
1 7.742384 ctrl
2 8.650335 ctrl
3 6.944303 ctrl
4 8.660281 ctrl
5 5.603850 ctrl
6 7.746045 ctrl

> glimpse(brot)
Rows: 100
Columns: 2
$ umsatz 7.742384, 8.650335, 6.944303, 8.660281, 5.603850, 7.746045, 6.259547, 6.622186, 5.909587, 7.169737, 8.748031, 5.925434, 7…
$ gruppe ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, ctrl, c…

> summary(brot)

  umsatz   gruppe
Min.: 4.398 ctrl: 50
1st Qu.: 6.811 trt: 50
Median: 7.405
Mean: 7.486
3rd Qu.: 8.123
Max.: 10.202


Der Code liefert eine Zusammenfassung, welche die grundlegende Struktur der Daten zeigt. Dazu gehören Gruppen und Umsätze.

Um die Unterschiede zwischen den beiden Gruppen zu veranschaulichen, hilft ein einfaches Diagramm.

brot %>%
  ggplot(mapping = aes(x = gruppe, y = umsatz)) +
  geom_boxplot() +
  theme_minimal() +
  labs(title = "Umsatz ohne / mit nachhaltiger Verpackung",
    x = "Gruppe",
    y = "Umsatz")


Der Code erzeugt einen Boxplot, ein nützliches Werkzeug, um Verteilungen zwischen Gruppen zu vergleichen. Mit dem Boxplot lassen sich der Median, die Quartile und eventuelle Ausreisser in den Daten visuell darstellen.

Hypothesen formulieren

  • Nullhypothese (H0): Es gibt keinen Unterschied im Umsatz durch das Verpacken der Brote in nachhaltigen Papiertüten.
  • Alternativhypothese (H1): Es gibt einen signifikanten Unterschied im Umsatz durch das Verpacken der Brote in nachhaltigen Papiertüten.

Hypothesen sind Behauptungen über die Wirklichkeit (Population), die über den bisherigen Kenntnisstand hinausgehen. Was zeichnet eine gute Hypothese aus? Es gibt drei bzw. vier kritische Eigenschaften, die eine gute Hypothese ausmachen:

  • Präzise und widerspruchsfreie Formulierung
  • Widerlegbarkeit: Eine gute Hypothese muss bestätigt oder widerlegt werden können.
  • Operationalisierbarkeit: Wie kann die Behauptung anhand der drei Gütekriterien (Objektivität, Reliabilität, Validität) gemessen werden?
  • (Begründbarkeit): Legen Sie transparent dar, auf welcher Grundlage Sie die Hypothesen formuliert haben, z.B. Literatur oder eigene Beobachtungen.

Hypothesentest durchführen

Bevor ein Hypothesentest durchgeführt wird, muss das Signifikanzniveau α bestimmt werden. Häufig wird ein Signifikanzniveau von 5% (α = 0.05) gewählt, für strengere Tests oder bei grossen Datenmengen empfiehlt sich jedoch ein Signifikanzniveau von 1% (α = 0.01).

Führen Sie einen ungerichteten t-Test durch, um die durchschnittlichen Umsätze zwischen den beiden Gruppen zu vergleichen. Ein t-Test eignet sich für den Vergleich der Mittelwerte zweier unabhängiger Gruppen.

result <- t.test(umsatz ~ gruppe, data = brot)


Diese Codezeile führt einen t-Test durch, der die Gruppe «ctrl» mit der Gruppe «trt» vergleicht.

Berichterstattung der Ergebnisse

> print(result)
Welch Two Sample t-test

data: umsatz by gruppe
t = -3.4305, df = 90.301, p-value = 0.0009104
alternative hypothesis: true difference in means between group ctrl and group trt is not equal to 0
95 percent confidence interval:
-1.0502643 -0.2799406
sample estimates:
mean in group ctrl
7.153342
mean in group trt
7.818444

# Werte einzeln ausgeben
> result$p.value # p-Wert
[1] 0.0009103775
> result$conf.int # Konfidenzintervall
[1] -1.0502643 -0.2799406
attr(,"conf.level")
[1] 0.95


Ergebnisse interpretieren

Die Ausgabe gibt an, ob der Unterschied zwischen den Mittelwerten statistisch signifikant ist. Ein p-Wert kleiner als 0.05 (alternativ 0.01 oder 0.1) bedeutet, dass der Unterschied signifikant ist und die Nullhypothese zugunsten der Alternative verworfen werden kann. Ist der p-Wert jedoch grösser als 0.05, gibt es nicht genügend Beweise, um die Nullhypothese abzulehnen.

Bewährte Praktiken und Überlegungen

Bei der Durchführung von Hypothesentests ist darauf zu achten, dass die Testannahmen erfüllt sind. Für den t-Test sind dies Annahmen wie Normalität und Homogenität der Varianzen. In der Praxis ist es auch wichtig, die Grösse des Effekts und seine praktische Bedeutung zu berücksichtigen, nicht nur den p-Wert. Statistische Signifikanz bedeutet nicht unbedingt praktische Relevanz.

library(effectsize)

# Effektgrösse Cohen's d
> effectsize::cohens_d(umsatz ~ gruppe, data = brot)[, "Cohens_d"]
[1] -0.6860919


Nach der Cohen’schen Konvention wird bei einem Wert von -0.686 von einem mittleren Effekt gesprochen.

Tipps für effektive Hypothesentests in R

Hypothesentests sind ein leistungsfähiges statistisches Analysewerkzeug, aber ihre Wirksamkeit hängt von der richtigen Anwendung und Interpretation ab. Nachfolgend finden Sie einige wichtige Tipps, um sicherzustellen, dass Sie das Beste aus Ihren Hypothesentests in R herausholen.

1. Verstehen Sie Ihre Daten

Machen Sie sich mit Ihrem Datensatz vertraut, bevor Sie mit den Hypothesentests beginnen. Verwenden Sie Techniken der explorativen Datenanalyse (EDA), um die Struktur, die Verteilung und mögliche Probleme in Ihren Daten zu verstehen.

Jeder statistische Test basiert auf Annahmen (wie z.B. Normalität, Unabhängigkeit oder gleiche Varianz). Stellen Sie sicher, dass diese Voraussetzungen erfüllt sind, bevor Sie fortfahren. R-Pakete zur Visualisierung, z.B. ggplot2, können bei der Bewertung dieser Annahmen helfen.

2. Wählen Sie den richtigen Test

Für unterschiedliche Datentypen und Zielsetzungen sind unterschiedliche Tests vorgesehen. Verwenden Sie beispielsweise den t-Test für den Vergleich von Mittelwerten, den Chi-Quadrat-Test für kategoriale Daten und die ANOVA für den Vergleich von mehr als zwei Gruppen.

Wenn Ihre Daten die Annahmen für parametrische Tests nicht erfüllen, sollten Sie nichtparametrische Alternativen wie den Mann-Whitney-U-Test oder den Wilcoxon-Test in Betracht ziehen.

3. Ergebnisse verantwortungsbewusst interpretieren

Der p-Wert ist eine wichtige, aber nicht die einzige Determinante Ihrer Ergebnisse. Berücksichtigen Sie die Effektgrösse, die Konfidenzintervalle und die praktische Bedeutung Ihrer Ergebnisse.

Widerstehen Sie der Versuchung, Ihre Analyse oder Daten zu manipulieren, um einen signifikanten p-Wert zu erreichen. Diese unethische Praxis kann zu falschen Schlussfolgerungen führen.

4. Resultate klar kommunizieren

Wenn Sie über Ihre Ergebnisse berichten, sollten Sie den verwendeten Test, die überprüften Hypothesen und die vorgenommenen Interpretationen darlegen.

Grafische Darstellungen Ihrer Ergebnisse können intuitiver und informativer sein als Zahlen allein. Nutzen Sie die Diagrammfunktionen von R, um Ihre statistischen Ergebnisse zu ergänzen.

Fazit

Zusammenfassend lässt sich sagen, dass das Testen von Hypothesen eine leistungsfähige Methode ist, um datenbasierte Entscheidungen zu treffen. Sie erfordert ein Verständnis für statistische Konzepte wie Null- und Alternativhypothesen, p-Werte und die Arten von Fehlern, die auftreten können. Mit R können Sie diese Konzepte einfach anwenden, um aussagekräftige Schlussfolgerungen aus Ihren Daten zu ziehen.