Statistik & Zahlen · Kapitel 8 von 8

Validität jenseits der Reliabilität

Reliabilität fragt, ob ein Test konsistent misst. Validität fragt etwas anderes: ob er das misst, was er messen soll. Ein Test kann hochreliabel sein und trotzdem systematisch das Falsche erfassen. Dieses Kapitel trennt beide Dimensionen an der Zielscheibe, zeigt die drei klassischen Validitätsaspekte und macht sichtbar, warum die Reliabilität die Validität nach oben deckelt.

Zwei Fragen, nicht eine

Reliabilität und Validität sind zwei verschiedene Qualitätsdimensionen. Die Reliabilität fragt: Misst der Test konsistent? Die Validität fragt etwas anderes: Misst der Test das, was er messen soll? Ein Test kann hochreliabel sein und trotzdem völlig am Ziel vorbeimessen.

Das Bild dazu ist eine Zielscheibe. Reliabilität heißt, dass die Schüsse eng beieinanderliegen. Validität heißt, dass sie das Zentrum treffen. Erst beides zusammen ergibt einen brauchbaren Test.

Aus der Praxis

Ein konsistent falsch messender Test ist gefährlicher als ein unscharfer, weil er Scheinsicherheit erzeugt. Ein Lesetest, der in Wahrheit Konzentration misst, kann hochreliabel sein und trotzdem systematisch falsche Förderentscheidungen begründen.

Die Zielscheibe: eng ist nicht gleich richtig

Regle Reliabilität und Validität getrennt. Die Reliabilität steuert, wie eng die Schüsse streuen. Die Validität steuert, wie nah die Trefferwolke am Zentrum liegt. Probiere die vier Konstellationen aus.

Reliabilität

0,95

Validität

0,90

Zuverlässig und gültig

Eng beieinander und im Zentrum: der Test misst konsistent und das Richtige.

Einfach erklärt

Stell dir zwei Bogenschützen vor. Der eine setzt alle Pfeile dicht nebeneinander, aber in die obere linke Ecke: sehr zuverlässig, aber er trifft nie die Mitte. Der andere streut rund um die Mitte: im Durchschnitt richtig, aber unzuverlässig. Ein guter Test ist der dritte: dicht und mittig.

Drei Blickwinkel auf Validität

Inhalt

Inhaltsvalidität

Decken die Items das Konstrukt repräsentativ ab? Urteil durch fachliche Expertise.

Kriterium

Kriteriumsvalidität

Hängt der Testwert mit einem externen Kriterium zusammen, das er abbilden soll?

Konstrukt

Konstruktvalidität

Misst der Test das gemeinte Konstrukt? Hohe Nähe zu Gleichem, Distanz zu Anderem.

Aus der Praxis

Die moderne Sicht versteht Validität nicht als Eigenschaft des Tests, sondern als Eigenschaft der Interpretation und Verwendung von Testwerten in einem bestimmten Kontext. Derselbe Test kann für die eine Fragestellung valide sein und für eine andere nicht.

Die Reliabilität deckelt die Validität

Die Validität eines Tests kann nicht höher sein als die Wurzel seiner Reliabilität. Ein unzuverlässiger Test verschenkt Validität, selbst wenn er im Kern das Richtige misst.

r(Test, Kriterium) ≤ √( Reliabilität )

Das Streudiagramm zeigt Testwerte (waagerecht) gegen Kriteriumswerte (senkrecht). Regle die Reliabilität des Tests und die wahre Validität, die er bei perfekter Messung hätte. Beobachte, wie die beobachtete Validität hinter der wahren zurückbleibt.

Reliabilität des Tests

0,80

Wahre Validität

0,70

beobachtet

0,63

wahr

0,70

Obergrenze √Rel

0,89

Dreh die Reliabilität herunter: Die beobachtete Validität bricht ein, auch wenn die wahre Validität hoch bleibt. Bei einer Reliabilität von 0,64 liegt die Obergrenze schon bei 0,80, mehr ist mit diesem Test gegen kein Kriterium zu erreichen.

Aus der Praxis

Einen unzuverlässigen Test als „eigentlich valide, nur schlecht gemessen" zu verteidigen, ergibt keinen Sinn. Die Reliabilität ist die harte Decke jeder Validitätsaussage.

Welche Validitätsart ist gemeint?

Drei kurze Szenarien. Überlege erst, dann decke die Auflösung auf.

Ein Schuleignungstest in der ersten Klasse sagt die Schulnoten zwei Jahre später gut vorher.

Ein Dyskalkulietest korreliert hoch mit anderen Rechentests und nur niedrig mit Lesetests.

Eine Fachkommission prüft, ob die Aufgaben alle Lehrplaninhalte des Schuljahrs repräsentativ abdecken.

Ein Test muss zwei Fragen bestehen: Misst er konsistent? Und misst er das Richtige?

Reliabilität ist notwendig, aber nicht hinreichend. Erst die Validität entscheidet, ob ein zuverlässiger Wert auch der richtige ist, und sie gilt immer nur für eine bestimmte Fragestellung und Population, nie ein für alle Mal.