Reliabilität bei Inhaltsanalysen

Arten der Reliabilitätsanalyse

„Im Grunde beruht jede Reliabilitätsmessung also auf der Idee einer Messwiederholung anhand desselben Materials. Im Falle der Inhaltsanalyse sagt sie eher indirekt etwas über die Qualität des Instruments aus, auf die aus der Sorgfalt der Codierer[:innen] bei seiner Anwendung geschlossen wird.“

Rössler (2017), S. 207

Die Reliabilität ist die Zuverlässigkeit einer Messung und damit ein erstes Indiz für die Validität einer Studie. Es werden die Intercoder-Reliabilität, Intracoder-Reliabilität und Forschenden-Codierenden-Reliabilität unterschieden.

Achtung Unterschied: Im Umfeld der Indexbildung wird der Begriff „Reliabilitätsanalyse“ anders verwendet. Sie ist dort ein Maß für die interne Konsistenz eines Indizes und bemisst die Stärke des Zusammenhangs zwischen den einzelnen Indikatoren, siehe dazu die Seite zur Indexbildung.

Intercoder-Reliabilität

Die Intercoderreliabilität ist die Übereinstimmung zwischen mindestens zwei Codierer:innen. Sie wird im Pretest, vor der Feldphase getestet. Bei längeren Feldphasen ist eine Wiederholung gegen Ende der Erhebungsphase sinnvoll, um Lerneffekte zu kontrollieren.

Intracoder-Reliabilität

Die Intracoderreliabilität ist die Übereinstimmung der Codierung eines Codierenden mindestens zweier Zeitpunkte, nach dem Prinzip der Messwiederholung. In der Regel sind die Zeitpunkte der Pretest und das Ende der Erhebungsphase.

Forschenden-Codierenden-Reliabilität

Die Forschenden-Codierenden-Reliabilität ist die Übereinstimmung von der „Master-Codierung“ der Forscher:innen und den Codierungen der Codierer:innen. Das Vorgehen folgt der Logik der Intercoder-Reliabilität. Ziel ist hier vor allem die Kontrolle der Schulungsqualität.

Reliabilitätsmaße

Um die Reliabilität messbar zu machen, können verschiedene Reliabilitätsmaße verwendet werden. Besonders gängig sind der Reliabilitätskoeffizient nach Holsti und Krippendorffs Alpha.

Reliabilitätskoeffizient nach Holsti

Der Reliabilitätskoeffizient nach Holst ist nur für gleichrangige Ausprägungen einer Kategorie sinnvoll zu berechnen. Die Reliabilität muss zudem nach Kategorien getrennt angegeben werden, eine Zusammenfassung zu einem Wert verfälscht die Güte der Messung, denn es werden für formale Kategorien höhere Reliabilitätswerte als für inhaltliche Kategorien erwartet.

Für jede Kategorie werden immer jeweils die Übereinstimmungen von zwei Codierer:innen gemessen.

C_{R}=\frac{2\cdot C_{Ü}}{C_{A}+C_{B}}
  • CR : Reliabilitätskoeffizient der Codierung
  • CÜ : Zahl übereinstimmender Codierungen
  • CA : Zahl der Codierungen von Codierer:in A (oder Zahl der Codierungen von A zum Zeitpunkt 1)
  • CB : Zahl der Codierungen von Codierer:in B (oder Zahl der Codierung von A zum Zeitpunkt 2)

Bei mehr als zwei Codierer:innen wird mit dem Mittelwert aller paarweisen Übereinstimmungen durch die durchschnittliche Gesamtzahl der Codierungen gerechnet.

Wertebereich

Es sind Werte zwischen 0 und 1 (also: 0% und 100%) möglich.

Interpretationskonvention

Die Bewertung, welche Reliabilität noch akzeptabel ist, hängt von dem Grad der interpretatorischen Tiefe der Kategorie sowie der Anzahl der Abstufungen ab.

Als Richtwert haben sich etabliert:

  • für inhaltliche Kategorien: > 70%, besser > 80%
  • für formale Kategorien nahe 100%

Kritik des Reliabilitätskoeffizienten nach Holsti

Mit weniger Ausprägungen (oder der Zusammenfassung von ähnlichen Ausprägungen) einer Kategorie lässt sich die Reliabilität künstlich steigern. Der Reliabilitätskoeffizient nach Holsti berücksichtigt nicht, dass eine Übereinstimmung Zufall sein kann, diese Chance steigt, wenn es weniger Ausprägungen gibt. Krippendorffs Alpha bietet sich daher oft als Reliabilitätsmaß an, da es weniger Schwächen aufweist als der Reliabilitätsquotient nach Holsti.

Krippendorffs Alpha

Krippendorffs Alpha passt sich an unterschiedliche Skalenniveaus und die Zahl der Ausprägungen an und ermöglicht Vergleiche der Reliabilität verschiedener Kategorien. Zudem ist Krippendorffs Alpha notwendig, wenn nicht nur nominal codiert wird.

\alpha=1-\frac{D_{o}}{D_{e}}
  • Do : ist die beobachtete Nichtübereinstimmung
  • De : ist die zufällig erwartete Nichtübereinstimmung (=Übereinstimmung beim Raten).

Wenn De groß ist, dann ist auch α größer.

Wertebereich

  • α = 1 zeigt perfekte Reliabilität an.
  • α = 0 zeigt, dass keine Reliabilität besteht. Es gibt keinen statistischen Zusammenhang.
  • α < 0 zeigt, dass die Nichtübereinstimmung der Codierungen systematisch ist.

Interpretationskonvention

Als Richtwert für die Reliabilität hat sich ein akzeptables Minimum von 80% etabliert.

Berechnung der Reliabilität mit R

Die Funktion test_icr() führt einen Intercoder-Reliabilitätstest durch, indem sie verschiedene Intercoder-Reliabilitätsschätzungen (z.B. Krippendorffs Alpha) für die einbezogenen Variablen berechnet. Wenn keine Variablen angegeben werden, berechnet die Funktion die Reliabilität für alle Variablen im Datensatz.

Für den fbposts-Datensatz lassen sich so mit der test_icr()-Funktion des tidycomm-Packages Reliabilitätsanalysen durchführen. Der fbposts-Datensatz ist in tidycomm enthalten, es handelt sich dabei um einen von Codierer:innen kommentierten Datensatz, bei dem jeder Facebook-Post (post_id) von mehreren Codierenden (coder_id) kommentiert wurde.

In ihrer schlanken Form umfasst die test_icr()-Funktion die einfache prozentuale Übereinstimmung, die Holsti-Reliabilitätsschätzung und Krippendorffs Alpha. Über optionale Argumente/Parameter können auch andere Reliabilitätsmaße zur Berechnung angegeben werden. Um die Intercoder-Reliabilität für jede Variable im fbposts-Datensatz zu berechnen, wird der folgende Befehl genutzt.

Befehl:

fbposts %>% test_icr(post_id, coder_id)

Ausgabe:

# A tibble: 5 × 8
  Variable     n_Units n_Coders n_Categories Level   Agreement Holstis_CR Krippendorffs_Alpha
* <chr>          <int>    <int>        <int> <chr>       <dbl>      <dbl>               <dbl>
1 type              45        6            4 nominal     1          1                   1    
2 n_pictures        45        6            7 nominal     0.822      0.930               0.880
3 pop_elite         45        6            6 nominal     0.733      0.861               0.339
4 pop_people        45        6            2 nominal     0.778      0.916               0.287
5 pop_othering      45        6            4 nominal     0.867      0.945               0.566

Mögliche (weitere) Argumente der test_icr()-Funktion

  • data: ein Tibble oder ein tdcmm-Modell
  • unit_var: Variable mit Einheitenbezeichnungen
  • coder_var: Variable mit Codierendenkennungen
  • … : Variablen, für die Intercoder-Reliabilitätsschätzungen berechnet werden sollen. Leer lassen, um für alle Variablen (außer unit_var und coder_var) in den Daten zu rechnen.
  • levels: Optionaler benannter Vektor mit den Niveaus der Testvariablen
  • na.omit: Logische Angabe, ob die NA-Werte vor der Berechnung entfernt werden sollen. Der Standardwert ist FALSE.
  • agreement: Logische Angabe, ob die einfache prozentuale Übereinstimmung berechnet werden soll. Der Standardwert ist TRUE.
  • holsti: Logische Variable, die angibt, ob die Holsti-Reliabilitätsschätzung (mittlere paarweise Übereinstimmung) berechnet werden soll. Der Standardwert ist TRUE.
  • kripp_alpha: Logische Variable, die angibt, ob Krippendorffs Alpha berechnet werden soll. Der Standardwert ist TRUE.
  • cohens_kappa: Logische Variable, die angibt, ob Cohen’s Kappa berechnet werden soll. Der Standardwert ist FALSE.
  • fleiss_kappa: Logische Variable, die angibt, ob Fleiss‘ Kappa errechnet werden soll. Standardwert ist FALSE.
  • brennan_prediger: Logische Variable, die angibt, ob Brennan & Prediger’s Kappa berechnet werden soll (Erweiterung auf 3+ Codierer:innen, wie von Eye (2006) vorgeschlagen). Standardwert ist FALSE.
  • lotus: Logischer Wert, der angibt, ob Fretwursts Lotus berechnet werden soll. Standardwert ist FALSE.
  • s_lotus: Logische Variable, die angibt, ob der standardisierte Fretwurst-Lotus (S-Lotus) errechnet werden soll. Der Standardwert ist FALSE.

Die Argumente werden mit einem Komma verkettet. Ausgeschrieben sieht die test_icr()-Funktion so aus:

Befehl:

test_icr(
  fbposts,                # entspricht hier data
  post_id,                # entspricht hier unit_var
  coder_id,               # entspricht hier coder_var
                          #...Platz für Variablen für die Intercoder-Reliabilitätsschätzungen berechnet werden sollen. Wenn leer, dann wird die Reliabilität für alle Variablen berechnet.
  levels = NULL,
  na.omit = FALSE,
  agreement = TRUE,
  holsti = TRUE,
  kripp_alpha = TRUE,
  cohens_kappa = FALSE,
  fleiss_kappa = FALSE,
  brennan_prediger = FALSE,
  lotus = FALSE,
  s_lotus = FALSE
)

Die Ausgabe von diesem Befehl gleicht der oben, beide Schreibweisen sind gleichbedeutend.

Ausgabe:

# A tibble: 5 × 8
  Variable     n_Units n_Coders n_Categories Level   Agreement Holstis_CR Krippendorffs_Alpha
* <chr>          <int>    <int>        <int> <chr>       <dbl>      <dbl>               <dbl>
1 type              45        6            4 nominal     1          1                   1    
2 n_pictures        45        6            7 nominal     0.822      0.930               0.880
3 pop_elite         45        6            6 nominal     0.733      0.861               0.339
4 pop_people        45        6            2 nominal     0.778      0.916               0.287
5 pop_othering      45        6            4 nominal     0.867      0.945               0.566

Reliabilität berichten

Möglichkeiten der Ergebnisdarstellung von Reliabilitätstests

  1. Nach Kategorien: Hier wird der Mittelwert aller Koeffizienten pro Kategorie (über alle Codiervergleiche) gegeben. Der Fokus liegt auf der Reliabilität, mit der eine Kategorie von den Codierer:innen angewendet wurde. In Forschungsberichten wird die Reliabilität in der Regel nach Kategorien angegeben.
  2. Nach Codierer:innen: Hier wird der Mittelwert aller Koeffizienten für einen Codierenden über alle Kategorien gegeben. Der Fokus liegt auf der Reliabilität der einzelnen Codierer:innen.
  3. Als Matrix: Hier werden die Übereinstimmungen nach Kategorien und Codierer:innen aufgeschlüsselt. Der Fokus liegt auf der Reliabilität der einzelnen Codierer:innen in den jeweiligen Kategorien.

Häufig ist gerade beim Berichten vieler Reliabilitätswerte (d. h. für viele Variablen, bei ausführlichen Codebüchern) eine tabellarische Darstellung empfehlenswert.

Beispielbericht

(hier nach Kategorien)

„Wir testeten die Intercoder-Reliabilität für fünf Variablen, indem jeweils 45 Facebook-Posts von sechs Codierer:innen codiert wurden. Für die formale Kategorie des Typs des Facebook-Beitrags (type) erreichten wir ein perfektes Krippendorffs Alpha von eins. Auch die Anzahl der Bilder, die dem Beitrag angehängt sind (n_Bilder) wurde in hinreichender Übereinstimmung erfasst (α=0,880). Allerdings erreichten wir mit Krippendorffs Alpha keine befriedigende Reliabilität für die Populismus-Indikatoren (αpop_elite=0,339; αpop_people=0,287; αpop_othering=0,566), das Kategoriensystem musste folglich in einem zweiten Schritt geschärft werden.“

Referenzen

Rössler, P. (2017). Inhaltsanalyse (3. Auflage). Utb.

Weiterführende Texte zu den Übereinstimmungsmaßen

Brennan, R. L., & Prediger, D. J. (1981). Koeffizient Kappa: Einige Verwendungen, Missbräuche und Alternativen. Educational and Psychological Measurement, 41(3), 687-699. https://doi.org/10.1177/001316448104100307

Cohen, J. (1960). Ein Koeffizient der Übereinstimmung für Nominalskalen. Educational and Psychological Measurement, 20(1), 37-46. https://doi.org/10.1177/001316446002000104

Fleiss, J. L. (1971). Messung der Nominalskalenübereinstimmung zwischen vielen Bewertern. Psychological Bulletin, 76(5), 378-382. https://doi.org/10.1037/h0031619

Fretwurst, B. (2015). Reliabilität und Validität von Inhaltsanalysen. Mit Erläuterungen zur Berechnung des Reliabilitätskoeffizienten „Lotus“ mit SPSS. In W. Wirth, K. Sommer, M. Wettstein, & J. Matthes (Ed.), Qualitätskriterien in der Inhaltsanalyse (S. 176-203). Herbert von Halem.

Krippendorff, K. (2011). Berechnung der Krippendorff’schen Alpha-Reliabilität. Berechnung der Krippendorffschen Alpha-Zuverlässigkeit. Abgerufen von http://repository.upenn.edu/asc_papers/43

von Eye, A. (2006). Eine Alternative zu Cohens Kappa. Europäischer Psychologe, 11(1), 12-24. https://doi.org/10.1027/1016-9040.11.1.12

Beispieldaten
tidycomm / fbposts

Beispielcode

fbposts %>% test_icr(post_id, coder_id)