Welche Fragen können durch Varianzanalyse gelöst werden? Kursarbeit: Dispersionsanalyse. Influenza verursacht eine erhöhte Produktion von Histamin

Varianzanalyse ist ein System von Konzepten und Techniken, die es ermöglichen, das Verfahren zum Vergleichen zweier Mittelwerte für zwei Stichproben, die aus Grundgesamtheiten mit einer Normalverteilung entnommen wurden, auf den Fall einer großen Anzahl von Stichproben zu verallgemeinern.

Dienstzuweisung. Mit diesem Online-Rechner können Sie:

  • eine einseitige Varianzanalyse durchführen;
  • Beantworten Sie die Frage - ob die Durchschnittswerte der Experimente übereinstimmen oder nicht;
  • auf dem ausgewählten Signifikanzniveau die Nullhypothese H 0 über die Gleichheit der Gruppenmittelwerte bestätigen oder widerlegen;

Anweisung. Geben Sie die Anzahl der Dimensionen (Anzahl der Zeilen) q , die Anzahl der Stufen des Faktors p an, klicken Sie auf Weiter. Die resultierende Lösung wird in einer Word-Datei gespeichert. Dieses Verfahren wird normalerweise verwendet, um signifikante Faktoren zum Erstellen einer multiplen Regressionsgleichung auszuwählen.

Beispiel. Das Produkt des Schienenverkehrs zum Zwecke der Zuverlässigkeitsprüfung wird q mal betrieben, i=1,...q in p Stufen der Betriebszeit Tj , j=1,..., p. Bei jedem Test wird die Anzahl der Fehler n ij gezählt. Untersuchen Sie auf dem Signifikanzniveau α = 0,05 die Auswirkung der Produktbetriebszeit auf die Anzahl der Ausfälle mit der Methode der einfachen ANOVA bei q=4 , p=4 . Die Testergebnisse n ij sind in den Tabellen dargestellt.
Lösung.
Einweg-ANOVA-Verfahren. Gruppendurchschnitt finden:

NP1P2P3P4
1 145 210 195 155
2 140 200 190 150
3 150 190 240 180
4 190 195 210 175
x156.25 198.75 208.75 165

Lassen Sie uns p bezeichnen - die Anzahl der Stufen des Faktors (p=4). Die Anzahl der Messungen auf jeder Ebene ist gleich und gleich q=4.


(1)



R gesamt = ∑∑(x ij -x) (2)

R f \u003d q (x ij -x)


R Rest \u003d R insgesamt - R f












Wenn f obl > f cr, dann hat der Faktor einen signifikanten Einfluss und sollte berücksichtigt werden, ansonsten hat er einen unbedeutenden Einfluss, der vernachlässigt werden kann.

(4)


NP2 1P 2 2P 2 3P 2 4
1 21025 44100 38025 24025
2 19600 40000 36100 22500
3 22500 36100 57600 32400
4 36100 38025 44100 30625
99225 158225 175825 109550



Rges = 99225 + 158225 + 175825 + 109550 - 4 4 182,19 2 = 11748,44
Wir finden R f gemäß der Formel (5):
R f \u003d 4 (156,25 2 + 198,75 2 + 208,75 2 + 165 2) - 4 182,19 2 \u003d 7792,19
Wir erhalten R Rest: R Rest \u003d R Gesamt - R f \u003d 11748,44 - 7792,19 \u003d 3956,25
Wir bestimmen die Faktor- und Residualvarianzen:



Der Schätzwert der Faktorvarianz ist größer als der Schätzwert der Restvarianz, sodass wir sofort behaupten können, dass die Nullhypothese der Gleichheit nicht wahr ist mathematische Erwartungen durch Musterschichten.
Mit anderen Worten, in diesem Beispiel hat der Faktor Ф einen signifikanten Einfluss auf die Zufallsvariable.

f obl finden

Für das Signifikanzniveau α=0,05, die Anzahl der Freiheitsgrade 3 und 12 finden wir f cr aus der Fisher-Snedekor-Verteilungstabelle.
f cr (0,05; 3; 12) = 3,49
Aufgrund der Tatsache, dass f obl > f cr, akzeptieren wir die Nullhypothese über den signifikanten Einfluss des Faktors auf die Ergebnisse von Experimenten.

Beispiel #2. Die Schüler des 1. Studienjahres wurden befragt, um herauszufinden, welchen Aktivitäten sie ihre Freizeit widmen. Überprüfen Sie, ob sich die Verteilung der verbalen und nonverbalen Präferenzen der Schüler unterscheidet.
Gruppendurchschnitt finden:

NP1P2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x15.6 17
Lassen Sie uns p bezeichnen - die Anzahl der Stufen des Faktors (p = 2). Die Anzahl der Messungen auf jeder Ebene ist gleich und gleich q=5.
Die letzte Zeile enthält die Gruppenmittelwerte für jede Stufe des Faktors.
Der Gesamtmittelwert ergibt sich als arithmetisches Mittel der Gruppenmittelwerte:
(1)
Die Streuung der Gruppenmittelwerte des Prozentsatzes des Versagens relativ zum Gesamtmittelwert wird sowohl durch Änderungen in der Höhe des berücksichtigten Faktors als auch durch Zufallsfaktoren beeinflusst.
Um den Einfluss dieses Faktors zu berücksichtigen, wird die gesamte Stichprobenvarianz in zwei Teile geteilt, von denen der erste als Faktor S 2 f und der zweite als restliche S 2 -Rest bezeichnet wird.
Um diese Komponenten zu berücksichtigen, wird zunächst die Gesamtsumme der quadrierten Abweichungen der Variante vom Gesamtmittel berechnet:
R gesamt \u003d ∑ ∑ (x ij -x)
und die faktorielle Summe der quadrierten Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert, die den Einfluss dieses Faktors charakterisiert:
R f \u003d q∑ (x ij -x)
Der letzte Ausdruck wird erhalten, indem jede Variante im Rtot-Ausdruck durch den Gruppenmittelwert für den gegebenen Faktor ersetzt wird.
Als Differenz erhält man die Residualsumme der quadrierten Abweichungen:
R Rest \u003d R insgesamt - R f
Um die gesamte Stichprobenvarianz zu bestimmen, muss Rgesamt durch die Anzahl der Messungen pq dividiert werden:

und um die unverzerrte Gesamtstichprobenvarianz zu erhalten, muss dieser Ausdruck mit pq/(pq-1) multipliziert werden:

Dementsprechend gilt für die unverzerrte faktorielle Stichprobenvarianz:

wobei p-1 die Anzahl der Freiheitsgrade der unverzerrten faktoriellen Stichprobenvarianz ist.
Um den Einfluss des Faktors auf Änderungen des betrachteten Parameters zu beurteilen, wird der Wert berechnet:

Da das Verhältnis der beiden Stichprobenvarianzen S 2 f und S 2 rem nach dem Fisher-Snedekor-Gesetz verteilt ist, wird der resultierende Wert f obs mit dem Wert der Verteilungsfunktion verglichen

am kritischen Punkt f cr entsprechend dem gewählten Signifikanzniveau a.
Wenn f obl > f cr, dann hat der Faktor einen signifikanten Einfluss und sollte berücksichtigt werden, ansonsten hat er einen unbedeutenden Einfluss, der vernachlässigt werden kann.
Die folgenden Formeln können auch zur Berechnung von Robs und Rf verwendet werden:
R insgesamt \u003d x ij ²-x ², (4)
R f \u003d q∑x j ²-x ², (5)
Wir finden den Gesamtdurchschnitt durch die Formel (1):
Um Rtot mit Formel (4) zu berechnen, stellen wir eine Tabelle mit 2 Quadraten zusammen:
NP2 1P 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Der Gesamtdurchschnitt wird nach Formel (1) berechnet:

Rtot = 1322 + 1613 - 5 2 16,3 2 = 278,1
Wir finden R f gemäß der Formel (5):
R f \u003d 5 (15,6 2 + 17 2) - 2 16,3 2 \u003d 4,9
Wir erhalten R-Rest: R-Rest \u003d R-Gesamt - R f \u003d 278,1 - 4,9 \u003d 273,2
Wir bestimmen die faktorielle und die Residualvarianz:


Wenn die für einzelne Stichproben berechneten Mittelwerte einer Zufallsvariablen gleich sind, dann sind die Schätzungen der faktoriellen und der Residualvarianz unverzerrte Schätzungen der allgemeinen Varianz und unterscheiden sich nur unwesentlich.
Dann sollte ein Vergleich der Schätzungen dieser Varianzen nach dem Fisher-Kriterium zeigen, dass es keinen Grund gibt, die Nullhypothese über die Gleichheit der faktoriellen und der Residualvarianzen abzulehnen.
Die Schätzung der Faktorvarianz ist kleiner als die Schätzung der Restvarianz, sodass wir die Gültigkeit der Nullhypothese über die Gleichheit der mathematischen Erwartungen für die Schichten der Stichprobe sofort bestätigen können.
Mit anderen Worten, in diesem Beispiel beeinflusst der Faktor Ф die Zufallsvariable nicht signifikant.
Überprüfen wir die Nullhypothese H 0: die Gleichheit der Durchschnittswerte von x.
f obl finden

Für das Signifikanzniveau α=0,05, die Anzahl der Freiheitsgrade 1 und 8 finden wir f cr aus der Fisher-Snedekor-Verteilungstabelle.
f cr (0,05; 1; 8) = 5,32
Aufgrund der Tatsache, dass f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Mit anderen Worten, die Verteilung der verbalen und nonverbalen Präferenzen der Schüler unterscheidet sich.

Übung. Das Werk verfügt über vier Linien zur Herstellung von Fassadenplatten. Aus jeder Linie wurden während der Schicht zufällig 10 Fliesen ausgewählt und ihre Dicke (mm) gemessen. Abweichungen vom Nennmaß sind in der Tabelle angegeben. Es wird auf dem Signifikanzniveau a = 0,05 benötigt, um die Abhängigkeit der Produktion hochwertiger Fliesen von der Produktionslinie (Faktor A) festzustellen.

Übung. Untersuchen Sie auf dem Signifikanzniveau a = 0,05 den Einfluss der Lackfarbe auf die Lebensdauer der Beschichtung.

Beispiel 1. Es wurden 13 Tests durchgeführt, davon 4 auf der ersten Stufe des Faktors, 4 auf der zweiten, 3 auf der dritten und 2 auf der vierten. Überprüfen Sie mit der Methode der Varianzanalyse auf einem Signifikanzniveau von 0,05 die Nullhypothese über die Gleichheit der Gruppenmittelwerte. Es wird davon ausgegangen, dass die Stichproben aus Normalpopulationen mit gleichen Varianzen stammen. Die Testergebnisse sind in der Tabelle gezeigt.

Lösung:
Gruppendurchschnitt finden:

NP1P2P3P4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x1.4 1.43 1.33 1.32
Lassen Sie uns p bezeichnen - die Anzahl der Stufen des Faktors (p=4). Die Anzahl der Messungen auf jeder Ebene ist: 4,4,3,2
Die letzte Zeile enthält die Gruppenmittelwerte für jede Stufe des Faktors.
Der Gesamtdurchschnitt wird nach folgender Formel berechnet:

Um Total mit Formel (4) zu berechnen, stellen wir eine Tabelle mit 2 Quadratoptionen zusammen:
NP2 1P 2 2P 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49
Die Gesamtsumme der quadrierten Abweichungen ergibt sich aus der Formel:

Wir finden S f durch die Formel:


Wir erhalten S Ruhe: S Ruhe \u003d S Gesamt - S f \u003d 0,0293 - 0,0263 \u003d 0,003
Bestimmen Sie die Faktorvarianz:

und Restvarianz:

Wenn die für einzelne Stichproben berechneten Mittelwerte einer Zufallsvariablen gleich sind, dann sind die Schätzungen der faktoriellen und der Residualvarianz unverzerrte Schätzungen der allgemeinen Varianz und unterscheiden sich nur unwesentlich.
Dann sollte ein Vergleich der Schätzungen dieser Varianzen nach dem Fisher-Kriterium zeigen, dass es keinen Grund gibt, die Nullhypothese über die Gleichheit der faktoriellen und der Residualvarianzen abzulehnen.
Die Schätzung der Faktorvarianz ist größer als die Schätzung der Restvarianz, sodass wir sofort behaupten können, dass die Nullhypothese über die Gleichheit der mathematischen Erwartungen über die Stichprobenschichten hinweg nicht wahr ist.
Mit anderen Worten, in diesem Beispiel hat der Faktor Ф einen signifikanten Einfluss auf die Zufallsvariable.
Überprüfen wir die Nullhypothese H 0: die Gleichheit der Durchschnittswerte von x.
f obl finden

Für das Signifikanzniveau α=0,05, die Anzahl der Freiheitsgrade 3 und 12 finden wir f cr aus der Fisher-Snedekor-Verteilungstabelle.
f cr (0,05; 3; 12) = 3,49
Aufgrund der Tatsache, dass f obl > f cr, akzeptieren wir die Nullhypothese über den signifikanten Einfluss des Faktors auf die Ergebnisse von Experimenten (wir lehnen die Nullhypothese über die Gleichheit der Gruppenmittelwerte ab). Mit anderen Worten, die Gruppenmittelwerte unterscheiden sich insgesamt erheblich.

Beispiel #2. Die Schule hat 5 sechste Klassen. Der Psychologe hat die Aufgabe, festzustellen, ob das durchschnittliche Niveau der Situationsangst in den Klassen gleich ist. Dafür wurden in der Tabelle angegeben. Überprüfen Sie das Signifikanzniveau α = 0,05, die Annahme, dass sich die durchschnittliche Situationsangst in den Klassen nicht unterscheidet.

Beispiel #3. Um den Wert von X zu untersuchen, wurden 4 Tests bei jedem der fünf Niveaus von Faktor F durchgeführt. Die Testergebnisse sind in der Tabelle angegeben. Finden Sie heraus, ob der Einfluss des Faktors F auf den Wert von X signifikant ist, und nehmen Sie α = 0,05 an. Es wird davon ausgegangen, dass die Stichproben aus Normalpopulationen mit gleichen Varianzen stammen.

Beispiel Nr. 4. Angenommen, drei Gruppen von Schülern mit jeweils 10 Personen nahmen an dem pädagogischen Experiment teil. In den Gruppen wurden unterschiedliche Unterrichtsmethoden verwendet: in der ersten - traditionell (F 1), in der zweiten - auf Computertechnologie basierend (F 2), in der dritten - eine Methode, die Aufgaben für viele verwendet unabhängige Arbeit(F3). Das Wissen wurde anhand eines Zehn-Punkte-Systems bewertet.
Es ist erforderlich, die erhaltenen Daten zu Prüfungen zu verarbeiten und eine Schlussfolgerung darüber zu ziehen, ob der Einfluss der Lehrmethode signifikant ist, wobei α = 0,05 als Signifikanzniveau angenommen wird.
Die Ergebnisse der Prüfungen sind in der Tabelle angegeben, F j - das Niveau des Faktors x ij - die Bewertung des i-ten Schülers des Schülers nach der Methode F j .

ich 1 2 3 4 5 6 7 8 9 10
Höhe des Faktors F j F1 7 5 6 4 6 7 8 6 5 7
F2 9 8 10 8 7 10 10 9 7 6
F3 6 7 6 6 9 5 7 8 7 8

Beispiel Nummer 5. Dargestellt sind die Ergebnisse der kompetitiven Sortenprüfung der Kulturen (Ertrag in c.d. ha). Jede Sorte wurde in vier Parzellen getestet. Verwenden Sie die Methode der Varianzanalyse, um die Auswirkung der Sorte auf den Ertrag zu untersuchen. Stellen Sie die Signifikanz des Einflusses des Faktors (den Anteil der Streuung zwischen den Gruppen an der Gesamtstreuung) und die Signifikanz der Ergebnisse des Experiments auf ein Signifikanzniveau von 0,05 ein.
Erträge in Sortenprüfparzellen

Vielfalt Produktivität bei Wiederholungen von c. von ha
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

5.1. Was ist Varianzanalyse?

Die Varianzanalyse wurde in den 1920er Jahren von dem englischen Mathematiker und Genetiker Ronald Fisher entwickelt. Laut einer Umfrage unter Wissenschaftlern, die herausfanden, wer die Biologie des 20. Jahrhunderts am meisten beeinflusst hat, war es Sir Fisher, der die Meisterschaft gewann (für seine Verdienste wurde ihm die Ritterwürde verliehen – eine der höchsten Auszeichnungen in Großbritannien); Fisher ist in dieser Hinsicht vergleichbar mit Charles Darwin, der im 19. Jahrhundert den größten Einfluss auf die Biologie hatte.

Streuungsanalyse (Analis of variance) ist jetzt getrennte Branche Statistiken. Es basiert auf der von Fisher entdeckten Tatsache, dass das Maß der Variabilität der untersuchten Größe in Teile zerlegt werden kann, die den diese Größe beeinflussenden Faktoren und zufälligen Abweichungen entsprechen.

Um die Essenz der Varianzanalyse zu verstehen, führen wir die gleiche Art von Berechnungen zweimal durch: „manuell“ (mit einem Taschenrechner) und mit Statistica-Programme. Um unsere Aufgabe zu vereinfachen, werden wir nicht mit den Ergebnissen einer realen Beschreibung der Vielfalt grüner Frösche arbeiten, sondern mit einem fiktiven Beispiel, das den Vergleich von Frauen und Männern beim Menschen betrifft. Betrachten Sie die Höhenunterschiede von 12 Erwachsenen: 7 Frauen und 5 Männer.

Tabelle 5.1.1. Beispiel für einfache ANOVA: Geschlechts- und Größendaten für 12 Personen

Führen wir eine einseitige Varianzanalyse durch: Vergleichen wir, ob sich Männer und Frauen in der charakterisierten Gruppe hinsichtlich der Körpergröße statistisch signifikant unterscheiden oder nicht.

5.2. Test auf Normalverteilung

Die weitere Begründung basiert auf der Tatsache, dass die Verteilung in der betrachteten Stichprobe normal oder nahezu normal ist. Wenn die Verteilung weit von der Normalverteilung entfernt ist, ist die Varianz (Varianz) kein angemessenes Maß für ihre Variabilität. Allerdings ist die Varianzanalyse relativ resistent gegenüber Abweichungen der Verteilung von der Normalverteilung.

Diese Daten können auf zwei Arten auf Normalität getestet werden. verschiedene Wege. Erstens: Statistik / Basisstatistik/Tabellen / Deskriptive Statistik / Registerkarte Normalität. Auf der Registerkarte Normalität Sie können auswählen, welche Normalverteilungstests verwendet werden sollen. Wenn Sie auf die Schaltfläche Häufigkeitstabellen klicken, erscheint die Häufigkeitstabelle und die Schaltflächen Histogramme - ein Histogramm. Die Tabelle und das Balkendiagramm zeigen die Ergebnisse verschiedener Tests.

Die zweite Methode ist mit der Nutzung der entsprechenden Möglichkeiten beim Aufbau von Histogrammen verbunden. Wählen Sie im Histogramm-Konstruktionsdialog (Grafs / Histograms...) die Registerkarte Erweitert. In seinem unteren Teil befindet sich ein Statistikblock. Beachten Sie es Shapiro-Wilk t est und Kolmogorov-Smirnov-Test, wie in der Abbildung gezeigt.

Reis. 5.2.1. Statistische Tests zur Normalverteilung im Histogramm-Konstruktionsdialog

Wie aus dem Histogramm ersichtlich ist, weicht die Wachstumsverteilung in unserer Stichprobe von der normalen ab (in der Mitte – „Ausfall“).


Reis. 5.2.2. Histogramm, dargestellt mit den in der vorherigen Abbildung angegebenen Parametern

Die dritte Zeile im Titel des Diagramms gibt die Parameter der Normalverteilung an, die der beobachteten Verteilung am nächsten kommt. Der allgemeine Mittelwert beträgt 173, die allgemeine Standardabweichung 10,4. Der Einschub am unteren Rand des Diagramms zeigt die Ergebnisse der Tests auf Normalität. D ist der Kolmogorov-Smirnov-Test und SW-W ist der Shapiro-Wilk-Test. Wie man sieht, erwiesen sich bei allen verwendeten Tests die Unterschiede der Wachstumsverteilung gegenüber der Normalverteilung als statistisch nicht signifikant ( p in allen Fällen größer als 0,05).

Tests auf Konformität der Verteilung mit dem Normalen „verboten“ uns also formal nicht, die parametrische Methode auf der Grundlage der Annahme von zu verwenden Normalverteilung. Wie bereits erwähnt, ist die Varianzanalyse relativ resistent gegenüber Abweichungen von der Normalität, weshalb wir sie weiterhin verwenden.

5.3. Einfache ANOVA: Manuelle Berechnungen

Um die Variabilität der Körpergröße im obigen Beispiel zu charakterisieren, berechnen wir die Summe der quadratischen Abweichungen (auf Englisch wird sie als bezeichnet SS , Summe der Quadrate oder ) Einzelwerte aus dem Mittelwert: . Der Durchschnittswert für die Körpergröße im obigen Beispiel beträgt 173 Zentimeter. Basierend auf,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Der resultierende Wert (1192) ist ein Maß für die Variabilität des gesamten Datensatzes. Sie bestehen jedoch aus zwei Gruppen, denen jeweils ein eigener Durchschnitt zugeordnet werden kann. In den angegebenen Daten beträgt die durchschnittliche Körpergröße von Frauen 168 cm und von Männern 180 cm.

Berechnen Sie die Summe der quadrierten Abweichungen für Frauen:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Wir berechnen auch die Summe der quadratischen Abweichungen für Männer:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

Wovon hängt der untersuchte Wert gemäß der Logik der Varianzanalyse ab?

Zwei berechnete Größen, SS f und SS m , charakterisieren die gruppeninterne Varianz, die in der Varianzanalyse üblicherweise als "Fehler" bezeichnet wird. Der Ursprung dieses Namens ist mit folgender Logik verbunden.

Was bestimmt in diesem Beispiel die Körpergröße einer Person? Zunächst einmal von der durchschnittlichen Größe der Menschen im Allgemeinen, unabhängig von ihrem Geschlecht. Zweitens vom Boden. Wenn Menschen des einen Geschlechts (männlich) größer sind als die des anderen (weiblich), kann dies als Ergänzung zum „universellen“ Durchschnitt eines gewissen Wertes dargestellt werden, dem Effekt des Geschlechts. Schließlich unterscheiden sich Menschen gleichen Geschlechts aufgrund individueller Unterschiede in der Körpergröße. Innerhalb eines Modells, das die Körpergröße als Summe des menschlichen Mittelwerts plus einer Geschlechtsanpassung beschreibt, sind individuelle Unterschiede unerklärlich und können als "Fehler" angesehen werden.

Gemäß der Logik der Varianzanalyse wird der untersuchte Wert also wie folgt bestimmt: , wo xij - i-ter Wert der untersuchten Größe bei j-ter Wert des untersuchten Faktors; - allgemeiner Durchschnitt; Fj - der Einfluss des j-ten Wertes des untersuchten Faktors; - "Fehler", der Beitrag der Individualität des Objekts, auf das sich der Wert beziehtxij .

Summe der Quadrate zwischen den Gruppen

So, SS Fehler = SS f + SS m = 212 + 560 = 772. Mit diesem Wert haben wir die Intragruppen-Variabilität (bei Trennung der Gruppen nach Geschlecht) beschrieben. Aber es gibt auch einen zweiten Teil der Variabilität - Intergroup, den wir nennen werdenSS-Effekt (weil wir über den Effekt der Aufteilung der betrachteten Objekte in Frauen und Männer sprechen).

Der Mittelwert jeder Gruppe weicht vom Gesamtmittelwert ab. Bei der Berechnung des Beitrags dieser Differenz zum Gesamtmaß der Variabilität müssen wir die Differenz zwischen dem Gruppen- und Gesamtmittelwert mit der Anzahl der Objekte in jeder Gruppe multiplizieren.

SS-Effekt = = 7x(168-173) 2 + 5x(180-173) 2 = 7x52 + 5x72 = 7x25 + 5x49 = 175 + 245 = 420.

Hier manifestierte sich das von Fisher entdeckte Prinzip der Konstanz der Quadratsumme: SS = SS-Effekt + SS-Fehler , d.h. für dieses Beispiel 1192 = 440 + 722.

Mittlere Quadrate

Wenn wir in unserem Beispiel die Intergruppen- und Intragruppensummen der Quadrate vergleichen, können wir sehen, dass die erste mit der Variation der beiden Gruppen und die zweite mit 12 Werten in 2 Gruppen verbunden ist. Anzahl der Freiheitsgrade ( df ) für einige Parameter kann als Differenz zwischen der Anzahl der Objekte in der Gruppe und der Anzahl der Abhängigkeiten (Gleichungen) definiert werden, die diese Werte verbinden.

In unserem Beispiel df-Effekt = 2–1 = 1, a df-Fehler = 12–2 = 10.

Wir können die Summen der Quadrate durch die Anzahl ihrer Freiheitsgrade dividieren, um die mittleren Quadrate zu erhalten ( FRAU , Mittelwerte von Quadraten). Nachdem wir dies getan haben, können wir das feststellen FRAU - nichts anderes als Varianzen ("Streuungen", das Ergebnis der Division der Quadratsumme durch die Anzahl der Freiheitsgrade). Nach dieser Entdeckung können wir die Struktur der ANOVA-Tabelle verstehen. Für unser Beispiel sieht es so aus.

Wirkung

Fehler

MS-Effekt und MS-Fehler sind Schätzungen der Intergruppen- und Intragruppenvarianzen und können daher gemäß dem Kriterium verglichen werdenF (Kriterium von Snedecor, benannt nach Fischer), um Varianten zu vergleichen. Dieses Kriterium ist einfach der Quotient aus der Division der größeren Varianz durch die kleinere. In unserem Fall ist dies 420 / 77,2 = 5,440.

Bestimmung der statistischen Signifikanz des Fisher-Tests gemäß den Tabellen

Wenn wir die statistische Signifikanz des Effekts manuell anhand von Tabellen bestimmen würden, müssten wir den erhaltenen Kriteriumswert vergleichen F mit kritischer Entsprechung bestimmten Höhe statistische Signifikanz für gegebene Freiheitsgrade.


Reis. 5.3.1. Fragment der Tabelle mit kritischen Werten des Kriteriums F

Wie Sie sehen, ist für das statistische Signifikanzniveau p=0,05 der kritische Wert des KriteriumsF ist 4,96. Das bedeutet, dass in unserem Beispiel der Effekt des untersuchten Geschlechts mit einem statistischen Signifikanzniveau von 0,05 erfasst wurde.

Das erhaltene Ergebnis kann wie folgt interpretiert werden. Die Wahrscheinlichkeit der Nullhypothese, wonach die durchschnittliche Körpergröße von Frauen und Männern gleich ist und der festgestellte Unterschied in ihrer Körpergröße auf Zufälligkeit bei der Stichprobenbildung zurückzuführen ist, beträgt weniger als 5 %. Das bedeutet, dass wir die Alternativhypothese wählen müssen, dass die durchschnittliche Körpergröße von Frauen und Männern unterschiedlich ist.

5.4. Einweganalyse der Varianz ( ANOVA) im Statistica-Paket

In Fällen, in denen Berechnungen nicht manuell, sondern mit Hilfe geeigneter Programme (z. B. Statistica-Paket) durchgeführt werden, der Wert p automatisch ermittelt. Es ist ersichtlich, dass er etwas höher als der kritische Wert ist.

Um das besprochene Beispiel mit der einfachsten Version der Varianzanalyse zu analysieren, müssen Sie die Prozedur Statistik / ANOVA für die Datei mit den entsprechenden Daten ausführen und die Option Einweg-ANOVA (Einweg-ANOVA) in Typ von auswählen Analysefenster und die Dialogoption Quick specs im Fenster Spezifikationsmethode .


Reis. 5.4.1. Dialog Allgemein ANOVA/MANOVA (ANOVA)

In dem sich öffnenden Schnelldialogfenster müssen Sie im Feld Variablen die Spalten angeben, die die Daten enthalten, deren Variabilität wir untersuchen (Liste der abhängigen Variablen; in unserem Fall die Spalte Wachstum), sowie eine Spalte mit Werten ​​die den untersuchten Wert in Gruppen aufteilen (Kategorischer Prädiktor (Faktor); in unserem Fall die Spalte Geschlecht). In dieser Version der Analyse kann im Gegensatz zur multivariaten Analyse nur ein Faktor berücksichtigt werden.


Reis. 5.4.2. Dialogfeld "Einfaktorielle ANOVA" (Einfaktorielle Varianzanalyse)

Im Fenster Faktorcodes sollten Sie die Werte des betrachteten Faktors angeben, die während dieser Analyse verarbeitet werden müssen. Alle verfügbaren Werte können mit der Zoom-Taste angezeigt werden; Wenn Sie wie in unserem Beispiel alle Faktorwerte berücksichtigen müssen (und für das Geschlecht gibt es in unserem Beispiel nur zwei davon), können Sie auf die Schaltfläche Alle klicken. Wenn die Verarbeitungsspalten und Faktorcodes festgelegt sind, können Sie auf die Schaltfläche OK klicken und zum Schnellanalysefenster für die Ergebnisse wechseln: ANOVA-Ergebnisse 1 auf der Registerkarte Schnell.

Reis. 5.4.3. Die Quick-Registerkarte des ANOVA-Ergebnisfensters

Mit der Schaltfläche Alle Effekte/Grafiken können Sie sehen, wie die Durchschnittswerte der beiden Gruppen verglichen werden. Oberhalb des Diagramms ist die Anzahl der Freiheitsgrade sowie die Werte von F und p für den betrachteten Faktor angegeben.


Reis. 5.4.4. Grafische Darstellung der Ergebnisse der Varianzanalyse

Die Schaltfläche Alle Effekte ermöglicht es Ihnen, eine ANOVA-Tabelle zu erhalten, die der oben beschriebenen ähnelt (mit einigen signifikanten Unterschieden).


Reis. 5.4.5. Tabelle mit den Ergebnissen der Varianzanalyse (vergleiche mit einer ähnlichen Tabelle, die "manuell" erstellt wurde)

Die untere Zeile der Tabelle zeigt die Summe der Quadrate, die Anzahl der Freiheitsgrade und die mittleren Quadrate für den Fehler (Variabilität innerhalb der Gruppe). In der obigen Zeile - ähnliche Indikatoren für den untersuchten Faktor (in diesem Fall das Zeichen des Geschlechts) sowie das Kriterium F (das Verhältnis der mittleren Quadrate des Effekts zu den mittleren Quadraten des Fehlers) und seine statistische Signifikanz. Dass sich der Effekt des betrachteten Faktors als statistisch signifikant herausgestellt hat, wird durch die rote Hervorhebung verdeutlicht.

Und die erste Zeile zeigt Daten zum Indikator „Intercept“. Dies Die Tabellenzeile ist für Benutzer, die dem Statistica-Paket in seiner 6. oder neueren Version beitreten, ein Rätsel. Der Intercept-Wert hängt wahrscheinlich mit der Entwicklung der Quadratsumme aller Datenwerte zusammen (also 1862 + 1692 … = 360340). Der Wert des dafür angegebenen Kriteriums F ergibt sich durch Division MS-Intercept /MS-Fehler = 353220 / 77,2 = 4575,389 und ergibt natürlich einen sehr niedrigen Wert p . Interessanterweise wurde dieser Wert in Statistica-5 überhaupt nicht berechnet, und Handbücher für die Verwendung späterer Versionen des Pakets kommentieren seine Einführung in keiner Weise. Wahrscheinlich ist das Beste, was ein STATISTICA-6- und späterer Biologe tun kann, die Intercept-Zeile in der ANOVA-Tabelle einfach zu ignorieren.

5.5. ANOVA und Kriterien von Student und Fisher: Was ist besser?

Wie Sie sehen können, könnten wir die Daten, die wir mit der Einweg-Varianzanalyse verglichen haben, auch mit Student- und Fisher-Tests untersuchen. Vergleichen wir diese beiden Methoden. Dazu berechnen wir anhand dieser Kriterien den Größenunterschied von Männern und Frauen. Dazu müssen wir dem Pfad Statistik / Basisstatistik / t-Test, unabhängig, nach Gruppen folgen. Abhängige Variablen ist natürlich die Wachstumsvariable und die Gruppierungsvariable ist die Geschlechtsvariable.


Reis. 5.5.1. Vergleich von Daten, die unter Verwendung von ANOVA verarbeitet wurden, gemäß den Kriterien von Student und Fisher

Wie Sie sehen können, ist das Ergebnis dasselbe wie bei der Verwendung von ANOVA. p = 0,041874 in beiden Fällen, wie in Abb. 5.4.5 und in Abb. 5.5.2 (sehen Sie selbst!).


Reis. 5.5.2. Die Ergebnisse der Analyse (detaillierte Interpretation der Ergebnistabelle - im Abschnitt über das Schülerkriterium)

Es ist wichtig zu betonen, dass, obwohl das Kriterium F aus mathematischer Sicht in der betrachteten Analyse nach den Kriterien von Student und Fisher dasselbe ist wie in der ANOVA (und das Verhältnis der Varianz ausdrückt), seine Bedeutung in den Ergebnissen der Analyse repräsentiert durch die Abschlusstabelle ist völlig anders. Beim Vergleich nach dem Student- und Fisher-Test erfolgt der Vergleich der Mittelwerte der Proben nach dem Student-Kriterium und der Vergleich ihrer Variabilität nach dem Fisher-Kriterium. In den Ergebnissen der Analyse wird nicht die Varianz selbst angezeigt, sondern deren Quadratwurzel- Standardabweichung.

Im Gegensatz dazu wird bei ANOVA der Fisher-Test verwendet, um die Mittelwerte verschiedener Stichproben zu vergleichen (wie wir besprochen haben, geschieht dies, indem die Summe der Quadrate in Teile geteilt und die durchschnittliche Summe der Quadrate entsprechend der Variabilität zwischen und innerhalb der Gruppe verglichen wird). .

Der obige Unterschied betrifft jedoch eher die Darstellung der Ergebnisse einer statistischen Studie als deren Wesen. Wie Glantz (1999, S. 99) betont, kann beispielsweise der Vergleich von Gruppen durch den Student-Test als Spezialfall der Varianzanalyse für zwei Stichproben betrachtet werden.

Der Vergleich von Stichproben nach dem Student- und dem Fisher-Test hat also einen wichtigen Vorteil gegenüber der Varianzanalyse: Sie kann Stichproben hinsichtlich ihrer Variabilität vergleichen. Aber die Vorteile von ANOVA sind immer noch signifikant. Dazu gehört beispielsweise die Möglichkeit, mehrere Proben gleichzeitig zu vergleichen.

In der Praxis von Ärzten bei der Durchführung biomedizinischer, soziologischer und experimenteller Forschung wird es notwendig, den Einfluss von Faktoren auf die Ergebnisse der Untersuchung des Gesundheitszustands der Bevölkerung, bei der Beurteilung der beruflichen Tätigkeit und der Wirksamkeit von Innovationen festzustellen.

Es gibt eine Reihe von statistischen Methoden, mit denen Sie die Stärke, Richtung, Muster des Einflusses von Faktoren auf das Ergebnis im Allgemeinen oder bestimmen können Stichprobenpopulationen(Kriteriumsberechnung I, Korrelationsanalyse, Regression, Χ 2 - (Übereinstimmungskriterium von Pearson usw.). Die Varianzanalyse wurde in den 20er Jahren des 20. Jahrhunderts vom englischen Wissenschaftler, Mathematiker und Genetiker Ronald Fisher entwickelt und vorgeschlagen.

Die Varianzanalyse wird häufiger in wissenschaftlichen und praktischen Studien der öffentlichen Gesundheit und des Gesundheitswesens verwendet, um den Einfluss eines oder mehrerer Faktoren auf das resultierende Merkmal zu untersuchen. Es basiert auf dem Prinzip „die Wertevielfalt des Faktors/der Faktoren auf die Wertevielfalt des resultierenden Attributs abzubilden“ und stellt die Stärke des Einflusses des Faktors/der Faktoren in den Stichprobenpopulationen fest .

Das Wesen der Varianzanalysemethode besteht darin, einzelne Varianzen (gesamt, faktoriell, Residuum) zu messen und die Stärke (Anteil) des Einflusses der untersuchten Faktoren weiter zu bestimmen (Bewertung der Rolle jedes der Faktoren oder ihres kombinierten Einflusses). ) für das/die resultierende(n) Attribut(e).

Varianzanalyse- Dies ist eine statistische Methode zur Bewertung der Beziehung zwischen Faktor und Leistungsmerkmalen in verschiedenen zufällig ausgewählten Gruppen, basierend auf der Bestimmung von Unterschieden (Diversität) in den Werten der Merkmale. Die Varianzanalyse basiert auf der Analyse der Abweichungen aller Einheiten der untersuchten Grundgesamtheit vom arithmetischen Mittel. Als Maß für die Abweichungen wird die Streuung (B) genommen - das durchschnittliche Quadrat der Abweichungen. Abweichungen, die durch den Einfluss eines Faktorattributs (Faktor) verursacht werden, werden mit der Größe von Abweichungen verglichen, die durch zufällige Umstände verursacht werden. Wenn die durch das Faktorattribut verursachten Abweichungen signifikanter sind als zufällige Abweichungen, wird davon ausgegangen, dass der Faktor einen signifikanten Einfluss auf das resultierende Attribut hat.

Um die Varianz der Abweichungswerte jeder Option zu berechnen (jede registrierte numerischer Wert Vorzeichen) aus dem arithmetischen Mittel quadriert. Dadurch werden negative Zeichen beseitigt. Dann werden diese Abweichungen (Differenzen) aufsummiert und durch die Anzahl der Beobachtungen dividiert, d.h. Abweichungen ausmitteln. So werden die Streuungswerte erhalten.

Ein wichtiger methodischer Wert für die Anwendung der Varianzanalyse ist die korrekte Bildung der Stichprobe. Je nach Ziel und Zielsetzung können zufällig voneinander unabhängige Gruppen gebildet werden (Kontroll- und Versuchsgruppen, um einen Indikator zu untersuchen, zum Beispiel die Wirkung von Bluthochdruck auf die Entwicklung eines Schlaganfalls). Solche Stichproben werden als unabhängig bezeichnet.

Oft werden die Ergebnisse der Exposition gegenüber Faktoren in derselben Stichprobengruppe (z. B. bei denselben Patienten) vor und nach der Exposition (Behandlung, Prävention, Rehabilitationsmaßnahmen) untersucht. Solche Stichproben werden als abhängig bezeichnet.

Die Varianzanalyse, bei der der Einfluss eines Faktors geprüft wird, nennt man Einfaktoranalyse (univariate Analyse). Bei der Untersuchung des Einflusses von mehr als einem Faktor wird die multivariate Varianzanalyse (multivariate Analyse) verwendet.

Faktorzeichen sind jene Zeichen, die das untersuchte Phänomen beeinflussen.
Effektive Zeichen sind solche Zeichen, die sich unter dem Einfluss von Faktorzeichen ändern.

Für die Varianzanalyse können sowohl qualitative (Geschlecht, Beruf) als auch quantitative Merkmale (Anzahl der Injektionen, Patienten auf der Station, Anzahl Betttage) herangezogen werden.

Methoden der Ausbreitungsanalyse:

  1. Methode nach Fisher (Fisher) - Kriterium F (Werte von F, siehe Anhang Nr. 1);
    Die Methode wird bei der Einweg-Varianzanalyse verwendet, wenn die Gesamtvarianz aller beobachteten Werte in die Varianz innerhalb einzelner Gruppen und die Varianz zwischen Gruppen zerlegt wird.
  2. Methode des "allgemeinen linearen Modells".
    Es basiert auf Korrelations- oder Regressionsanalysen, die in der multivariaten Analyse verwendet werden.

Üblicherweise werden in der biomedizinischen Forschung nur Ein-Faktor-, maximal Zwei-Faktor-Dispersionskomplexe verwendet. Multifaktorielle Komplexe können untersucht werden, indem nacheinander Ein- oder Zweifaktorkomplexe analysiert werden, die aus der gesamten beobachteten Population isoliert wurden.

Bedingungen für die Verwendung der Varianzanalyse:

  1. Die Aufgabe der Studie besteht darin, die Stärke des Einflusses eines (bis zu 3) Faktors auf das Ergebnis oder die Stärke des kombinierten Einflusses verschiedener Faktoren (Geschlecht und Alter, körperliche Aktivität und Ernährung usw.) zu bestimmen.
  2. Die untersuchten Faktoren sollten unabhängig (ohne Bezug) zueinander sein. Beispielsweise kann man nicht den kombinierten Effekt von Berufserfahrung und Alter, Größe und Gewicht der Kinder usw. untersuchen. über die Inzidenz der Bevölkerung.
  3. Die Auswahl der Gruppen für die Studie erfolgt nach dem Zufallsprinzip (Random Selection). Die Organisation eines Dispersionskomplexes mit der Umsetzung des Prinzips der zufälligen Auswahl von Optionen wird als Randomisierung (übersetzt aus dem Englischen - zufällig) bezeichnet, d.h. zufällig gewählt.
  4. Es können sowohl quantitative als auch qualitative (attributive) Merkmale verwendet werden.

Bei der Durchführung einer einseitigen Varianzanalyse wird empfohlen (notwendige Bedingung für die Anwendung):

  1. Die Normalität der Verteilung der analysierten Gruppen bzw. die Entsprechung der Stichprobengruppen zu normalverteilten Grundgesamtheiten.
  2. Unabhängigkeit (Unverbundenheit) der Verteilung von Beobachtungen in Gruppen.
  3. Vorhandensein von Häufigkeit (Wiederholung) von Beobachtungen.

Die Normalität der Verteilung wird durch die Gauß-Kurve (De Mavour) bestimmt, die durch die Funktion y \u003d f (x) beschrieben werden kann, da dies eines der Verteilungsgesetze ist, die zur Annäherung an die Beschreibung zufälliger Phänomene verwendet werden. probabilistischer Natur. Gegenstand der biomedizinischen Forschung ist das Phänomen probabilistischer Natur, die Normalverteilung ist in solchen Studien sehr verbreitet.

Das Prinzip der Anwendung der Methode der Varianzanalyse

Zunächst wird eine Nullhypothese formuliert, das heißt, es wird angenommen, dass die untersuchten Faktoren keinen Einfluss auf die Werte des resultierenden Attributs haben und die resultierenden Unterschiede zufällig sind.

Dann bestimmen wir, wie hoch die Wahrscheinlichkeit ist, die beobachteten (oder stärkeren) Unterschiede zu erhalten, vorausgesetzt, dass die Nullhypothese wahr ist.

Wenn diese Wahrscheinlichkeit klein ist*, verwerfen wir die Nullhypothese und schlussfolgern, dass die Ergebnisse der Studie statistisch signifikant sind. Damit ist die Wirkung der untersuchten Faktoren noch nicht belegt (dies ist in erster Linie eine Frage der Forschungsplanung), aber es ist dennoch unwahrscheinlich, dass das Ergebnis dem Zufall geschuldet ist.
__________________________________
* Die maximal akzeptable Wahrscheinlichkeit, eine wahre Nullhypothese abzulehnen, wird als Signifikanzniveau bezeichnet und mit α = 0,05 bezeichnet.

Wenn alle Bedingungen für die Anwendung der Varianzanalyse erfüllt sind, sieht die Zerlegung der Gesamtvarianz mathematisch so aus:

D-Gen. = D Tatsache + D Rest. ,

D-Gen. - die Gesamtvarianz der beobachteten Werte (Variante), gekennzeichnet durch die Streuung der Variante vom Gesamtdurchschnitt. Misst die Variation eines Merkmals in der gesamten Population unter dem Einfluss aller Faktoren, die diese Variation verursacht haben. Die Gesamtdiversität setzt sich aus Intergroup und Intragroup zusammen;

D Tatsache - faktorielle (Intergruppen-)Varianz, gekennzeichnet durch die Differenz der Durchschnittswerte in jeder Gruppe und hängt vom Einfluss des untersuchten Faktors ab, durch den sich jede Gruppe unterscheidet. Beispielsweise ist in Gruppen mit unterschiedlichen ätiologischen Faktoren des klinischen Verlaufs einer Lungenentzündung das durchschnittliche Niveau des verbrachten Betttages nicht gleich - es wird eine Diversität zwischen den Gruppen beobachtet.

D Ruhe. - Restvarianz (innerhalb der Gruppe), die die Streuung der Variante innerhalb der Gruppen charakterisiert. Spiegelt zufällige Schwankungen wider, d.h. Teil der Variation, der unter dem Einfluss nicht spezifizierter Faktoren auftritt und nicht von der Eigenschaft abhängt – dem Faktor, der der Gruppierung zugrunde liegt. Die Variation des untersuchten Merkmals hängt von der Stärke des Einflusses einiger nicht berücksichtigter Zufallsfaktoren ab, sowohl von organisierten (vom Forscher angegeben) als auch von zufälligen (unbekannten) Faktoren.

Daher setzt sich die Gesamtvariation (Streuung) zusammen aus der Variation, die durch organisierte (gegebene) Faktoren verursacht wird, die faktorielle Variation genannt werden, und unorganisierten Faktoren, d.h. Restvariation (zufällig, unbekannt).

Die klassische Varianzanalyse wird in folgenden Schritten durchgeführt:

  1. Bau eines Dispersionskomplexes.
  2. Berechnung der durchschnittlichen Abweichungsquadrate.
  3. Abweichungsberechnung.
  4. Vergleich von Faktor- und Residualvarianzen.
  5. Auswertung der Ergebnisse anhand der theoretischen Werte der Fisher-Snedekor-Verteilung (Anhang N 1).

ALGORITHMUS ZUR DURCHFÜHRUNG EINER ANOVANE-ANALYSE NACH EINER VEREINFACHTEN VARIANTE

Der Algorithmus zur Durchführung einer Varianzanalyse mit einer vereinfachten Methode ermöglicht es Ihnen, die gleichen Ergebnisse zu erhalten, aber die Berechnungen sind viel einfacher:

Ich inszeniere. Bau eines Dispersionskomplexes

Die Konstruktion eines Dispersionskomplexes bedeutet die Konstruktion einer Tabelle, in der die Faktoren, das effektive Zeichen und die Auswahl der Beobachtungen (Patienten) in jeder Gruppe klar unterschieden würden.

Ein Einfaktorkomplex besteht aus mehreren Abstufungen eines Faktors (A). Abstufungen sind Stichproben aus unterschiedlichen Allgemeinbevölkerungen (A1, A2, AZ).

Zwei-Faktor-Komplex - besteht aus mehreren Abstufungen von zwei Faktoren in Kombination miteinander. Die ätiologischen Faktoren für das Auftreten von Lungenentzündungen sind dieselben (A1, A2, A3) in Kombination mit unterschiedlichen Formen des klinischen Verlaufs einer Lungenentzündung (H1 - akut, H2 - chronisch).

Ergebniszeichen (Anzahl der Betttage im Durchschnitt) Ätiologische Faktoren bei der Entstehung einer Lungenentzündung
A1 A2 A3
H1 H2 H1 H2 H1 H2
M = 14 Tage

Stufe II. Berechnung des Gesamtdurchschnitts (M obsh)

Berechnung der Summe der Optionen für jede Faktorabstufung: Σ Vj = V 1 + V 2 + V 3

Berechnung der Gesamtsumme der Variante (Σ V gesamt) über alle Abstufungen des Faktorattributs: Σ V gesamt = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

Berechnung der Durchschnittsgruppe (M gr.) Faktor Vorzeichen: M gr. = Σ Vj / N,
wobei N die Summe der Anzahl der Beobachtungen für alle Abstufungen des Faktor-I-Merkmals ist (Σn nach Gruppen).

III. Stadium. Abweichungsberechnung:

Vorbehaltlich aller Bedingungen für die Anwendung der Varianzanalyse lautet die mathematische Formel wie folgt:

D-Gen. = D Tatsache + D Rest.

D-Gen. - Gesamtvarianz, gekennzeichnet durch die Streuung der Variante (beobachtete Werte) vom allgemeinen Durchschnitt;
D Tatsache. - faktorielle Varianz (Intergruppenvarianz) charakterisiert die Streuung der Gruppendurchschnitte vom allgemeinen Durchschnitt;
D Ruhe. - Residual-(Intragruppen-)Varianz kennzeichnet die Streuung der Variante innerhalb der Gruppen.

  1. Berechnung der faktoriellen Varianz (D fact.): D Tatsache. = Σh - H
  2. Die Berechnung h erfolgt nach der Formel: h = (Σ Vj) / N
  3. Die Berechnung von H erfolgt nach der Formel: H = (Σ V) 2 / N
  4. Berechnung der Restabweichung: D Ruhe. = (Σ V) 2 - Σ h
  5. Berechnung der Gesamtvarianz: D-Gen. = (Σ V) 2 - Σ H

IV. Stadium. Berechnung des Hauptindikators für die Einflussstärke des untersuchten Faktors Der Indikator für die Stärke des Einflusses (η 2) eines Faktorattributs auf das Ergebnis wird bestimmt durch den Anteil der faktoriellen Varianz (D Tatsache.) an der Gesamtvarianz (D Allgemein), η 2 (dies) - zeigt, welchen Anteil die Einfluss des untersuchten Faktors nimmt unter allen anderen Faktoren ein und wird durch die Formel bestimmt:

V-Stufe. Die Bestimmung der Zuverlässigkeit der Ergebnisse der Studie nach der Fisher-Methode erfolgt nach der Formel:


F - Fisher-Kriterium;
Fst. - Tabellenwert (siehe Anlage 1).
σ 2 Tatsache, σ 2 Ruhe. - Fakultäts- und Restabweichungen (von lat. de - von, über - Straße) - Abweichung von der Mittellinie, bestimmt durch die Formeln:


r ist die Anzahl der Abstufungen des Faktorattributs.

Der Vergleich des Fisher-Kriteriums (F) mit dem Standard (Tabelle) F erfolgt gemäß den Spalten der Tabelle unter Berücksichtigung der Freiheitsgrade:

v 1 \u003d n - 1
v 2 \u003d N - 1

Bestimmen Sie horizontal v 1 vertikal - v 2 , bestimmen Sie an ihrem Schnittpunkt den Tabellenwert F, wobei der obere Tabellenwert p ≥ 0,05 und der untere p > 0,01 entspricht, und vergleichen Sie mit dem berechneten Kriterium F. Wenn der Wert der berechnetes Kriterium F gleich oder größer als das tabellarische, dann sind die Ergebnisse zuverlässig und H 0 wird nicht verworfen.

Die Aufgabe:

Im Unternehmen von N. nahm die Zahl der Verletzungen zu, in deren Zusammenhang der Arzt eine Studie über individuelle Faktoren durchführte, unter denen die Berufserfahrung der Arbeiter in den Geschäften untersucht wurde. Im Betrieb N. wurden Proben aus 4 Betrieben mit ähnlichen Bedingungen und Art der Arbeit entnommen. Die Verletzungsraten werden pro 100 Mitarbeiter im vergangenen Jahr berechnet.

Bei der Untersuchung des Berufserfahrungsfaktors wurden folgende Daten erhoben:

Auf der Grundlage der Daten der Studie wurde eine Nullhypothese (H 0) über die Auswirkung der Berufserfahrung auf das Verletzungsniveau der Mitarbeiter des Unternehmens A aufgestellt.

Übung
Bestätigen oder widerlegen Sie die Nullhypothese mit einer einfachen Varianzanalyse:

  1. bestimmen Sie die Stärke des Einflusses;
  2. bewerten Sie die Zuverlässigkeit des Einflusses des Faktors.

Phasen der Anwendung der Varianzanalyse
den Einfluss eines Faktors (Berufserfahrung) auf das Ergebnis (Verletzungsrate) zu bestimmen

Fazit. Im Stichprobenkomplex zeigte sich, dass der Einfluss der Berufserfahrung auf das Verletzungsniveau 80 % der Gesamtzahl der anderen Faktoren ausmacht. Für alle Werkstätten des Werks kann mit einer Wahrscheinlichkeit von 99,7 % (13,3 > 8,7) festgestellt werden, dass die Berufserfahrung die Verletzungshäufigkeit beeinflusst.

Damit wird die Nullhypothese (Н 0) nicht verworfen und der Effekt der Berufserfahrung auf die Verletzungshöhe in den Werkstätten des Werks A gilt als belegt.

F-Wert (Fisher-Test) Standard bei p ≥ 0,05 (oberer Wert) bei p ≥ 0,01 (unterer Wert)

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. Wlassow V. V. Epidemiologie. - M.: GEOTAR-MED, 2004. 464 p.
  2. Arkhipova G.L., Lavrova I.G., Troshina I.M. Etwas moderne Methoden statistische Analyse in der Medizin. - M.: Metrosnab, 1971. - 75 S.
  3. Zaitsev V.M., Liflyandsky V.G., Marinkin V.I. Angewandte Medizinische Statistik. - St. Petersburg: LLC "FOLIANT Publishing House", 2003. - 432 p.
  4. Platonov A.E. Statistische Analyse in Medizin und Biologie: Aufgaben, Terminologie, Logik, Computermethoden. - M.: Verlag der Russischen Akademie der Medizinischen Wissenschaften, 2000. - 52 p.
  5. Plochinsky N.A. Biometrie. - Verlag der sibirischen Abteilung der Akademie der Wissenschaften der UdSSR Nowosibirsk. - 1961. - 364 S.

Die Verwendung von Statistiken in diesem Hinweis wird anhand eines Querschnittsbeispiels gezeigt. Angenommen, Sie sind Produktionsleiter bei Perfect Parachute. Fallschirme werden aus synthetischen Fasern hergestellt, die von vier verschiedenen Lieferanten geliefert werden. Eines der Hauptmerkmale eines Fallschirms ist seine Stärke. Es ist darauf zu achten, dass alle zugeführten Fasern die gleiche Stärke haben. Um diese Frage zu beantworten, ist es notwendig, ein Experiment zu konzipieren, bei dem die Festigkeit von Fallschirmen gemessen wird, die aus synthetischen Fasern verschiedener Lieferanten gewebt sind. Die während dieses Experiments gewonnenen Informationen werden bestimmen, welcher Anbieter die langlebigsten Fallschirme anbietet.

Viele Anwendungen beziehen sich auf Experimente, bei denen mehrere Gruppen oder Ebenen eines Faktors betrachtet werden. Einige Faktoren, wie z. B. die Brenntemperatur der Keramik, können mehrere Zahlenwerte haben (z. B. 300°, 350°, 400° und 450°). Andere Faktoren, wie beispielsweise der Standort von Waren in einem Supermarkt, können kategoriale Ebenen haben (z. B. erster Lieferant, zweiter Lieferant, dritter Lieferant, vierter Lieferant). Univariate Experimente, bei denen Versuchseinheiten zufällig Gruppen oder Faktorstufen zugeordnet werden, werden als vollständig randomisiert bezeichnet.

VerwendungszweckF-Kriterien zur Bewertung der Unterschiede zwischen mehreren mathematischen Erwartungen

Wenn numerische Messungen eines Faktors in Gruppen kontinuierlich sind und einige zusätzliche Bedingungen erfüllt sind, wird eine Varianzanalyse (ANOVA - Ein Analyse Ö f Va riechen). Die Varianzanalyse unter Verwendung vollständig randomisierter Designs wird als einfache ANOVA bezeichnet. In gewissem Sinne ist der Begriff Varianzanalyse irreführend, da er die Differenzen zwischen den Mittelwerten der Gruppen vergleicht, nicht zwischen den Varianzen. Der Vergleich der mathematischen Erwartungen erfolgt jedoch gerade auf der Grundlage der Analyse der Datenvariation. Beim ANOVA-Verfahren wird die Gesamtstreuung der Messergebnisse in Intergruppen und Intragruppen aufgeteilt (Abb. 1). Die Variation innerhalb der Gruppen wird durch experimentelle Fehler erklärt, während die Variation zwischen den Gruppen durch die Auswirkungen der experimentellen Bedingungen erklärt wird. Symbol Mit gibt die Anzahl der Gruppen an.

Reis. 1. Variationstrennung in einem vollständig randomisierten Experiment

Hinweis im Format oder herunterladen, Beispiele im Format

Stellen wir uns das vor Mit Gruppen werden aus unabhängigen Populationen gezogen, die eine Normalverteilung und dieselbe Varianz aufweisen. Die Nullhypothese lautet, dass die mathematischen Erwartungen der Populationen gleich sind: H 0: μ 1 = μ 2 = ... = μ s. Die alternative Hypothese besagt, dass nicht alle mathematischen Erwartungen gleich sind: H1: nicht alle μ j sind gleich j= 1, 2, …, s).

Auf Abb. 2 stellt die wahre Nullhypothese über die mathematischen Erwartungen der fünf verglichenen Gruppen dar, vorausgesetzt, dass die Grundgesamtheiten eine Normalverteilung und die gleiche Varianz aufweisen. Fünf Populationen im Zusammenhang mit verschiedene Level Faktoren sind identisch. Daher werden sie einander überlagert und haben die gleiche mathematische Erwartung, Variation und Form.

Reis. 2. Fünf Populationen haben dieselbe mathematische Erwartung: μ1 = μ2 = μ3 = μ4 = μ5

Nehmen wir andererseits an, dass die Nullhypothese tatsächlich falsch ist und die vierte Ebene die größte mathematische Erwartung hat, die erste Ebene eine etwas niedrigere mathematische Erwartung hat und die verbleibenden Ebenen die gleichen und sogar noch kleinere mathematische Erwartungen haben (Abb. 3). Beachten Sie, dass mit Ausnahme der Größe des Mittelwerts alle fünf Populationen identisch sind (d. h. dieselbe Variabilität und Form aufweisen).

Reis. 3. Die Wirkung der Versuchsbedingungen wird beobachtet: μ4 > μ1 > μ2 = μ3 = μ5

Beim Testen der Hypothese der Gleichheit der mathematischen Erwartungen mehrerer allgemeiner Populationen wird die Gesamtvariation in zwei Teile unterteilt: Variation zwischen Gruppen aufgrund von Unterschieden zwischen Gruppen und Variation innerhalb von Gruppen aufgrund von Unterschieden zwischen Elementen, die derselben Gruppe angehören. Die Gesamtvariation wird als Gesamtsumme der Quadrate (SST – sum of squares total) ausgedrückt. Da die Nullhypothese lautet, dass die Erwartung aller Mit Gruppen untereinander gleich sind, ist die Gesamtvariation gleich der Summe der quadrierten Differenzen zwischen einzelnen Beobachtungen und dem für alle Stichproben berechneten Gesamtmittelwert (Mittelwert der Mittelwerte). Vollständige Variante:

wo - Gesamtdurchschnitt, Xij - ich-e zuschauen j-te Gruppe oder Ebene, NJ- Anzahl der Beobachtungen in j-te Gruppe, n- Gesamtzahl der Beobachtungen in allen Gruppen (d. h. n = n 1 + n 2 + … + nc), Mit- Anzahl der studierten Gruppen oder Niveaus.

Variation zwischen den Gruppen, üblicherweise Summe der Quadrate zwischen Gruppen (SSA) genannt, ist gleich der Summe der quadrierten Differenzen zwischen dem Stichprobenmittelwert jeder Gruppe j und Gesamtdurchschnitt multipliziert mit dem Volumen der entsprechenden Gruppe NJ:

wo Mit- die Anzahl der unterrichteten Gruppen oder Niveaus, NJ- Anzahl der Beobachtungen in j-te Gruppe, j- mittlere Bedeutung j-te Gruppe, - allgemeiner Durchschnitt.

Variation innerhalb der Gruppe, üblicherweise als Summe der Quadrate innerhalb von Gruppen (SSW) bezeichnet, ist gleich der Summe der quadrierten Differenzen zwischen den Elementen jeder Gruppe und dem Stichprobenmittelwert dieser Gruppe j:

wo Xij - ich-tes Element j-te Gruppe, j- mittlere Bedeutung j-te Gruppe.

Weil sie verglichen werden Mit Faktorstufen, die Summe der Quadrate zwischen den Gruppen hat s - 1 Freiheitsgrade. Jeder von Mit Ebenen hat NJ – 1 Freiheitsgrade, also die gruppeninterne Summe der Quadrate hat n- Mit Freiheitsgrade u

Außerdem hat die Gesamtsumme der Quadrate n – 1 Freiheitsgrade, da jede Beobachtung Xij gegenüber dem über alles errechneten Gesamtdurchschnitt n Beobachtungen. Dividiert man jede dieser Summen durch die entsprechende Anzahl an Freiheitsgraden, ergeben sich drei Arten von Streuung: Intergruppe(mittleres Quadrat unter - MSA), konzernintern(mittleres Quadrat innerhalb - MSW) und Komplett(mittlere Quadratsumme - MST):

Obwohl der Hauptzweck der Varianzanalyse darin besteht, die mathematischen Erwartungen zu vergleichen Mit Gruppen, um die Wirkung der experimentellen Bedingungen aufzudecken, ist sein Name darauf zurückzuführen, dass das Hauptwerkzeug die Varianzanalyse ist Anderer Typ. Wenn die Nullhypothese wahr ist, und zwischen den erwarteten Werten Mit Gruppen gibt es keine signifikanten Unterschiede, alle drei Varianzen – MSA, MSW und MST – sind Schätzungen der Varianz σ2 in den analysierten Daten enthalten. Also um die Nullhypothese zu testen H 0: μ 1 = μ 2 = ... = μ s und Alternativhypothese H1: nicht alle μ j sind gleich j = 1, 2, …, Mit), ist es notwendig, die Statistik zu berechnen F-Kriterium, das das Verhältnis zweier Varianzen ist, MSA und MSW. Prüfung F-Statistik in der univariaten Varianzanalyse

Statistiken F-Kriterien gehorcht F- Verteilung mit s - 1 Freiheitsgrade im Zähler MSA und n - mit Freiheitsgrade im Nenner MSW. Für ein gegebenes Signifikanzniveau α wird die Nullhypothese zurückgewiesen, wenn sie berechnet wird F FU inhärent F- Verteilung mit s - 1 n - mit Freiheitsgrade im Nenner. Somit, wie in Abb. 4 wird die Entscheidungsregel wie folgt formuliert: Nullhypothese H 0 abgelehnt, wenn F > FU; andernfalls wird es nicht zurückgewiesen.

Reis. 4. Kritischer Bereich der Varianzanalyse beim Testen einer Hypothese H 0

Wenn die Nullhypothese H 0 stimmt, berechnet F-Statistik ist nahe bei 1, da Zähler und Nenner Schätzungen desselben Werts sind - die Varianz σ 2, die den analysierten Daten innewohnt. Wenn die Nullhypothese H 0 falsch ist (und es gibt einen signifikanten Unterschied zwischen den Erwartungswerten verschiedener Gruppen), berechnet F-Statistik wird viel größer als eins sein, da ihr Zähler, MSA, zusätzlich zur natürlichen Variabilität der Daten, die Wirkung von experimentellen Bedingungen oder den Unterschied zwischen Gruppen schätzt, während der Nenner MSW nur ​​die natürliche Variabilität der Daten schätzt. Somit ist das ANOVA-Verfahren F ist ein Test, bei dem bei gegebenem Signifikanzniveau α die Nullhypothese verworfen wird, wenn sie berechnet wird F- Statistiken sind größer als der obere kritische Wert FU inhärent F- Verteilung mit s - 1 Freiheitsgrade im Zähler und n - mit Freiheitsgrade im Nenner, wie in Abb. vier.

Um die einseitige Varianzanalyse zu veranschaulichen, kehren wir zu dem Szenario zurück, das am Anfang der Notiz skizziert wurde. Ziel des Experiments ist es festzustellen, ob Fallschirme, die aus synthetischen Fasern verschiedener Lieferanten gewebt sind, die gleiche Festigkeit aufweisen. Jede Gruppe hat fünf Fallschirme gewebt. Die Gruppen werden nach Lieferanten eingeteilt – Lieferant 1, Lieferant 2, Lieferant 3 und Lieferant 4. Die Stärke von Fallschirmen wird mit einem speziellen Gerät gemessen, das das Gewebe auf beiden Seiten auf Reißen prüft. Die Kraft, die erforderlich ist, um einen Fallschirm zu zerbrechen, wird auf einer speziellen Skala gemessen. Je höher die Bruchkraft, desto stärker der Fallschirm. Excel ermöglicht Analysen F-Statistiken mit einem Klick. Gehen Sie durch das Menü DatenDatenanalyse, und wählen Sie die Zeile aus Einweganalyse der Varianz, füllen Sie das geöffnete Fenster aus (Abb. 5). Die Ergebnisse des Experiments (Gap-Stärke), einige deskriptive Statistiken und die Ergebnisse der Einweg-Varianzanalyse sind in den Fig. 6 und 7 gezeigt. 6.

Reis. 5. Fenster Einweg-ANOVA-Analysepaketübertreffen

Reis. Abb. 6. Festigkeitsindikatoren von Fallschirmen aus synthetischen Fasern, die von verschiedenen Lieferanten bezogen wurden, deskriptive Statistiken und Ergebnisse einer einseitigen Varianzanalyse

Eine Analyse von Abbildung 6 zeigt, dass es einen gewissen Unterschied zwischen den Mittelwerten der Stichprobe gibt. Die durchschnittliche Festigkeit der vom ersten Lieferanten erhaltenen Fasern beträgt 19,52, vom zweiten - 24,26, vom dritten - 22,84 und vom vierten - 21,16. Ist dieser Unterschied statistisch signifikant? Die Bruchkraftverteilung ist im Streudiagramm (Abb. 7) dargestellt. Es zeigt deutlich die Unterschiede sowohl zwischen Gruppen als auch innerhalb von ihnen. Wenn das Volumen jeder Gruppe größer wäre, könnten sie mit einem Stamm- und Blattdiagramm, einem Boxplot oder einem Normalverteilungsdiagramm analysiert werden.

Reis. 7. Kraftverteilungsdiagramm von Fallschirmen, die aus synthetischen Fasern gewebt wurden, die von vier Lieferanten bezogen wurden

Die Nullhypothese besagt, dass es keine signifikanten Unterschiede zwischen den mittleren Festigkeitswerten gibt: H 0: μ 1 = μ 2 = μ 3 = μ 4. Eine alternative Hypothese ist, dass es mindestens einen Lieferanten gibt, dessen durchschnittliche Faserstärke sich von anderen unterscheidet: H1: nicht alle μ j sind gleich ( j = 1, 2, …, Mit).

Gesamtdurchschnitt (siehe Abbildung 6) = MITTELWERT (D12:D15) = 21,945; Zur Bestimmung können Sie auch alle 20 Originalzahlen mitteln: \u003d AVERAGE (A3: D7). Varianzwerte werden berechnet Analysepaket und spiegeln sich in der Tabelle wider Varianzanalyse(siehe Abb. 6): SSA = 63,286, SSW = 97,504, SST = 160,790 (siehe Spalte SS Tische Varianzanalyse Abbildung 6). Mittelwerte werden berechnet, indem diese Quadratsummen durch die entsprechende Anzahl von Freiheitsgraden dividiert werden. Weil die Mit= 4 und n= 20 erhalten wir folgende Werte der Freiheitsgrade; für SSA: s - 1= 3; für SSW: n–c= 16; für SST: n - 1= 19 (siehe Spalte df). Also: MSA = SSA / ( c - 1)= 21,095; MSW=SSW/( n–c) = 6,094; MST = SST / ( n - 1) = 8,463 (siehe Spalte FRAU). F-Statistik = MSA / MSW = 3,462 (siehe Spalte F).

Oberer kritischer Wert FU, charakteristisch für F-Verteilung, wird bestimmt durch die Formel = F. OBR (0,95; 3; 16) = 3,239. Funktionsparameter =F.OBR(): α = 0,05, der Zähler hat drei Freiheitsgrade und der Nenner ist 16. Somit ist der berechnete F-Statistik gleich 3,462 überschreitet den oberen kritischen Wert FU= 3,239 wird die Nullhypothese verworfen (Abb. 8).

Reis. 8. Kritischer Bereich der Varianzanalyse bei einem Signifikanzniveau von 0,05, wenn der Zähler drei Freiheitsgrade hat und der Nenner -16 ist

R-Wert, d.h. die Wahrscheinlichkeit, dass unter einer wahren Nullhypothese F- Statistiken nicht weniger als 3,46, gleich 0,041 oder 4,1% (siehe Spalte p-Wert Tische Varianzanalyse Abbildung 6). Da dieser Wert das Signifikanzniveau α = 5 % nicht überschreitet, wird die Nullhypothese verworfen. Außerdem, R-Wert gibt an, dass die Wahrscheinlichkeit, einen solchen oder einen großen Unterschied zwischen den mathematischen Erwartungen der Allgemeinbevölkerung zu finden, sofern sie tatsächlich gleich sind, 4,1 % beträgt.

So. Es gibt einen Unterschied zwischen den vier Stichprobenmittelwerten. Die Nullhypothese war, dass alle mathematischen Erwartungen der vier Populationen gleich sind. Unter diesen Bedingungen wird ein Maß der Gesamtvariabilität (d. h. Gesamt-SST-Variation) der Stärke aller Fallschirme berechnet, indem die quadrierten Differenzen zwischen jeder Beobachtung summiert werden Xij und Gesamtdurchschnitt . Dann wurde die Gesamtvariation in zwei Komponenten aufgeteilt (siehe Abb. 1). Die erste Komponente war die Intergruppen-Variation in SSA und die zweite Komponente war die Intragruppen-Variation in SSW.

Was erklärt die Variabilität in den Daten? Mit anderen Worten, warum sind nicht alle Beobachtungen gleich? Ein Grund dafür ist, dass verschiedene Firmen Fasern mit unterschiedlichen Stärken liefern. Dies erklärt zum Teil, warum die Gruppen unterschiedliche Erwartungswerte haben: Je stärker die Wirkung der Versuchsbedingungen, desto größer die Differenz zwischen den Mittelwerten der Gruppen. Ein weiterer Grund für die Datenvariabilität ist die natürliche Variabilität jedes Prozesses, in diesem Fall der Herstellung von Fallschirmen. Selbst wenn alle Fasern vom selben Lieferanten gekauft würden, wäre ihre Stärke nicht gleich, wenn alle anderen Dinge gleich wären. Da dieser Effekt in jeder der Gruppen auftritt, wird er als Variation innerhalb der Gruppe bezeichnet.

Die Unterschiede zwischen den Stichprobenmittelwerten werden als Intergruppenvariation der SSA bezeichnet. Ein Teil der gruppeninternen Variation erklärt sich, wie bereits erwähnt, dadurch, dass die Daten zu unterschiedlichen Gruppen gehören. Aber selbst wenn die Gruppen genau gleich wären (d. h. die Nullhypothese wäre wahr), würde es immer noch Variationen zwischen den Gruppen geben. Der Grund dafür liegt in der natürlichen Variabilität des Fallschirmherstellungsprozesses. Da die Proben unterschiedlich sind, unterscheiden sich ihre Probenmittelwerte voneinander. Wenn die Nullhypothese wahr ist, sind daher sowohl die Variabilität zwischen den Gruppen als auch die Variabilität innerhalb der Gruppen Schätzungen der Populationsvariabilität. Wenn die Nullhypothese falsch ist, wird die Zwischengruppenhypothese größer sein. Diese Tatsache liegt zugrunde F-Kriterien für den Vergleich der Unterschiede zwischen den mathematischen Erwartungen mehrerer Gruppen.

Nachdem eine einseitige ANOVA durchgeführt und signifikante Unterschiede zwischen Unternehmen festgestellt wurden, bleibt unbekannt, welcher Anbieter sich signifikant von den anderen unterscheidet. Wir wissen nur, dass die mathematischen Erwartungen der Bevölkerungen nicht gleich sind. Mit anderen Worten, mindestens eine der mathematischen Erwartungen unterscheidet sich signifikant von den anderen. Um festzustellen, welcher Anbieter sich von den anderen unterscheidet, können Sie verwenden Tukey-Verfahren, das einen paarweisen Vergleich zwischen Anbietern verwendet. Dieses Verfahren wurde von John Tukey entwickelt. Anschließend modifizierten er und C. Cramer dieses Verfahren unabhängig voneinander für Situationen, in denen sich die Stichprobengrößen voneinander unterscheiden.

Mehrfachvergleich: Tukey-Kramer-Verfahren

In unserem Szenario wurde eine Einweg-Varianzanalyse verwendet, um die Stärke von Fallschirmen zu vergleichen. Nachdem signifikante Unterschiede zwischen den mathematischen Erwartungen der vier Gruppen gefunden wurden, ist es notwendig zu bestimmen, welche Gruppen sich voneinander unterscheiden. Obwohl es mehrere Möglichkeiten gibt, dieses Problem zu lösen, beschreiben wir hier nur das Tukey-Kramer-Mehrfachvergleichsverfahren. Dieses Verfahren ist ein Beispiel für Post-hoc-Vergleichsverfahren, da die zu testende Hypothese nach der Datenanalyse formuliert wird. Mit dem Tukey-Kramer-Verfahren können Sie alle Gruppenpaare gleichzeitig vergleichen. In der ersten Stufe werden die Differenzen berechnet Xj - Xj, wo j ≠j, zwischen mathematischen Erwartungen s(s – 1)/2 Gruppen. Kritische Spanne Das Tukey-Kramer-Verfahren wird nach folgender Formel berechnet:

wo Q U- der obere kritische Wert der Verteilung des studentisierten Bereichs, der hat Mit Freiheitsgrade im Zähler und n - Mit Freiheitsgrade im Nenner.

Sind die Stichprobenumfänge nicht gleich, wird der kritische Bereich für jedes mathematische Erwartungspaar separat berechnet. In der letzten Phase, jeder s(s – 1)/2 mathematischen Erwartungspaaren mit dem entsprechenden kritischen Bereich verglichen. Die Elemente eines Paares gelten als signifikant unterschiedlich, wenn der Betrag der Differenz | Xj - Xj| zwischen ihnen den kritischen Bereich überschreitet.

Wenden wir das Tukey-Cramer-Verfahren auf das Problem der Stärke von Fallschirmen an. Da die Fallschirmfirma vier Lieferanten hat, sollten 4(4 – 1)/2 = 6 Paar Lieferanten getestet werden (Abbildung 9).

Reis. 9. Paarweise Vergleiche von Stichprobenmittelwerten

Da alle Gruppen das gleiche Volumen haben (also alle NJ = NJ), reicht es aus, nur einen kritischen Bereich zu berechnen. Dazu laut Tabelle ANOVA(Abb. 6) ermitteln wir den Wert von MSW = 6,094. Dann finden wir den Wert Q U bei α = 0,05, Mit= 4 (Anzahl der Freiheitsgrade im Zähler) und n- Mit= 20 – 4 = 16 (die Anzahl der Freiheitsgrade im Nenner). Leider habe ich die entsprechende Funktion in Excel nicht gefunden, also habe ich die Tabelle (Abb. 10) verwendet.

Reis. 10. Kritischer Wert des studentisierten Bereichs Q U

Wir bekommen:

Da nur 4,74 > 4,47 (siehe unterste Tabelle in Abbildung 9) ist, besteht ein statistisch signifikanter Unterschied zwischen Erst- und Zweitlieferant. Alle anderen Paare haben Stichprobenmittelwerte, die es uns nicht erlauben, über ihre Unterschiede zu sprechen. Folglich ist die durchschnittliche Festigkeit von Fallschirmen, die aus vom ersten Lieferanten gekauften Fasern gewebt sind, deutlich geringer als die des zweiten.

Notwendige Bedingungen für eine einseitige Varianzanalyse

Bei der Lösung des Problems der Festigkeit von Fallschirmen haben wir nicht geprüft, ob die Bedingungen erfüllt sind, unter denen man den Einfaktor anwenden kann F-Kriterium. Woher wissen Sie, ob Sie Single-Factor anwenden können? F-Kriterium bei der Analyse spezifischer experimenteller Daten? Einziger Faktor F Der -Test kann nur angewendet werden, wenn drei Grundannahmen erfüllt sind: Die experimentellen Daten müssen zufällig und unabhängig sein, eine Normalverteilung haben und ihre Varianzen müssen gleich sein.

Die erste Vermutung ist Zufälligkeit und Datenunabhängigkeit- sollte immer durchgeführt werden, da die Korrektheit jedes Experiments von der Zufälligkeit der Auswahl und / oder des Randomisierungsprozesses abhängt. Um die Ergebnisse nicht zu verfälschen, müssen die Daten extrahiert werden Mit Populationen zufällig und unabhängig voneinander. Ebenso sollten die Daten zufällig verteilt werden Mit Ebenen des für uns interessanten Faktors (Versuchsgruppen). Ein Verstoß gegen diese Bedingungen kann die Ergebnisse der Varianzanalyse ernsthaft verfälschen.

Die zweite Vermutung ist Normalität- bedeutet, dass die Daten aus normalverteilten Grundgesamtheiten stammen. Wie für t-Kriterium, Einweganalyse der Varianz basierend auf F-Kriterium ist relativ unempfindlich gegenüber der Verletzung dieser Bedingung. Wenn die Verteilung nicht zu weit von der Normalverteilung entfernt ist, das Signifikanzniveau F-Kriterium ändert sich wenig, insbesondere wenn die Stichprobengröße groß genug ist. Wenn die Bedingung der Normalverteilung ernsthaft verletzt wird, sollte sie angewendet werden.

Die dritte Vermutung ist Gleichmäßigkeit der Dispersion- bedeutet, dass die Varianzen jeder Grundgesamtheit gleich sind (d. h. σ 1 2 = σ 2 2 = … = σ j 2). Diese Annahme ermöglicht die Entscheidung, ob die Varianzen innerhalb der Gruppe getrennt oder zusammengelegt werden sollen. Wenn die Volumina der Gruppen gleich sind, hat die Bedingung der Homogenität der Varianz wenig Einfluss auf die Schlussfolgerungen, die mit verwendet werden F-Kriterien. Wenn die Stichprobenumfänge jedoch nicht gleich sind, kann ein Verstoß gegen die Bedingung der Varianzgleichheit die Ergebnisse der Varianzanalyse ernsthaft verfälschen. Daher sollte man sich bemühen sicherzustellen, dass die Stichprobengrößen gleich sind. Eine der Methoden zur Überprüfung der Annahme über die Homogenität der Varianz ist das Kriterium Levenay nachstehend beschrieben.

Wird von allen drei Bedingungen nur die Bedingung der Gleichmäßigkeit der Dispersion verletzt, so wird analog verfahren t-Kriterium mit separater Varianz (siehe Details). Wenn jedoch die Annahmen der Normalverteilung und der Varianzhomogenität gleichzeitig verletzt werden, ist es notwendig, die Daten zu normalisieren und die Unterschiede zwischen den Varianzen zu reduzieren oder ein nichtparametrisches Verfahren anzuwenden.

Leveneys Kriterium zur Überprüfung der Varianzhomogenität

Trotz der Tatsache, dass F- Das Kriterium ist relativ resistent gegen Verletzungen der Bedingung der Varianzgleichheit in Gruppen, ein grober Verstoß gegen diese Annahme wirkt sich erheblich auf das Signifikanzniveau und die Aussagekraft des Kriteriums aus. Vielleicht ist eines der mächtigsten das Kriterium Levenay. Um die Gleichheit der Varianzen zu überprüfen Mit Allgemeinbevölkerung werden wir die folgenden Hypothesen testen:

H 0: σ 1 2 = σ 2 2 = ... = σj 2

H1: nicht alle σ j 2 sind gleich ( j = 1, 2, …, Mit)

Der modifizierte Leveney-Test basiert auf der Behauptung, dass bei gleicher Variabilität in Gruppen eine Analyse der Varianz der absoluten Werte der Unterschiede zwischen Beobachtungen und Gruppenmedianen angewendet werden kann, um die Nullhypothese der Varianzgleichheit zu testen. Sie sollten also zuerst die Absolutwerte der Differenzen zwischen den Beobachtungen und den Medianen in jeder Gruppe berechnen und dann eine Einweg-Varianzanalyse der erhaltenen Absolutwerte der Differenzen durchführen. Um das Levenay-Kriterium zu veranschaulichen, kehren wir zu dem Szenario zurück, das am Anfang der Notiz skizziert wurde. Unter Verwendung der in Abb. 6 werden wir eine ähnliche Analyse durchführen, jedoch in Bezug auf die Module der Unterschiede in den Anfangsdaten und Medianen für jede Stichprobe separat (Abb. 11).

Wozu dient die Varianzanalyse? Der Zweck der Varianzanalyse besteht darin, das Vorhandensein oder Fehlen eines signifikanten Einflusses eines qualitativen oder quantitativen Faktors auf Änderungen des untersuchten effektiven Merkmals zu untersuchen. Dazu wird der Faktor, der vermutlich einen signifikanten Einfluss hat oder nicht, in Abstufungsklassen (also Gruppen) eingeteilt und festgestellt, ob der Einfluss des Faktors gleich ist, indem die Signifikanz zwischen den Mittelwerten in untersucht wird die Datensätze entsprechen den Abstufungen des Faktors. Beispiele: Die Abhängigkeit des Gewinns eines Unternehmens von der Art der eingesetzten Rohstoffe wird untersucht (die Abstufungsklassen sind dann die Rohstoffarten), die Abhängigkeit der Produktionskosten einer Produktionseinheit von der Größe des Unternehmens Teilung (dann sind die Abstufungsklassen die Merkmale der Größe der Einheit: groß, mittel, klein).

Die Mindestanzahl der Abschlussklassen (Gruppen) beträgt zwei. Einstufungsklassen können entweder qualitativ oder quantitativ sein.

Warum wird die Varianzanalyse Dispersionsanalyse genannt? Die Varianzanalyse untersucht das Verhältnis zweier Varianzen. Streuung ist, wie wir wissen, ein Maß für die Streuung von Daten um den Mittelwert. Die erste ist die durch den Einfluss des Faktors erklärte Varianz, die die Streuung der Werte zwischen den Abstufungen des Faktors (Gruppen) um den Mittelwert aller Daten charakterisiert. Die zweite ist die unerklärte Varianz, die die Streuung von Daten innerhalb von Abstufungen (Gruppen) um die Mittelwerte der Gruppen selbst charakterisiert. Die erste Streuung kann als Intergruppe und die zweite als Intragruppe bezeichnet werden. Das Verhältnis dieser Abweichungen wird als tatsächliches Fisher-Verhältnis bezeichnet und mit dem kritischen Wert des Fisher-Verhältnisses verglichen. Wenn das tatsächliche Fisher-Verhältnis größer als das kritische ist, dann unterscheiden sich die durchschnittlichen Abstufungsklassen voneinander und der untersuchte Faktor beeinflusst die Änderung der Daten erheblich. Wenn weniger, dann unterscheiden sich die durchschnittlichen Graduierungsklassen nicht voneinander und der Faktor hat keinen signifikanten Einfluss.

Wie werden Hypothesen in der Varianzanalyse formuliert, akzeptiert und verworfen? Bestimmen Sie in der Varianzanalyse spezifisches Gewicht die kombinierte Wirkung eines oder mehrerer Faktoren. Die Signifikanz des Einflusses des Faktors wird durch das Testen von Hypothesen bestimmt:

  • H0 : μ 1 = μ 2 = ... = μ a, wo a- Anzahl der Gradationsklassen - alle Gradationsklassen haben einen Mittelwert,
  • H1 : nicht alle μ ich gleich sind - nicht alle Gradationsklassen haben den gleichen Mittelwert.

Ist der Einfluss eines Faktors nicht signifikant, so ist auch der Unterschied zwischen den Abstufungsklassen dieses Faktors nicht signifikant und im Zuge der Varianzanalyse die Nullhypothese H0 wird nicht abgelehnt. Wenn der Einfluss des Faktors signifikant ist, dann die Nullhypothese H0 abgelehnt: nicht alle Gradationsklassen haben denselben Mittelwert, d. h. unter den möglichen Unterschieden zwischen Gradationsklassen sind eine oder mehrere signifikant.

Einige weitere Konzepte der Varianzanalyse. Ein statistischer Komplex in der Dispersionsanalyse ist eine Tabelle mit empirischen Daten. Wenn in allen Graduierungsklassen die gleiche Nummer Optionen, dann wird der statistische Komplex als homogen (homogen) bezeichnet, wenn die Anzahl der Optionen unterschiedlich ist - heterogen (heterogen).

Je nach Anzahl der geschätzten Faktoren wird zwischen einfaktorieller, zweifaktorieller und mehrfaktorieller Varianzanalyse unterschieden.

Einweg-Varianzanalyse: das Wesen der Methode, Formeln, Beispiele

Die Essenz der Methode, Formeln

beruht darauf, dass die Summe der quadrierten Abweichungen des statistischen Komplexes in Komponenten zerlegt werden kann:

SS = SS ein + SS e,

SS

SSa a Summe der quadrierten Abweichungen,

SSe ist die unerklärte Summe der quadratischen Abweichungen oder die Summe der quadratischen Abweichungen des Fehlers.

Wenn durch nich Geben Sie die Anzahl der Optionen in jeder Abstufungsklasse (Gruppe) an und a - Gesamtzahl Abstufungen des Faktors (Gruppen), dann - die Gesamtzahl der Beobachtungen und Sie können die folgenden Formeln erhalten:

Gesamtzahl der quadrierten Abweichungen: ,

erklärt durch den Einfluss des Faktors a Summe der quadrierten Abweichungen: ,

unerklärte Summe quadrierter Abweichungen oder Summe quadrierter Fehlerabweichungen: ,

- Gesamtdurchschnitt der Beobachtungen,

(Gruppe).

Außerdem,

wobei die Gradationsstreuung des Faktors (der Gruppe) ist.

Um eine einseitige Varianzanalyse der Daten eines statistischen Komplexes durchzuführen, müssen Sie das tatsächliche Fisher-Verhältnis finden - das Verhältnis der Varianz, die durch den Einfluss des Faktors (Intergruppe) erklärt wird, und der unerklärten Varianz (Intragruppe):

und vergleichen Sie ihn mit Fishers kritischem Wert.

Abweichungen werden wie folgt berechnet:

erklärte Varianz,

unerklärliche Varianz,

vein = a − 1 ist die Anzahl der Freiheitsgrade der erklärten Dispersion,

ve= na ist die Anzahl der Freiheitsgrade der unerklärten Streuung,

v = n

Der kritische Wert des Fisher-Verhältnisses mit bestimmten Werten des Signifikanzniveaus und der Freiheitsgrade kann in statistischen Tabellen gefunden oder mit der MS-Excel-F.OBR-Funktion berechnet werden (die Abbildung unten, zum Vergrößern mit anklicken). Linke Maustaste).


Die Funktion erfordert die Eingabe folgender Daten:

Wahrscheinlichkeit - Signifikanzniveau α ,

Degrees_of_Freedom1 - die Anzahl der Freiheitsgrade der erklärten Varianz va,

Degrees_of_Freedom2 - Anzahl der Freiheitsgrade mit unerklärter Varianz ve.

Wenn der tatsächliche Wert des Fisher-Verhältnisses größer ist als der kritische Wert (), wird die Nullhypothese mit einem Signifikanzniveau verworfen α . Das bedeutet, dass der Faktor die Änderung der Daten maßgeblich beeinflusst und die Daten mit einer Wahrscheinlichkeit von dem Faktor abhängig sind P = 1 − α .

Wenn der tatsächliche Wert des Fisher-Verhältnisses kleiner als der kritische Wert () ist, kann die Nullhypothese nicht mit einem Signifikanzniveau verworfen werden α . Das bedeutet, dass der Faktor die Daten mit der Wahrscheinlichkeit nicht signifikant beeinflusst P = 1 − α .

Einfache ANOVA: Beispiele

Beispiel 1 Es muss festgestellt werden, ob die Art der verwendeten Rohstoffe den Gewinn des Unternehmens beeinflusst. In sechs Abstufungsklassen (Gruppen) des Faktors (Typ 1, Typ 2 usw.) wurden Daten über den Gewinn aus der Produktion von 1000 Einheiten von Produkten in Millionen Rubel über 4 Jahre gesammelt.

Art des Rohstoffs2014 2015 2016 2017
17,21 7,55 7,29 7,6
27,89 8,27 7,39 8,18
37,25 7,01 7,37 7,53
47,75 7,41 7,27 7,42
5.7,7 8,28 8,55 8,6
6.7,56 8,05 8,07 7,84
Durchschnitt
Streuung
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

a= 6 und in jeder Klasse (Gruppe) nich = 4 Beobachtungen. Gesamtzahl der Beobachtungen n = 24 .

Anzahl der Freiheitsgrade:

vein = a − 1 = 6 − 1 = 5 ,

ve= na = 24 − 6 = 18 ,

v = n − 1 = 24 − 1 = 23 .

Lassen Sie uns die Abweichungen berechnen:

.

.

Da das tatsächliche Fisher-Verhältnis größer als das kritische ist:

mit Signifikanzniveau α = 0,05 schließen wir, dass der Gewinn des Unternehmens je nach Art der in der Produktion verwendeten Rohstoffe erheblich unterschiedlich ist.

Oder, was dasselbe ist, wir lehnen die Haupthypothese über die Gleichheit der Mittelwerte in allen Klassen der Faktorabstufung (Gruppen) ab.

In dem gerade betrachteten Beispiel hatte jede Faktorabstufungsklasse die gleiche Anzahl von Optionen. Aber wie im einleitenden Teil erwähnt, kann die Anzahl der Optionen unterschiedlich sein. Und dies erschwert in keiner Weise das Verfahren zur Varianzanalyse. Dies ist das nächste Beispiel.

Beispiel 2 Es ist zu klären, ob eine Abhängigkeit der Produktionsstückkosten von der Größe der Unternehmenseinheit besteht. Der Faktor (Unterteilungswert) wird in drei Abstufungsklassen (Gruppen) eingeteilt: klein, mittel, groß. Die diesen Gruppen entsprechenden Daten zu den Produktionskosten einer Einheit des gleichen Produkttyps für einen bestimmten Zeitraum werden zusammengefasst.

kleinDurchschnittgroß
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Durchschnitt58,6 54,0 51,0
Streuung128,25 65,00 107,60

Anzahl Faktorabstufungsklassen (Gruppen) a= 3 , Anzahl Beobachtungen in Klassen (Gruppen) n1 = 4 , n2 = 7 , n3 = 6 . Gesamtzahl der Beobachtungen n = 17 .

Anzahl der Freiheitsgrade:

vein = a − 1 = 2 ,

ve= na = 17 − 3 = 14 ,

v = n − 1 = 16 .

Lassen Sie uns die Summen der quadrierten Abweichungen berechnen:

Lassen Sie uns die Abweichungen berechnen:

,

.

Lassen Sie uns das tatsächliche Fisher-Verhältnis berechnen:

.

Der kritische Wert des Fisher-Verhältnisses:

Da der tatsächliche Wert des Fisher-Verhältnisses kleiner als der kritische Wert ist: , schließen wir daraus, dass die Größe der Unternehmenseinheit keinen signifikanten Einfluss auf die Produktionskosten hat.

Oder, was dasselbe ist, wir akzeptieren mit einer Wahrscheinlichkeit von 95% die Haupthypothese, dass sich die durchschnittlichen Kosten für die Herstellung einer Einheit desselben Produkts in kleinen, mittleren und großen Unternehmensbereichen nicht wesentlich unterscheiden.

Einfache ANOVA in MS Excel

Eine einseitige Varianzanalyse kann mit dem MS-Excel-Verfahren durchgeführt werden Einweganalyse der Varianz. Wir verwenden es, um Daten zum Zusammenhang zwischen der Art der verwendeten Rohstoffe und dem Gewinn des Unternehmens aus Beispiel 1 zu analysieren.

Service/Datenanalyse und wählen Sie ein Analysetool aus Einweganalyse der Varianz.

im Fenster Eingabeintervall Geben Sie den Datenbereich an (in unserem Fall ist es $A$2:$E$7). Wir geben an, wie der Faktor gruppiert ist – nach Spalten oder nach Zeilen (in unserem Fall nach Zeilen). Wenn die erste Spalte die Namen der Faktorklassen enthält, aktivieren Sie das Kontrollkästchen Beschriftungen in der ersten Spalte. Im Fenster Alpha geben das Signifikanzniveau an α = 0,05 .

Die zweite Tabelle – Varianzanalyse – enthält Daten zu den Werten für den Faktor zwischen Gruppen und innerhalb von Gruppen und Summen. Dies sind die Summe der quadratischen Abweichungen (SS), die Anzahl der Freiheitsgrade (df) und die Streuung (MS). In den letzten drei Spalten - der tatsächliche Wert des Fisher-Verhältnisses (F), p-Level (P-Wert) und der kritische Wert des Fisher-Verhältnisses (F crit).

FRAU F p-Wert Fkrit
0,58585 6,891119 0,000936 2,77285
0,085017

Da der tatsächliche Wert des Fisher-Verhältnisses (6,89) größer als der kritische Wert (2,77) ist, lehnen wir mit einer Wahrscheinlichkeit von 95 % die Nullhypothese über die Gleichheit der durchschnittlichen Produktivität bei Verwendung aller Arten von Rohstoffen ab, dh wir schlussfolgern, dass die Art der verwendeten Rohstoffe gewinnorientierte Unternehmen beeinflusst.

Zwei-Wege-Varianzanalyse ohne Wiederholungen: das Wesen der Methode, Formeln, Beispiel

Die zweifache Varianzanalyse wird verwendet, um die mögliche Abhängigkeit des effektiven Merkmals von zwei Faktoren zu überprüfen - EIN und B. Dann a- Anzahl der Abstufungen des Faktors EIN und b- Anzahl der Abstufungen des Faktors B. Im statistischen Komplex wird die Summe der Quadrate der Residuen in drei Komponenten unterteilt:

SS = SS ein + SS b+ SS e,

ist die Gesamtsumme der quadrierten Abweichungen,

- erklärt durch den Einfluss des Faktors EIN Summe der quadrierten Abweichungen,

- erklärt durch den Einfluss des Faktors B Summe der quadrierten Abweichungen,

- Gesamtdurchschnitt der Beobachtungen,

Durchschnitt der Beobachtungen in jeder Abstufung des Faktors EIN ,

B .

EIN ,

Streuung erklärt durch den Einfluss des Faktors B ,

vein = a − 1 EIN ,

vb= b − 1 - die Anzahl der Freiheitsgrade der Dispersion, erklärt durch den Einfluss des Faktors B ,

ve = ( a − 1)(b − 1)

v = ab− 1 - Gesamtzahl der Freiheitsgrade.

Wenn die Faktoren voneinander unabhängig sind, werden zwei Nullhypothesen und die entsprechenden Alternativhypothesen aufgestellt, um die Signifikanz der Faktoren zu bestimmen:

für den Faktor EIN :

H0 : μ 1A= μ 2A = ... = μ aA,

H1 : nicht alle μ ich sind gleich;

für den Faktor B :

H0 : μ 1B= μ 2B=...= μ aB,

H1 : nicht alle μ iB sind gleich.

EIN

Um den Einfluss eines Faktors zu bestimmen B müssen wir das tatsächliche Fisher-Verhältnis mit dem kritischen Fisher-Verhältnis vergleichen.

α P = 1 − α .

α P = 1 − α .

Zweiweg-Varianzanalyse ohne Wiederholungen: ein Beispiel

Beispiel 3 Je nach Motorisierung und Kraftstoffart werden Angaben zum durchschnittlichen Kraftstoffverbrauch pro 100 Kilometer in Litern gemacht.

Es ist zu prüfen, ob der Kraftstoffverbrauch von der Motorgröße und der Art des Kraftstoffs abhängt.

Lösung. Für den Faktor EIN Anzahl der Abschlussklassen a= 3 für den Faktor B Anzahl der Abschlussklassen b = 3 .

Wir berechnen die Summen der quadrierten Abweichungen:

,

,

,

.

Relevante Abweichungen:

,

,

.

EIN . Da das tatsächliche Fisher-Verhältnis kleiner als das kritische Verhältnis ist, akzeptieren wir mit einer Wahrscheinlichkeit von 95 % die Hypothese, dass die Motorgröße keinen Einfluss auf den Kraftstoffverbrauch hat. Wenn wir jedoch das Signifikanzniveau wählen α = 0,1 , dann der tatsächliche Wert des Fisher-Verhältnisses und dann können wir mit einer Wahrscheinlichkeit von 95 % akzeptieren, dass die Motorgröße den Kraftstoffverbrauch beeinflusst.

Tatsächliches Fisher-Verhältnis für einen Faktor B , der kritische Wert des Fisher-Verhältnisses: . Da das tatsächliche Fisher-Verhältnis größer als der kritische Wert des Fisher-Verhältnisses ist, gehen wir mit einer Wahrscheinlichkeit von 95 % davon aus, dass die Art des Kraftstoffs seinen Verbrauch beeinflusst.

Zwei-Wege-Varianzanalyse ohne Wiederholungen in MS Excel

Eine Zweiweg-Varianzanalyse ohne Wiederholungen kann mit dem MS-Excel-Verfahren durchgeführt werden. Wir verwenden es, um Daten zum Zusammenhang zwischen der Art des Kraftstoffs und seinem Verbrauch aus Beispiel 3 zu analysieren.

Führen Sie im Menü von MS Excel den Befehl aus Service/Datenanalyse und wählen Sie ein Analysetool aus Zweiweg-Varianzanalyse ohne Wiederholungen.

Wir füllen die Daten auf die gleiche Weise wie im Fall der einfachen ANOVA aus.


Als Ergebnis des Verfahrens werden zwei Tabellen angezeigt. Die erste Tabelle ist Summen. Es enthält Daten zu allen Klassen der Faktorabstufung: Anzahl der Beobachtungen, Gesamtwert, Mittelwert und Varianz.

Die zweite Tabelle – Varianzanalyse – enthält Daten zu den Variationsquellen: Streuung zwischen Zeilen, Streuung zwischen Spalten, Fehlerstreuung, Gesamtstreuung, Summe der quadrierten Abweichungen (SS), Anzahl der Freiheitsgrade (df), Varianz (MS ). In den letzten drei Spalten - der tatsächliche Wert des Fisher-Verhältnisses (F), p-Level (P-Wert) und der kritische Wert des Fisher-Verhältnisses (F crit).

FRAU F p-Wert Fkrit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

Faktor EIN(Motorgröße) ist in Zeilen gruppiert. Da das tatsächliche Fisher-Verhältnis von 5,28 kleiner als die kritischen 6,94 ist, gehen wir mit 95%iger Wahrscheinlichkeit davon aus, dass der Kraftstoffverbrauch nicht von der Motorgröße abhängt.

Faktor B(Brennstoffart) ist in Spalten gruppiert. Das tatsächliche Fisher-Verhältnis von 13,56 ist größer als das kritische Verhältnis von 6,94, daher gehen wir mit einer Wahrscheinlichkeit von 95 % davon aus, dass der Kraftstoffverbrauch vom Typ abhängt.

Zweiwege-Varianzanalyse mit Wiederholungen: das Wesen der Methode, Formeln, Beispiel

Die zweifache Varianzanalyse mit Wiederholungen wird verwendet, um nicht nur die mögliche Abhängigkeit des effektiven Merkmals von zwei Faktoren zu überprüfen - EIN und B, sondern auch das mögliche Zusammenwirken von Faktoren EIN und B. Dann a- Anzahl der Abstufungen des Faktors EIN und b- Anzahl der Abstufungen des Faktors B, r- Anzahl der Wiederholungen. Im statistischen Komplex wird die Summe der quadrierten Residuen in vier Komponenten unterteilt:

SS = SS ein + SS b+ SS ab + SS e,

ist die Gesamtsumme der quadrierten Abweichungen,

- erklärt durch den Einfluss des Faktors EIN Summe der quadrierten Abweichungen,

- erklärt durch den Einfluss des Faktors B Summe der quadrierten Abweichungen,

- erklärt durch den Einfluss des Zusammenspiels von Faktoren EIN und B Summe der quadrierten Abweichungen,

- unerklärte Summe quadrierter Abweichungen oder Summe quadrierter Fehlerabweichungen,

- Gesamtdurchschnitt der Beobachtungen,

- Durchschnitt der Beobachtungen in jeder Abstufung des Faktors EIN ,

- die durchschnittliche Anzahl der Beobachtungen in jeder Abstufung des Faktors B ,

Durchschnittliche Anzahl der Beobachtungen in jeder Kombination von Faktorabstufungen EIN und B ,

n = Abr ist die Gesamtzahl der Beobachtungen.

Die Abweichungen werden wie folgt berechnet:

Streuung erklärt durch den Einfluss des Faktors EIN ,

Streuung erklärt durch den Einfluss des Faktors B ,

- Streuung erklärt durch das Zusammenspiel von Faktoren EIN und B ,

- unerklärliche Varianz oder Fehlervarianz,

vein = a − 1 - die Anzahl der Freiheitsgrade der Dispersion, erklärt durch den Einfluss des Faktors EIN ,

vb= b − 1 - die Anzahl der Freiheitsgrade der Dispersion, erklärt durch den Einfluss des Faktors B ,

vab = ( a − 1)(b − 1) - die Anzahl der Freiheitsgrade der Dispersion, erklärt durch das Zusammenwirken von Faktoren EIN und B ,

ve= ab(r − 1) ist die Anzahl der Freiheitsgrade der unerklärten oder Fehlervarianz,

v = Abr− 1 - Gesamtzahl der Freiheitsgrade.

Wenn die Faktoren voneinander unabhängig sind, werden drei Nullhypothesen und die entsprechenden Alternativhypothesen aufgestellt, um die Signifikanz der Faktoren zu bestimmen:

für den Faktor EIN :

H0 : μ 1A= μ 2A = ... = μ aA,

H1 : nicht alle μ ich sind gleich;

für den Faktor B :

Bestimmung des Einflusses des Zusammenspiels von Faktoren EIN und B müssen wir das tatsächliche Fisher-Verhältnis mit dem kritischen Fisher-Verhältnis vergleichen.

Wenn das tatsächliche Fisher-Verhältnis größer als das kritische Fisher-Verhältnis ist, sollte die Nullhypothese mit einem Signifikanzniveau verworfen werden α . Dies bedeutet, dass der Faktor die Daten erheblich beeinflusst: Die Daten hängen mit einer Wahrscheinlichkeit vom Faktor ab P = 1 − α .

Wenn das tatsächliche Fisher-Verhältnis kleiner als das kritische Fisher-Verhältnis ist, sollte die Nullhypothese mit einem Signifikanzniveau akzeptiert werden α . Das bedeutet, dass der Faktor die Daten mit der Wahrscheinlichkeit nicht signifikant beeinflusst P = 1 − α .

Zwei-Wege-Varianzanalyse mit Wiederholungen: ein Beispiel

über das Zusammenspiel von Faktoren EIN und B: Das tatsächliche Fisher-Verhältnis liegt unter dem kritischen Wert, daher ist die Wechselwirkung zwischen der Werbekampagne und dem jeweiligen Geschäft nicht signifikant.

Zwei-Wege-Varianzanalyse mit Wiederholungen in MS Excel

Zweiweg-Varianzanalysen mit Wiederholungen können mit dem MS-Excel-Verfahren durchgeführt werden. Wir verwenden sie, um Daten zum Zusammenhang zwischen Ladeneinnahmen und der Wahl eines bestimmten Ladens und der Werbekampagne aus Beispiel 4 zu analysieren.

Führen Sie im Menü von MS Excel den Befehl aus Service/Datenanalyse und wählen Sie ein Analysetool aus Zweiweg-Varianzanalyse mit Wiederholungen.

Wir füllen die Daten auf die gleiche Weise wie im Fall einer zweifachen ANOVA ohne Wiederholungen aus, mit dem Zusatz, dass Sie im Feld Anzahl der Zeilen zur Stichprobe die Anzahl der Wiederholungen eingeben müssen.

Als Ergebnis des Verfahrens werden zwei Tabellen angezeigt. Die erste Tabelle besteht aus drei Teilen: Die ersten beiden entsprechen jeder der beiden Werbekampagnen, die dritte enthält Daten zu beiden Werbekampagnen. Die Spalten der Tabelle enthalten Informationen über alle Abstufungsklassen des zweiten Faktors - Speicher: Anzahl der Beobachtungen, Gesamtwert, Mittelwert und Varianz.

In der zweiten Tabelle - Daten über die Summe der quadratischen Abweichungen (SS), die Anzahl der Freiheitsgrade (df), die Streuung (MS), den tatsächlichen Wert des Fisher-Verhältnisses (F), das p-Niveau (P-Wert) und der kritische Wert des Fisher-Verhältnisses (F crit) für verschiedene Variationsquellen: zwei Faktoren in Zeilen (Stichprobe) und Spalten, Interaktion von Faktoren, Fehler (innen) und Summen (gesamt).

FRAU F p-Wert Fkrit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

Für den Faktor B Das tatsächliche Fisher-Verhältnis ist größer als das kritische Verhältnis, daher variieren die Einnahmen mit einer Wahrscheinlichkeit von 95 % erheblich zwischen den Geschäften.

Für das Zusammenspiel von Faktoren EIN und B Das tatsächliche Verhältnis von Fisher ist weniger als kritisch, daher ist die Interaktion zwischen der Werbekampagne und einem bestimmten Geschäft mit einer Wahrscheinlichkeit von 95% nicht signifikant.

Alles zu "Mathematische Statistik"