Koja se pitanja mogu riješiti analizom varijance. Nastava: Analiza disperzije. Gripa uzrokuje povećanu proizvodnju histamina

Analiza varijance je sustav koncepata i tehnika koji omogućuju generalizaciju postupka usporedbe dviju srednjih vrijednosti za dva uzorka uzeta iz populacija s normalnom distribucijom na slučaj velikog broja uzoraka.

Dodjela usluge. Pomoću ovog online kalkulatora možete:

  • provesti jednosmjernu analizu varijance;
  • odgovoriti na pitanje - podudaraju li se prosječne vrijednosti eksperimenata ili ne;
  • na odabranoj razini značajnosti potvrditi ili opovrgnuti nultu hipotezu H 0 o jednakosti grupnih sredina;

Uputa. Odredite broj dimenzija (broj redaka) q , broj razina faktora p, kliknite Dalje. Dobiveno rješenje sprema se u Word datoteku. Ovaj se postupak obično koristi za odabir značajnih faktora za izradu jednadžbe višestruke regresije.

Primjer. Proizvod željezničkog prometa za potrebe ispitivanja pouzdanosti radi q puta, i=1,...q na p razina vremena rada Tj , j=1,..., p. U svakom testu broji se broj neuspjeha n ij. Na razini značajnosti α = 0,05 istražiti utjecaj vremena rada proizvoda na broj kvarova metodom jednosmjerne ANOVA pri q=4 , p=4 . Rezultati ispitivanja n ij prikazani su u tablicama.
Riješenje.
Jednosmjerna ANOVA procedura. Pronalaženje grupnih prosjeka:

NP 1P 2P 3P 4
1 145 210 195 155
2 140 200 190 150
3 150 190 240 180
4 190 195 210 175
x156.25 198.75 208.75 165

Označimo s p - broj razina faktora (p=4). Broj mjerenja na svakoj razini je isti i jednak q=4.


(1)



R ukupno = ∑∑(x ij -x) (2)

R f \u003d q (x ij -x)


R ostatak \u003d R ukupno - R f












Ako je f obl >f cr, tada faktor ima značajan utjecaj i treba ga uzeti u obzir, u protivnom ima beznačajan učinak koji se može zanemariti.

(4)


NP 2 1P 2 2P 2 3P 2 4
1 21025 44100 38025 24025
2 19600 40000 36100 22500
3 22500 36100 57600 32400
4 36100 38025 44100 30625
99225 158225 175825 109550



Rtot = 99225 + 158225 + 175825 + 109550 - 4 4 182,19 2 = 11748,44
R f nalazimo prema formuli (5):
R f \u003d 4 (156,25 2 + 198,75 2 + 208,75 2 + 165 2) - 4 182,19 2 \u003d 7792,19
Dobivamo R ostatak: R ostatak \u003d R ukupno - R f = 11748,44 - 7792,19 = 3956,25
Određujemo faktorijel i rezidualne varijance:



Procjena varijance faktora veća je od procjene rezidualne varijance, pa možemo odmah ustvrditi da nulta hipoteza jednakosti nije točna matematička očekivanja po slojevima uzorka.
Drugim riječima, u ovom primjeru faktor F ima značajan utjecaj na slučajnu varijablu.

Pronađite f obl

Za razinu značajnosti α=0,05, broj stupnjeva slobode 3 i 12, nalazimo f cr iz Fisher-Snedekorove tablice distribucije.
f cr (0,05; 3; 12) = 3,49
Zbog činjenice da je f obl > f cr, prihvaćamo nultu hipotezu o značajnom utjecaju faktora na rezultate pokusa.

Primjer #2. Anketirani su studenti 1. godine kako bi se identificirale aktivnosti kojima posvećuju svoje slobodno vrijeme. Provjeriti razlikuju li se distribucija verbalnih i neverbalnih preferencija učenika.
Pronalaženje grupnih prosjeka:

NP 1P 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x15.6 17
Označimo s p - broj razina faktora (p=2). Broj mjerenja na svakoj razini je isti i jednak q=5.
Zadnji redak sadrži grupne srednje vrijednosti za svaku razinu faktora.
Ukupna sredina može se dobiti kao aritmetička sredina grupnih sredina:
(1)
Na širenje grupnih prosjeka postotka neuspjeha u odnosu na ukupni prosjek utječu i promjene u razini razmatranog čimbenika i slučajni čimbenici.
Kako bi se uzeo u obzir utjecaj ovog faktora, ukupna varijanca uzorka podijeljena je na dva dijela, od kojih se prvi naziva faktorijelom S 2 f, a drugi - rezidualnim S 2 ostatkom.
Kako bi se ove komponente uzele u obzir, prvo se izračunava ukupni zbroj kvadratnih odstupanja varijante od ukupnog prosjeka:
R ukupno \u003d ∑ ∑ (x ij -x)
i zbroj faktorijala kvadrata odstupanja grupne sredine od ukupne sredine, koja karakterizira utjecaj ovog faktora:
R f \u003d q∑ (x ij -x)
Posljednji izraz se dobiva zamjenom svake varijante u Rtot izrazu s grupnom sredinom za dati faktor.
Preostali zbroj kvadrata odstupanja dobiva se kao razlika:
R ostatak \u003d R ukupno - R f
Za određivanje ukupne varijance uzorka potrebno je Rtotal podijeliti s brojem mjerenja pq:

a da bi se dobila nepristrana ukupna varijanca uzorka, ovaj se izraz mora pomnožiti s pq/(pq-1):

Sukladno tome, za varijancu uzorka nepristranog faktorijala:

gdje je p-1 broj stupnjeva slobode nepristrane faktorske varijance uzorka.
Kako bi se procijenio utjecaj čimbenika na promjene parametra koji se razmatra, izračunava se vrijednost:

Budući da je omjer dviju varijanci uzorka S 2 f i S 2 rem raspoređen u skladu s Fisher-Snedekorovim zakonom, dobivena vrijednost f obs uspoređuje se s vrijednošću funkcije distribucije

u kritičnoj točki f cr koja odgovara odabranoj razini značajnosti a.
Ako je f obl >f cr, tada faktor ima značajan utjecaj i treba ga uzeti u obzir, u protivnom ima beznačajan učinak koji se može zanemariti.
Sljedeće formule također se mogu koristiti za izračunavanje Robsa i Rf:
R ukupno \u003d x ij ²-x ², (4)
R f \u003d q∑x j ²-x ², (5)
Ukupni prosjek nalazimo formulom (1):
Za izračun Rtot koristeći formulu (4), sastavljamo tablicu opcije 2 kvadrata:
NP 2 1P 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Ukupni prosjek izračunava se formulom (1):

Rtot = 1322 + 1613 - 5 2 16,3 2 = 278,1
R f nalazimo prema formuli (5):
R f \u003d 5 (15,6 2 + 17 2) - 2 16,3 2 \u003d 4,9
Dobivamo R ostatak: R ostatak \u003d R ukupno - R f = 278,1 - 4,9 = 273,2
Određujemo faktorijel i rezidualnu varijancu:


Ako su srednje vrijednosti slučajne varijable izračunate za pojedinačne uzorke iste, tada su procjene faktorijela i rezidualne varijance nepristrane procjene opće varijance i razlikuju se beznačajno.
Tada bi usporedba procjena tih varijanci prema Fisherovom kriteriju trebala pokazati da nema razloga odbaciti nultu hipotezu o jednakosti faktorijela i rezidualne varijance.
Procjena varijance faktora manja je od procjene rezidualne varijance, pa se odmah može ustvrditi valjanost nulte hipoteze o jednakosti matematičkih očekivanja za slojeve uzorka.
Drugim riječima, u ovom primjeru faktor F ne utječe značajno na slučajnu varijablu.
Provjerimo nultu hipotezu H 0: jednakost prosječnih vrijednosti x.
Pronađite f obl

Za razinu značajnosti α=0,05, broj stupnjeva slobode 1 i 8, nalazimo f cr iz tablice Fisher-Snedekorove distribucije.
f cr (0,05; 1; 8) = 5,32
Zbog činjenice da f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Drugim riječima, razlikuje se distribucija verbalnih i neverbalnih preferencija učenika.

Vježbajte. Pogon ima četiri linije za proizvodnju obloga. Iz svake linije tijekom smjene nasumično je odabrano 10 pločica i izmjerena im je debljina (mm). Odstupanja od nazivne veličine navedena su u tablici. Potrebno je na razini značajnosti a = 0,05 utvrditi ovisnost proizvodnje visokokvalitetnih pločica o proizvodnoj liniji (faktor A).

Vježbajte. Na razini značajnosti a = 0,05 istražiti utjecaj boje boje na vijek trajanja premaza.

Primjer #1. Provedeno je 13 testova, od kojih su 4 bila na prvoj razini faktora, 4 na drugoj, 3 na trećoj i 2 na četvrtoj razini. Metodom analize varijance na razini značajnosti 0,05 provjeriti nultu hipotezu o jednakosti grupnih sredina. Pretpostavlja se da su uzorci izvučeni iz normalnih populacija s istim varijancama. Rezultati ispitivanja prikazani su u tablici.

Riješenje:
Pronalaženje grupnih prosjeka:

NP 1P 2P 3P 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x1.4 1.43 1.33 1.32
Označimo s p - broj razina faktora (p=4). Broj mjerenja na svakoj razini je: 4,4,3,2
Zadnji redak sadrži grupne srednje vrijednosti za svaku razinu faktora.
Ukupni prosjek izračunava se formulom:

Da bismo izračunali ukupni iznos koristeći formulu (4), sastavljamo tablicu opcije 2 kvadrata:
NP 2 1P 2 2P 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49
Ukupni zbroj kvadrata odstupanja nalazi se po formuli:

S f nalazimo po formuli:


Dobivamo S ostatak: S ostatak = S ukupno - S f = 0,0293 - 0,0263 = 0,003
Odredite varijancu faktora:

i rezidualna varijanca:

Ako su srednje vrijednosti slučajne varijable izračunate za pojedinačne uzorke iste, tada su procjene faktorijela i rezidualne varijance nepristrane procjene opće varijance i razlikuju se beznačajno.
Tada bi usporedba procjena tih varijanci prema Fisherovom kriteriju trebala pokazati da nema razloga odbaciti nultu hipotezu o jednakosti faktorijela i rezidualne varijance.
Procjena faktorijelne varijance veća je od procjene rezidualne varijance, pa možemo odmah ustvrditi da nulta hipoteza o jednakosti matematičkih očekivanja za slojeve uzorka nije točna.
Drugim riječima, u ovom primjeru faktor F ima značajan utjecaj na slučajnu varijablu.
Provjerimo nultu hipotezu H 0: jednakost prosječnih vrijednosti x.
Pronađite f obl

Za razinu značajnosti α=0,05, broj stupnjeva slobode 3 i 12, nalazimo f cr iz Fisher-Snedekorove tablice distribucije.
f cr (0,05; 3; 12) = 3,49
Zbog činjenice da je fobs > fcr, prihvaćamo nultu hipotezu o značajnom utjecaju faktora na rezultate pokusa (odbacujemo nultu hipotezu o jednakosti grupnih sredina). Drugim riječima, sredstva grupe u cjelini značajno se razlikuju.

Primjer #2. Škola ima 5 šestih razreda. Psiholog ima zadatak utvrditi je li prosječna razina situacijske anksioznosti u razredima ista. Za to su dani u tablici. Provjeriti razinu značajnosti α=0,05, pretpostavka da se prosječna situacijska anksioznost u razredima ne razlikuje.

Primjer #3. Za proučavanje vrijednosti X provedena su 4 testa na svakoj od pet razina faktora F. Rezultati testa dati su u tablici. Utvrditi je li značajan utjecaj faktora F na vrijednost X. Uzeti α = 0,05. Pretpostavlja se da su uzorci izvučeni iz normalnih populacija s istim varijancama.

Primjer #4. Pretpostavimo da su u pedagoškom eksperimentu sudjelovale tri skupine učenika po 10 osoba. U grupama su korištene različite metode poučavanja: u prvoj - tradicionalna (F 1), u drugoj - zasnovana na računalnoj tehnologiji (F 2), u trećoj - metoda koja široko koristi zadatke za samostalni rad(F3). Znanje se ocjenjivalo desetobodnim sustavom.
Potrebno je obraditi dobivene podatke o ispitima i donijeti zaključak o tome je li utjecaj nastavne metode značajan, uzimajući za razinu značajnosti α=0,05.
Rezultati ispita dati su u tablici, F j - razina faktora x ij - ocjena i-tog studenta studenta prema metodi F j .

ja 1 2 3 4 5 6 7 8 9 10
Razina faktora F j F1 7 5 6 4 6 7 8 6 5 7
F2 9 8 10 8 7 10 10 9 7 6
F3 6 7 6 6 9 5 7 8 7 8

Primjer broj 5. Prikazani su rezultati kompetitivnog sortnog ispitivanja usjeva (prinos u c.d. ha). Svaka je sorta ispitivana na četiri parcele. Metodom analize varijance proučiti utjecaj sorte na prinos. Značajnost utjecaja faktora (udio međugrupne varijacije u ukupnoj varijaciji) i značajnost rezultata eksperimenta postaviti na razinu značajnosti 0,05.
Prinosi u sortno pokusnim plohama

Raznolikost Produktivnost kod ponavljanja c. od ha
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

5.1. Što je analiza varijance?

Analizu varijance razvio je 1920-ih engleski matematičar i genetičar Ronald Fisher. Prema anketi među znanstvenicima, koja je otkrila tko je najviše utjecao na biologiju 20. stoljeća, prvenstvo je osvojio Sir Fisher (za svoje zasluge dobio je vitešku titulu - jedno od najviših odličja u Velikoj Britaniji); u tom pogledu Fisher je usporediv s Charlesom Darwinom, koji je imao najveći utjecaj na biologiju u 19. stoljeću.

Analiza disperzije (Analis of variance) je sada zasebna industrija statistika. Temelji se na činjenici koju je otkrio Fisher da se mjera varijabilnosti veličine koja se proučava može rastaviti na dijelove koji odgovaraju čimbenicima koji utječu na tu količinu i slučajnim odstupanjima.

Da bismo razumjeli bit analize varijance, izvršit ćemo istu vrstu izračuna dva puta: "ručno" (kalkulatorom) i pomoću Statistički programi. Kako bismo pojednostavili naš zadatak, nećemo raditi s rezultatima stvarnog opisa raznolikosti zelenih žaba, već s izmišljenim primjerom koji se tiče usporedbe žena i muškaraca kod ljudi. Uzmite u obzir razlike u visini 12 odraslih osoba: 7 žena i 5 muškaraca.

Tablica 5.1.1. Primjer jednosmjerne ANOVA: Podaci o spolu i visini za 12 osoba

Provedimo jednosmjernu analizu varijance: usporedimo razlikuju li se muškarci i žene statistički značajno ili ne u karakteriziranoj skupini u pogledu visine.

5.2. Testirajte normalnu distribuciju

Daljnje razmišljanje temelji se na činjenici da je distribucija u promatranom uzorku normalna ili bliska normalnoj. Ako je distribucija daleko od normalne, varijanca (varijanca) nije adekvatna mjera njezine varijabilnosti. Međutim, analiza varijance relativno je otporna na odstupanja distribucije od normalnosti.

Normalnost ovih podataka može se testirati na dva načina. različiti putevi. Prvo: Statistika / Osnovna statistika / Tablice / Opisna statistika / Kartica Normalnost. U kartici Normalnost možete odabrati koje ćete testove normalne distribucije koristiti. Klikom na gumb Tablice učestalosti pojavit će se tablica učestalosti, a na gumb Histogrami - histogram. Tablica i stupčasti grafikon prikazat će rezultate različitih testova.

Druga metoda povezana je s korištenjem odgovarajućih mogućnosti pri izradi histograma. U dijaloškom okviru za konstrukciju histograma (Grafovi / Histogrami...) odaberite karticu Napredno. U njegovom donjem dijelu nalazi se blok Statistika. Napomena o tome Shapiro-Wilk t est i Kolmogorov-Smirnov test, kao što je prikazano na slici.

Riža. 5.2.1. Statistički testovi za normalnu distribuciju u dijaloškom okviru za konstrukciju histograma

Kao što se može vidjeti iz histograma, distribucija rasta u našem uzorku razlikuje se od normalne (u sredini - "neuspjeh").


Riža. 5.2.2. Histogram iscrtan s parametrima navedenim na prethodnoj slici

Treća linija u naslovu grafikona označava parametre normalne distribucije, koja je najbliža promatranoj distribuciji. Opća sredina je 173, opća standardna devijacija je 10,4. Umetak na dnu grafikona prikazuje rezultate testova za normalnost. D je Kolmogorov-Smirnov test, a SW-W je Shapiro-Wilkov test. Kao što se može vidjeti, za sve korištene testove razlike u distribuciji rasta od normalne distribucije pokazale su se statistički beznačajne ( str u svim slučajevima veći od 0,05).

Dakle, formalno gledano, testovi za usklađenost distribucije s normalom nisu nas “zabranili” da koristimo parametarsku metodu temeljenu na pretpostavci normalna distribucija. Kao što je već spomenuto, analiza varijance je relativno otporna na odstupanja od normalnosti, pa je i dalje koristimo.

5.3. Jednosmjerna ANOVA: Ručni izračuni

Kako bismo opisali varijabilnost visine ljudi u gornjem primjeru, izračunavamo zbroj kvadratnih odstupanja (na engleskom se to označava kao SS , Zbroj kvadrata ili ) pojedinačne vrijednosti iz srednje vrijednosti: . Prosječna vrijednost visine u gornjem primjeru je 173 centimetra. Na temelju toga,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Dobivena vrijednost (1192) je mjera varijabilnosti cijelog skupa podataka. Međutim, oni se sastoje od dvije skupine, od kojih je za svaku moguće izdvojiti vlastiti prosjek. U navedenim podacima prosječna visina žena je 168 cm, a muškaraca 180 cm.

Izračunajte zbroj kvadrata odstupanja za žene:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Također izračunavamo zbroj kvadrata odstupanja za muškarce:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

O čemu ovisi proučavana vrijednost u skladu s logikom analize varijance?

Dvije izračunate količine, SS f i SS m , karakteriziraju unutargrupnu varijancu, koja se u analizi varijance obično naziva "greška". Podrijetlo ovog imena povezano je sa sljedećom logikom.

Što određuje visinu osobe u ovom primjeru? Prije svega, od prosječne visine ljudi općenito, bez obzira na njihov spol. Drugo - s poda. Ako su ljudi jednog spola (muškog) viši od drugog (ženskog), to se može prikazati kao dodatak "univerzalnom" prosjeku neke vrijednosti, učinak spola. Konačno, osobe istog spola razlikuju se po visini zbog individualnih razlika. Unutar modela koji visinu opisuje kao zbroj ljudske srednje vrijednosti plus prilagodbe spola, individualne razlike su neobjašnjive i mogu se smatrati "pogreškom".

Dakle, u skladu s logikom analize varijance, vrijednost koja se proučava određuje se na sljedeći način: , gdje xij - i-ta vrijednost proučavane veličine pri j-toj vrijednosti proučavanog faktora; - opća havarija; Fj - utjecaj j-te vrijednosti proučavanog faktora; - "greška", doprinos individualnosti objekta na koji se vrijednost odnosixij .

Međugrupni zbroj kvadrata

Tako, SS greške = SS f + SS m = 212 + 560 = 772. Ovom vrijednošću opisali smo unutargrupnu varijabilnost (pri razdvajanju skupina po spolu). Ali postoji i drugi dio varijabilnosti - međuskupina, koju ćemo nazvatiSS učinak (jer govorimo o učinku podjele skupa predmeta koji se razmatraju na žene i muškarce).

Srednja vrijednost svake skupine razlikuje se od ukupne srednje vrijednosti. Kada izračunavamo doprinos ove razlike ukupnoj mjeri varijabilnosti, moramo pomnožiti razliku između skupine i ukupne srednje vrijednosti s brojem objekata u svakoj skupini.

SS učinak = = 7x(168-173) 2 + 5x(180-173) 2 = 7x52 + 5x72 = 7x25 + 5x49 = 175 + 245 = 420.

Ovdje se očitovao princip konstantnosti zbroja kvadrata, koji je otkrio Fisher: SS = SS učinak + SS pogreške , tj. za ovaj primjer, 1192 = 440 + 722.

Srednji kvadrati

Uspoređujući u našem primjeru međugrupne i unutargrupne zbrojeve kvadrata, možemo vidjeti da je prvi povezan s varijacijom dviju skupina, a drugi - 12 vrijednosti u 2 skupine. Broj stupnjeva slobode ( df ) za neki parametar može se definirati kao razlika između broja objekata u grupi i broja ovisnosti (jednadžbi) koje povezuju te vrijednosti.

U našem primjeru df učinak = 2–1 = 1, a df greške = 12–2 = 10.

Zbrojeve kvadrata možemo podijeliti s brojem njihovih stupnjeva slobode da bismo dobili srednje kvadrate ( MS , Sredstva kvadrata). Nakon što smo to učinili, možemo to utvrditi MS - ništa više od varijanci ("disperzije", rezultat dijeljenja zbroja kvadrata s brojem stupnjeva slobode). Nakon ovog otkrića možemo razumjeti strukturu ANOVA tablice. Za naš primjer to će izgledati ovako.

Posljedica

Greška

MS učinak i MS pogreške su procjene međugrupnih i unutargrupnih varijanci, te se stoga mogu uspoređivati ​​prema kriterijuF (Snedecorov kriterij, nazvan po Fischeru), dizajniran za usporedbu varijanti. Ovaj kriterij je jednostavno kvocijent dijeljenja veće varijance s manjom. U našem slučaju, to je 420 / 77,2 = 5,440.

Određivanje statističke značajnosti Fisherova testa prema tablicama

Kada bismo statističku značajnost učinka utvrđivali ručno, pomoću tablica, morali bismo usporediti dobivenu vrijednost kriterija F s kritičnim odgovarajućim određena razina statistička značajnost za zadane stupnjeve slobode.


Riža. 5.3.1. Fragment tablice s kritičnim vrijednostima kriterija F

Kao što vidite, za razinu statističke značajnosti p=0,05, kritična vrijednost kriterijaF je 4,96. To znači da je u našem primjeru učinak proučavanog spola zabilježen s razinom statističke značajnosti od 0,05.

Dobiveni rezultat može se tumačiti na sljedeći način. Vjerojatnost nulte hipoteze, prema kojoj je prosječna visina žena i muškaraca ista, a zabilježena razlika u njihovoj visini posljedica je slučajnosti u formiranju uzoraka, manja je od 5%. To znači da moramo izabrati alternativnu hipotezu da je prosječna visina žena i muškaraca različita.

5.4. Jednosmjerna analiza varijance ( ANOVA) u paketu Statistica

U slučajevima kada se izračuni ne rade ručno, već uz pomoć odgovarajućih programa (npr. paket Statistica), vrijednost str određuje automatski. Vidljivo je da je nešto veća od kritične vrijednosti.

Da biste analizirali primjer o kojem se raspravlja koristeći najjednostavniju verziju analize varijance, trebate pokrenuti proceduru Statistics / ANOVA za datoteku s odgovarajućim podacima i odabrati opciju One-way ANOVA (jednosmjerna ANOVA) u Type of prozor za analizu i opciju dijaloga Brze specifikacije u prozoru Metoda specifikacije.


Riža. 5.4.1. Dijalog Opća ANOVA/MANOVA (ANOVA)

U brzom dijaloškom okviru koji se otvori, u polju Varijable potrebno je navesti one stupce koji sadrže podatke čiju varijabilnost proučavamo (Popis zavisnih varijabli; u našem slučaju stupac Rast), kao i stupac koji sadrži vrijednosti​ ​koji dijele vrijednost koja se proučava u skupine (kategorički prediktor (faktor); u našem slučaju, stupac Spol). U ovoj verziji analize, za razliku od multivarijatne analize, može se uzeti u obzir samo jedan faktor.


Riža. 5.4.2. Dijalog jednosmjerne ANOVA (jednosmjerna analiza varijance)

U prozoru Kodovi faktora trebali biste navesti one vrijednosti faktora koji se razmatraju koje je potrebno obraditi tijekom ove analize. Sve dostupne vrijednosti mogu se vidjeti pomoću gumba Zoom; ako, kao u našem primjeru, morate uzeti u obzir sve vrijednosti faktora (a za spol u našem primjeru postoje samo dva), možete kliknuti gumb Sve. Kada su stupci obrade i kodovi faktora postavljeni, možete kliknuti gumb U redu i otići na prozor za brzu analizu za rezultate: ANOVA Rezultati 1, na kartici Brzo.

Riža. 5.4.3. Brza kartica u prozoru ANOVA rezultata

Gumb Svi efekti/Grafikoni omogućuje vam da vidite usporedbu prosjeka dviju grupa. Iznad grafikona prikazan je broj stupnjeva slobode, kao i vrijednosti F i p za faktor koji se razmatra.


Riža. 5.4.4. Grafički prikaz rezultata analize varijance

Gumb Svi efekti omogućuje vam dobivanje tablice ANOVA slične onoj gore opisanoj (s nekim značajnim razlikama).


Riža. 5.4.5. Tablica s rezultatima analize varijance (usporediti sa sličnom tablicom dobivenom "ručno")

Donji redak tablice prikazuje zbroj kvadrata, broj stupnjeva slobode i srednje kvadrate pogreške (varijabilnost unutar grupe). Na retku iznad - slični pokazatelji za proučavani faktor (u ovom slučaju znak Spol), kao i kriterij F (omjer srednjih kvadrata učinka i srednjih kvadrata pogreške), i njegovu razinu statističke značajnosti. Činjenicu da se učinak razmatranog čimbenika pokazao statistički značajnim pokazuje crveno isticanje.

I prvi red prikazuje podatke o indikatoru "Presretanje". Ovaj redak tablice je misterij za korisnike koji se pridružuju paketu Statistica u njegovoj 6. ili novijoj verziji. Vrijednost intercepta vjerojatno je povezana s ekspanzijom zbroja kvadrata svih vrijednosti podataka (tj. 1862 + 1692 … = 360340). Vrijednost kriterija F naznačena za njega dobiva se dijeljenjem MS presretanje/MS greška = 353220 / 77,2 = 4575,389 i prirodno daje vrlo nisku vrijednost str . Zanimljivo, u Statistici-5 ova vrijednost uopće nije izračunata, a priručnici za korištenje kasnijih verzija paketa ni na koji način ne komentiraju njegovo uvođenje. Vjerojatno najbolja stvar koju Statistica-6 i kasniji biolog mogu učiniti je jednostavno zanemariti Intercept red u ANOVA tablici.

5.5. ANOVA i Studentov i Fisherov kriterij: što je bolje?

Kao što vidite, podatke koje smo usporedili korištenjem jednosmjerne analize varijance, mogli bismo ispitati i korištenjem Studentovog i Fisherovog testa. Usporedimo ove dvije metode. Da bismo to učinili, pomoću ovih kriterija izračunavamo razliku u visini muškaraca i žena. Da bismo to učinili, morat ćemo slijediti stazu Statistika / Osnovna statistika / t-test, neovisno, po grupama. Naravno, zavisne varijable su varijabla rasta, a varijabla grupiranja je varijabla spola.


Riža. 5.5.1. Usporedba podataka obrađenih ANOVA-om, prema Studentovim i Fisherovim kriterijima

Kao što vidite, rezultat je isti kao kod korištenja ANOVA. str = 0,041874 u oba slučaja, kao što je prikazano na sl. 5.4.5 i prikazano na sl. 5.5.2 (uvjerite se sami!).


Riža. 5.5.2. Rezultati analize (detaljna interpretacija tablice rezultata - u paragrafu o Studentovom kriteriju)

Važno je naglasiti da iako je kriterij F s matematičkog gledišta u razmatranoj analizi prema Studentovim i Fisherovim kriterijima isti kao u ANOVA (i izražava omjer varijance), njegovo značenje u rezultatima analiza predstavljena konačnom tablicom potpuno je drugačija. Kod usporedbe Studentovim i Fisherovim testom, usporedba srednjih vrijednosti uzoraka provodi se Studentovim kriterijem, a usporedba njihove varijabilnosti Fisherovim kriterijem. U rezultatima analize nije prikazana sama varijanca, već ona Korijen- standardna devijacija.

Nasuprot tome, u ANOVA-i, Fisherov test se koristi za usporedbu srednjih vrijednosti različitih uzoraka (kao što smo spomenuli, to se radi dijeljenjem zbroja kvadrata na dijelove i usporedbom prosječnog zbroja kvadrata koji odgovara varijabilnosti između i unutar grupe) .

Međutim, navedena se razlika više odnosi na prikaz rezultata statističke studije nego na njezinu bit. Kao što je istaknuo, primjerice, Glantz (1999., str. 99), usporedba grupa pomoću Studentovog testa može se smatrati posebnim slučajem analize varijance za dva uzorka.

Dakle, usporedba uzoraka prema Studentovom i Fisherovom testu ima jednu važnu prednost u odnosu na analizu varijance: može uspoređivati ​​uzorke u smislu njihove varijabilnosti. Ali prednosti ANOVE su još uvijek značajne. Među njima je, primjerice, mogućnost istodobne usporedbe više uzoraka.

U praksi liječnika pri provođenju biomedicinskih, socioloških i eksperimentalnih istraživanja postaje potrebno utvrditi utjecaj čimbenika na rezultate proučavanja zdravstvenog stanja stanovništva, pri procjeni profesionalne aktivnosti i učinkovitosti inovacija.

Postoji niz statističkih metoda koje vam omogućuju određivanje snage, smjera, obrazaca utjecaja čimbenika na rezultat u općem ili uzorak populacije(izračun kriterija I, korelacijska analiza, regresija, Χ 2 - (Pearsonov kriterij slaganja, itd.) Analizu varijance razvio je i predložio engleski znanstvenik, matematičar i genetičar Ronald Fisher 20-ih godina XX. stoljeća.

Analiza varijance se češće koristi u znanstvenim i praktičnim studijama javnog zdravlja i zdravstvene zaštite za proučavanje utjecaja jednog ili više čimbenika na rezultirajuću osobinu. Temelji se na načelu "reflektiranja različitosti vrijednosti faktora(-a) na raznolikost vrijednosti rezultantnog atributa" i utvrđuje snagu utjecaja faktora(-a) u populacijama uzoraka .

Bit metode analize varijance je mjerenje pojedinačnih varijanci (ukupnih, faktorijelnih, rezidualnih), te daljnje određivanje jačine (udjela) utjecaja proučavanih čimbenika (procjena uloge svakog od čimbenika, ili njihovog zajedničkog utjecaja). ) na rezultirajućim atributima.

Analiza varijance- ovo je statistička metoda za procjenu odnosa između čimbenika i karakteristika izvedbe u različitim skupinama, odabranih nasumično, na temelju utvrđivanja razlika (različitosti) u vrijednostima karakteristika. Analiza varijance temelji se na analizi odstupanja svih jedinica proučavane populacije od aritmetičke sredine. Kao mjera odstupanja uzima se disperzija (B) - prosječni kvadrat odstupanja. Odstupanja uzrokovana utjecajem faktorskog atributa (faktora) uspoređuju se s veličinom odstupanja uzrokovanih slučajnim okolnostima. Ako su odstupanja uzrokovana faktorskim atributom značajnija od slučajnih odstupanja, tada se smatra da faktor ima značajan utjecaj na rezultirajući atribut.

Kako bi se izračunala varijanca vrijednosti odstupanja svake opcije (svaka registrirana numerička vrijednost znak) iz aritmetičke sredine kvadrira se. Ovo će se riješiti negativnih znakova. Zatim se ta odstupanja (razlike) zbroje i dijele s brojem opažanja, tj. prosječna odstupanja. Tako se dobivaju vrijednosti disperzije.

Važna metodološka vrijednost za primjenu analize varijance je pravilno formiranje uzorka. Ovisno o cilju i ciljevima, selektivne skupine mogu se nasumično formirati neovisno jedna o drugoj (kontrolna i eksperimentalna skupina za proučavanje nekog pokazatelja, npr. utjecaj visokog krvnog tlaka na razvoj moždanog udara). Takvi se uzorci nazivaju neovisni.

Često se rezultati izloženosti čimbenicima proučavaju u istoj skupini uzoraka (na primjer, kod istih pacijenata) prije i nakon izloženosti (liječenje, prevencija, rehabilitacijske mjere), takvi se uzorci nazivaju ovisnima.

Analiza varijance, u kojoj se provjerava utjecaj jednog faktora, naziva se jednofaktorska analiza (univarijantna analiza). Pri proučavanju utjecaja više čimbenika koristi se multivarijatna analiza varijance (multivarijatna analiza).

Faktorski znakovi su oni znakovi koji utječu na pojavu koja se proučava.
Djelotvorni znakovi su oni znakovi koji se mijenjaju pod utjecajem faktorskih znakova.

Za provođenje analize varijance mogu se koristiti i kvalitativne (spol, profesija) i kvantitativne karakteristike (broj injekcija, pacijenti na odjelu, broj dana kreveta).

Metode analize disperzije:

  1. Metoda prema Fisheru (Fisher) - kriterij F (vrijednosti F, vidi Dodatak br. 1);
    Metoda se koristi u jednosmjernoj analizi varijance, kada se ukupna varijanca svih promatranih vrijednosti rastavlja na varijancu unutar pojedinih skupina i varijancu između skupina.
  2. Metoda "općeg linearnog modela".
    Temelji se na korelacijskoj ili regresijskoj analizi koja se koristi u multivarijatnoj analizi.

Obično se u biomedicinskim istraživanjima koriste samo jednofaktorski, maksimalno dvofaktorski disperzijski kompleksi. Multifaktorski kompleksi mogu se istražiti sekvencijalnim analiziranjem jednofaktorskih ili dvofaktorskih kompleksa izoliranih iz cijele promatrane populacije.

Uvjeti za korištenje analize varijance:

  1. Zadatak studije je utvrditi jačinu utjecaja jednog (do 3) čimbenika na rezultat ili utvrditi snagu kombiniranog utjecaja različitih čimbenika (spol i dob, tjelesna aktivnost i prehrana itd.).
  2. Proučavani čimbenici trebaju biti neovisni (nepovezani) jedni s drugima. Na primjer, ne može se proučavati kombinirani učinak radnog iskustva i dobi, visine i težine djece itd. na incidenciju stanovništva.
  3. Odabir skupina za istraživanje provodi se nasumično (slučajni odabir). Organizacija disperzijskog kompleksa s provedbom načela slučajnog odabira opcija naziva se randomizacija (u prijevodu s engleskog - slučajno), tj. odabran nasumce.
  4. Mogu se koristiti i kvantitativne i kvalitativne (atributivne) značajke.

Prilikom provođenja jednosmjerne analize varijance preporučuje se (nužan uvjet za primjenu):

  1. Normalnost distribucije analiziranih skupina ili podudarnost grupa uzoraka s općim populacijama s normalnom distribucijom.
  2. Neovisnost (nepovezanost) raspodjele opažanja u skupinama.
  3. Prisutnost učestalosti (ponavljanja) opažanja.

Normalnost distribucije određena je Gaussovom (De Mavour) krivuljom, koja se može opisati funkcijom y \u003d f (x), budući da je to jedan od zakona distribucije koji se koristi za aproksimaciju opisa fenomena koji su slučajni, probabilističke prirode. Predmet biomedicinskih istraživanja je fenomen probabilističke prirode, normalna distribucija u takvim studijama vrlo je česta.

Princip primjene metode analize varijance

Prvo se formulira nulta hipoteza, odnosno pretpostavlja se da čimbenici koji se proučavaju nemaju nikakav učinak na vrijednosti rezultirajućeg atributa i da su rezultirajuće razlike slučajne.

Zatim utvrđujemo kolika je vjerojatnost dobivanja promatranih (ili jačih) razlika pod uvjetom da je nulta hipoteza istinita.

Ako je ta vjerojatnost mala*, tada odbacujemo nultu hipotezu i zaključujemo da su rezultati istraživanja statistički značajni. To još ne znači da je učinak proučavanih čimbenika dokazan (riječ je prvenstveno o planiranju istraživanja), ali još uvijek je malo vjerojatno da je rezultat slučajan.
__________________________________
* Najveća prihvatljiva vjerojatnost odbacivanja istinite nulte hipoteze naziva se razina značajnosti i označava se s α = 0,05.

Kada su ispunjeni svi uvjeti za primjenu analize varijance, dekompozicija ukupne varijance matematički izgleda ovako:

D gen. = D činjenica + D ostalo. ,

D gen. - ukupna varijanca promatranih vrijednosti (varijanta), karakterizirana širenjem varijante od ukupnog prosjeka. Mjeri varijaciju svojstva u cijeloj populaciji pod utjecajem svih čimbenika koji su uzrokovali tu varijaciju. Sveukupnu raznolikost čine međugrupne i unutargrupne;

D fact - faktorska (međugrupna) varijanca, karakterizirana razlikom u prosjeku u svakoj skupini i ovisi o utjecaju proučavanog čimbenika, po kojem se svaka skupina diferencira. Na primjer, u skupinama različitih etioloških čimbenika kliničkog tijeka upale pluća, prosječna razina provedenog kreveta nije ista - uočena je međugrupna raznolikost.

D odmor. - rezidualna (unutargrupna) varijanca, koja karakterizira disperziju varijante unutar grupa. Odražava nasumične varijacije, tj. dio varijacije koji se javlja pod utjecajem neodređenih čimbenika i ne ovisi o svojstvu – čimbeniku koji je u osnovi grupiranja. Varijacija proučavanog svojstva ovisi o jačini utjecaja nekih neuračunatih slučajnih čimbenika, kako od organiziranih (koje navodi istraživač) tako i od slučajnih (nepoznatih) čimbenika.

Stoga se ukupna varijacija (disperzija) sastoji od varijacije uzrokovane organiziranim (zadanim) čimbenicima, koja se naziva faktorska varijacija i neorganiziranih čimbenika, tj. rezidualna varijacija (slučajna, nepoznata).

Klasična analiza varijance provodi se u sljedećim koracima:

  1. Izgradnja disperzijskog kompleksa.
  2. Izračun prosječnih kvadrata odstupanja.
  3. Izračun varijance.
  4. Usporedba faktorskih i rezidualnih varijanci.
  5. Procjena rezultata korištenjem teoretskih vrijednosti Fisher-Snedekorove distribucije (Dodatak N 1).

ALGORITAM ZA IZVOĐENJE ANOVANE ANALIZE PREMA POJEDNOSTAVLJENOJ VARIJANTI

Algoritam za provođenje analize varijance pomoću pojednostavljene metode omogućuje vam da dobijete iste rezultate, ali izračuni su mnogo jednostavniji:

I faza. Izgradnja disperzijskog kompleksa

Konstrukcija disperzijskog kompleksa podrazumijeva konstrukciju tablice u kojoj bi se jasno razlikovali čimbenici, efektivni znak i izbor promatranja (pacijenata) u svakoj skupini.

Jednofaktorski kompleks sastoji se od nekoliko stupnjevanja jednog faktora (A). Gradacije su uzorci iz različitih općih populacija (A1, A2, AZ).

Dvofaktorski kompleks - sastoji se od nekoliko stupnjevanja dva faktora u međusobnoj kombinaciji. Etiološki čimbenici incidencije pneumonije su isti (A1, A2, AZ) u kombinaciji s različitim oblicima kliničkog tijeka pneumonije (H1 - akutna, H2 - kronična).

Znak ishoda (prosječan broj kreveta) Etiološki čimbenici u razvoju pneumonije
A1 A2 A3
H1 H2 H1 H2 H1 H2
M = 14 dana

II faza. Izračun ukupnog prosjeka (M obsh)

Izračun zbroja opcija za svaku gradaciju faktora: Σ Vj = V 1 + V 2 + V 3

Izračun ukupnog zbroja varijante (Σ V total) preko svih stupnjeva atributa faktora: Σ V total = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

Izračun prosječne skupine (M gr.) Predznak faktora: M gr. = Σ Vj / N,
gdje je N zbroj broja opažanja za sve gradacije obilježja faktora I (Σn po grupama).

III faza. Izračun odstupanja:

Podložno svim uvjetima za primjenu analize varijance, matematička formula je sljedeća:

D gen. = D činjenica + D ostalo.

D gen. - ukupna varijanca, karakterizirana širenjem varijance (promatrane vrijednosti) od općeg prosjeka;
D činjenica. - faktorska (međugrupna) varijanca karakterizira širenje grupnih prosjeka od općeg prosjeka;
D odmor. - rezidualna (unutargrupna) varijanca karakterizira disperziju varijante unutar grupa.

  1. Izračun faktorijelne varijance (D fact.): D činjenica. = Σh - H
  2. Izračun h provodi se prema formuli: h = (Σ Vj) / N
  3. Izračun H provodi se prema formuli: H = (Σ V) 2 / N
  4. Izračun rezidualne varijance: D odmor. = (Σ V) 2 - Σ h
  5. Izračunavanje ukupne varijance: D gen. = (Σ V) 2 - Σ H

IV stadij. Izračun glavnog pokazatelja snage utjecaja faktora koji se proučava Pokazatelj jačine utjecaja (η 2) faktorskog atributa na rezultat određen je udjelom faktorijelne varijance (D činjenica.) u ukupnoj varijanci (D općenito), η 2 (ovo) - pokazuje koliki je udio Utjecaj faktora koji se proučava nalazi se među svim ostalim čimbenicima i određuje se formulom:

V stadij. Određivanje pouzdanosti rezultata studije Fisherovom metodom provodi se prema formuli:


F - Fisherov kriterij;
Fst. - tablična vrijednost (vidi Dodatak 1).
σ 2 činjenica, σ 2 ostatak. - faktorijelna i rezidualna odstupanja (od lat. de - od, via - cesta) - odstupanje od središnje linije, određeno formulama:


r je broj gradacija atributa faktora.

Usporedba Fisherovog kriterija (F) sa standardnim (tabularnim) F provodi se prema stupcima tablice, uzimajući u obzir stupnjeve slobode:

v 1 \u003d n - 1
v 2 \u003d N - 1

Horizontalno odredite v 1 okomito - v 2 , na njihovom sjecištu odredite tabličnu vrijednost F, pri čemu je gornja tablična vrijednost p ≥ 0,05, a donja odgovara p > 0,01, te usporedite s izračunatim kriterijem F. Ako je vrijednost izračunati kriterij F jednak ili veći od tabličnog, tada su rezultati pouzdani i H 0 se ne odbacuje.

Zadatak:

U poduzeću N. porasla je razina ozljeda, u vezi s čime je liječnik proveo studiju pojedinačnih čimbenika, među kojima je proučavano radno iskustvo radnika u trgovinama. Uzorci su uzeti u poduzeću N. iz 4 trgovine sa sličnim uvjetima i prirodom rada. Stope ozljeda izračunate su na 100 zaposlenika tijekom prošle godine.

U istraživanju faktora radnog iskustva dobiveni su sljedeći podaci:

Na temelju podataka studije postavljena je nulta hipoteza (H 0) o utjecaju radnog iskustva na razinu ozljeda zaposlenika poduzeća A.

Vježbajte
Potvrdite ili opovrgnite nultu hipotezu pomoću jednosmjerne analize varijance:

  1. odrediti snagu utjecaja;
  2. procijeniti pouzdanost utjecaja faktora.

Faze primjene analize varijance
utvrditi utjecaj faktora (radnog iskustva) na rezultat (stopa ozljeda)

Zaključak. U kompleksu uzoraka utvrđeno je da je utjecaj radnog iskustva na razinu ozljeda 80% u ukupnom broju ostalih čimbenika. Za sve radionice tvornice se s vjerojatnošću od 99,7% (13,3 > 8,7) može ustvrditi da radno iskustvo utječe na razinu ozljeda.

Dakle, nulta hipoteza (N 0) nije odbačena i utjecaj radnog iskustva na razinu ozljeda u radionicama pogona A smatra se dokazanim.

F vrijednost (Fisherov test) standardna pri p ≥ 0,05 (gornja vrijednost) pri p ≥ 0,01 (donja vrijednost)

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. Vlasov V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. 464 str.
  2. Arkhipova G.L., Lavrova I.G., Troshina I.M. Neki modernim metodama statistička analiza u medicini. - M.: Metrosnab, 1971. - 75 str.
  3. Zaitsev V.M., Liflyandsky V.G., Marinkin V.I. Primijenjena medicinska statistika. - St. Petersburg: LLC "FOLIANT Publishing House", 2003. - 432 str.
  4. Platonov A.E. Statistička analiza u medicini i biologiji: zadaci, terminologija, logika, računalne metode. - M.: Izdavačka kuća Ruske akademije medicinskih znanosti, 2000. - 52 str.
  5. Plokhinski N.A. Biometrija. - Izdavačka kuća Sibirskog ogranka Akademije znanosti SSSR-a Novosibirsk. - 1961. - 364 str.

Korištenje statistike u ovoj bilješci bit će prikazano međusektorskim primjerom. Recimo da ste voditelj proizvodnje u tvrtki Perfect Parachute. Padobrani su izrađeni od sintetičkih vlakana koje isporučuju četiri različita dobavljača. Jedna od glavnih karakteristika padobrana je njegova čvrstoća. Morate biti sigurni da sva isporučena vlakna imaju istu čvrstoću. Za odgovor na ovo pitanje potrebno je osmisliti eksperiment u kojemu se mjeri čvrstoća padobrana tkanih od sintetičkih vlakana različitih dobavljača. Informacije dobivene tijekom ovog eksperimenta odredit će koji dobavljač nudi najizdržljivije padobrane.

Mnoge primjene se odnose na eksperimente u kojima se razmatra nekoliko grupa ili razina jednog faktora. Neki čimbenici, kao što je temperatura pečenja keramike, mogu imati više brojčanih razina (tj. 300°, 350°, 400° i 450°). Drugi čimbenici, kao što je lokacija robe u supermarketu, mogu imati kategoričke razine (npr. prvi dobavljač, drugi dobavljač, treći dobavljač, četvrti dobavljač). Eksperimenti s jednim faktorom u kojima su eksperimentalne jedinice nasumično raspoređene u skupine ili razine faktora nazivaju se potpuno randomizirani.

KorištenjeF-kriteriji za procjenu razlika između nekoliko matematičkih očekivanja

Ako su numerička mjerenja faktora u grupama kontinuirana i ispunjeni su neki dodatni uvjeti, analiza varijance (ANOVA - An analiza o f Va rijanca). Analiza varijance korištenjem potpuno randomiziranih dizajna naziva se jednosmjerna ANOVA. U određenom smislu, termin analiza varijance je pogrešan jer uspoređuje razlike između srednjih vrijednosti grupa, a ne između varijanci. No, usporedba matematičkih očekivanja provodi se upravo na temelju analize varijacije podataka. U postupku ANOVA ukupna varijacija rezultata mjerenja dijeli se na međugrupnu i unutargrupnu (slika 1). Unutargrupna varijacija objašnjava se eksperimentalnom greškom, dok se međugrupna varijacija objašnjava učincima eksperimentalnih uvjeta. Simbol S označava broj grupa.

Riža. 1. Razdvajanje varijacija u potpuno randomiziranom eksperimentu

Preuzmite bilješku u ili formatu, primjere u formatu

Hajdemo to pretvarati S grupe su izvučene iz nezavisnih populacija koje imaju normalnu distribuciju i istu varijancu. Nulta hipoteza je da su matematička očekivanja populacija ista: H 0: μ 1 = μ 2 = ... = μ s. Alternativna hipoteza tvrdi da nisu sva matematička očekivanja ista: H 1: nisu svi μ j isti j= 1, 2, …, s).

Na sl. Slika 2 predstavlja pravu nultu hipotezu o matematičkim očekivanjima pet uspoređivanih skupina, pod uvjetom da opće populacije imaju normalnu distribuciju i istu varijancu. Pet populacija povezanih s različite razine faktori su identični. Prema tome, oni su postavljeni jedan na drugi, imaju isto matematičko očekivanje, varijaciju i oblik.

Riža. 2. Pet populacija ima isto matematičko očekivanje: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

S druge strane, pretpostavimo da je zapravo nulta hipoteza netočna, a četvrta razina ima najveće matematičko očekivanje, prva razina ima nešto niže matematičko očekivanje, a preostale razine imaju ista, pa čak i manja matematička očekivanja (Sl. 3). Imajte na umu da je, s izuzetkom srednje vrijednosti, svih pet populacija identično (tj. ima istu varijabilnost i oblik).

Riža. 3. Promatra se učinak eksperimentalnih uvjeta: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

Pri testiranju hipoteze o jednakosti matematičkih očekivanja nekoliko općih populacija, ukupna varijacija se dijeli na dva dijela: međugrupnu varijaciju, zbog razlika među grupama, i unutargrupnu varijaciju, zbog razlika između elemenata koji pripadaju istoj skupini. Ukupna varijacija izražava se kao ukupni zbroj kvadrata (SST - sum of squares total). Budući da je nulta hipoteza da je očekivanje svih S grupe međusobno jednake, ukupna varijacija jednaka je zbroju kvadrata razlika između pojedinačnih opažanja i ukupne srednje vrijednosti (srednja vrijednost prosjeka) izračunate za sve uzorke. Puna varijacija:

gdje - ukupni prosjek, Xij - ja-e gledati unutra j-ta grupa ili razina, nj- broj opažanja u j-ta grupa, n- ukupan broj opažanja u svim grupama (tj. n = n 1 + n2 + … + nc), S- broj proučavanih grupa ili razina.

Međugrupna varijacija, koji se obično naziva zbroj kvadrata među skupinama (SSA), jednak je zbroju kvadrata razlika između srednje vrijednosti uzorka svake skupine j i ukupni prosjek pomnožen s volumenom odgovarajuće skupine nj:

gdje S- broj proučavanih grupa ili razina, nj- broj opažanja u j-ta grupa, j- zlobno j-ta grupa, - opća havarija.

Unutargrupna varijacija, koji se obično naziva zbrojem kvadrata unutar grupa (SSW), jednak je zbroju kvadrata razlika između elemenata svake skupine i uzorka srednje vrijednosti ove skupine j:

gdje xi J - ja-ti element j-ta grupa, j- zlobno j-ta grupa.

Jer se uspoređuju S razine faktora, međugrupni zbroj kvadrata ima s - 1 stupnjevi slobode. Svaki od S razine ima nj – 1 stupnjeva slobode, pa unutargrupni zbroj kvadrata ima n- Sa stupnjevi slobode, i

Osim toga, ukupni zbroj kvadrata ima n – 1 stupnjeva slobode, budući da je svako promatranje xi J u usporedbi s ukupnim prosjekom izračunatim za sve n zapažanja. Ako se svaki od ovih zbrojeva podijeli s odgovarajućim brojem stupnjeva slobode, nastat će tri vrste disperzije: međuskupina(srednji kvadrat među - MSA), unutargrupni(srednji kvadrat unutar - MSW) i potpuna(ukupni srednji kvadrat - MST):

Unatoč činjenici da je glavna svrha analize varijance usporedba matematičkih očekivanja S skupine za otkrivanje učinka eksperimentalnih uvjeta, naziv je dobio zbog činjenice da je glavni alat analiza varijanci drugačiji tip. Ako je nulta hipoteza istinita, i između očekivanih vrijednosti S grupe nema značajnih razlika, sve tri varijance - MSA, MSW i MST - su procjene varijance σ2 svojstvene analiziranim podacima. Dakle, da testiramo nultu hipotezu H 0: μ 1 = μ 2 = ... = μ s i alternativna hipoteza H 1: nisu svi μ j isti j = 1, 2, …, S), potrebno je izračunati statistiku F-kriterij, koji je omjer dvije varijance, MSA i MSW. test F-statistika u univarijatnoj analizi varijance

Statistika F-kriteriji poštuju F- distribucija sa s - 1 stupnjevi slobode u brojniku MSA i n - s stupnjevi slobode u nazivniku MSW. Za danu razinu značajnosti α, nulta hipoteza se odbacuje ako je izračunata F FU inherentan F- distribucija sa s - 1 n - s stupnjevi slobode u nazivniku. Dakle, kao što je prikazano na sl. 4, pravilo odlučivanja je formulirano na sljedeći način: nulta hipoteza H 0 odbijen ako F > FU; inače se ne odbija.

Riža. 4. Kritično područje analize varijance pri testiranju hipoteze H 0

Ako je nulta hipoteza H 0 je istinito, izračunato F-statistika je blizu 1, budući da su njezin brojnik i nazivnik procjene iste vrijednosti - varijance σ 2 svojstvene analiziranim podacima. Ako je nulta hipoteza H 0 je netočan (i postoji značajna razlika između vrijednosti očekivanja različitih skupina), izračunati F-statistika će biti puno veća od jedan, budući da njen brojnik, MSA, osim prirodne varijabilnosti podataka, procjenjuje učinak eksperimentalnih uvjeta ili razlika između skupina, dok nazivnik MSW procjenjuje samo prirodnu varijabilnost podataka. Dakle, postupak ANOVA je F je test u kojem se, na danoj razini značajnosti α, nulta hipoteza odbacuje ako je izračunata F- statistika je veća od gornje kritične vrijednosti FU inherentan F- distribucija sa s - 1 stupnjevi slobode u brojniku i n - s stupnjeva slobode u nazivniku, kao što je prikazano na sl. četiri.

Kako bismo ilustrirali jednosmjernu analizu varijance, vratimo se na scenarij opisan na početku bilješke. Svrha eksperimenta je utvrditi imaju li padobrani tkani od sintetičkih vlakana različitih dobavljača jednaku čvrstoću. Svaka grupa ima pet ispletenih padobrana. Grupe su podijeljene prema dobavljačima - Dobavljač 1, Dobavljač 2, Dobavljač 3 i Dobavljač 4. Čvrstoća padobrana mjeri se posebnim uređajem koji ispituje tkaninu na trganje s obje strane. Sila potrebna za lomljenje padobrana mjeri se posebnom vagom. Što je veća sila loma, to je padobran jači. Excel omogućuje analizu F-Statistika jednim klikom. Prođite kroz izbornik PodaciAnaliza podataka i odaberite liniju Jednosmjerna analiza varijance, ispunite otvoreni prozor (Sl. 5). Rezultati eksperimenta (snaga jaza), neke deskriptivne statistike i rezultati jednosmjerne analize varijance prikazani su na sl. 6.

Riža. 5. Prozor Paket jednosmjerne ANOVA analize excel

Riža. Sl. 6. Pokazatelji čvrstoće padobrana tkanih od sintetičkih vlakana dobivenih od različitih dobavljača, deskriptivna statistika i rezultati jednosmjerne analize varijance

Analiza slike 6 pokazuje da postoji određena razlika između srednjih vrijednosti uzorka. Prosječna čvrstoća vlakana dobivenih od prvog dobavljača je 19,52, od drugog - 24,26, od trećeg - 22,84 i od četvrtog - 21,16. Je li ta razlika statistički značajna? Raspodjela sile kidanja prikazana je dijagramom raspršenja (slika 7). Jasno pokazuje razlike kako među skupinama tako i unutar njih. Kad bi volumen svake skupine bio veći, mogli bi se analizirati korištenjem dijagrama stabljike i lišća, dijagrama kutije ili dijagrama normalne distribucije.

Riža. 7. Dijagram raspodjele čvrstoće padobrana tkanih od sintetičkih vlakana dobivenih od četiri dobavljača

Nulta hipoteza kaže da nema značajnih razlika između srednjih vrijednosti čvrstoće: H 0: μ 1 = μ 2 = μ 3 = μ 4. Alternativna hipoteza je da postoji barem jedan dobavljač čija se prosječna čvrstoća vlakana razlikuje od ostalih: H 1: nisu svi μ j isti ( j = 1, 2, …, S).

Ukupni prosjek (vidi sliku 6) = PROSJEK(D12:D15) = 21,945; da biste odredili, također možete izračunati prosjek svih 20 izvornih brojeva: \u003d PROSJEK (A3: D7). Izračunavaju se vrijednosti varijance Paket analiza i odražavaju se u tablici Analiza varijance(vidi sliku 6): SSA = 63,286, SSW = 97,504, SST = 160,790 (vidi stupac SS stolovi Analiza varijance slika 6). Prosjeci se izračunavaju dijeljenjem tih zbrojeva kvadrata s odgovarajućim brojem stupnjeva slobode. Jer S= 4, i n= 20, dobivamo sljedeće vrijednosti stupnjeva slobode; za SSA: s - 1= 3; za SSW: n–c= 16; za SST: n - 1= 19 (vidi stupac df). Dakle: MSA = SSA / ( c - 1)= 21,095; MSW=SSW/( n–c) = 6,094; MST = SST / ( n - 1) = 8,463 (vidi stupac MS). F-statistika = MSA / MSW = 3,462 (vidi stupac F).

Gornja kritična vrijednost FU, karakteristično za F-distribucija, određuje se formulom = F. OBR (0,95; 3; 16) = 3,239. Parametri funkcije =F.OBR(): α = 0,05, brojnik ima tri stupnja slobode, a nazivnik 16. Dakle, izračunati F-statistika jednaka 3,462 premašuje gornju kritičnu vrijednost FU= 3,239, nulta hipoteza je odbačena (slika 8).

Riža. 8. Kritično područje analize varijance na razini značajnosti 0,05 ako brojnik ima tri stupnja slobode, a nazivnik je -16

R- vrijednost, tj. vjerojatnost da pod pravom nultom hipotezom F- statistika ne manja od 3,46, jednaka 0,041 ili 4,1% (vidi stupac p-vrijednost stolovi Analiza varijance slika 6). Budući da ova vrijednost ne prelazi razinu značajnosti α = 5%, nulta hipoteza se odbacuje. Nadalje, R-vrijednost pokazuje da je vjerojatnost pronalaženja takve ili velike razlike između matematičkih očekivanja općih populacija, pod uvjetom da su one zapravo iste, 4,1%.

Tako. Postoji razlika između četiri srednje vrijednosti uzorka. Nulta hipoteza bila je da su sva matematička očekivanja četiriju populacija jednaka. Pod ovim uvjetima, mjera ukupne varijabilnosti (tj. ukupne SST varijacije) snage svih padobrana izračunava se zbrajanjem kvadrata razlika između svakog opažanja Xij i ukupni prosjek . Zatim je ukupna varijacija podijeljena u dvije komponente (vidi sliku 1). Prva komponenta bila je međugrupna varijacija u SSA, a druga je bila unutargrupna varijacija u SSW.

Što objašnjava varijabilnost podataka? Drugim riječima, zašto nisu sva opažanja ista? Jedan od razloga je taj što različite tvrtke isporučuju vlakna različite čvrstoće. Ovo djelomično objašnjava zašto skupine imaju različite očekivane vrijednosti: što je jači učinak eksperimentalnih uvjeta, to je veća razlika između srednjih vrijednosti skupina. Drugi razlog varijabilnosti podataka je prirodna varijabilnost bilo kojeg procesa, u ovom slučaju proizvodnje padobrana. Čak i da su sva vlakna kupljena od istog dobavljača, njihova čvrstoća ne bi bila jednaka, pod svim ostalim uvjetima. Budući da se ovaj učinak pojavljuje u svakoj od skupina, naziva se varijacija unutar grupe.

Razlike između srednjih vrijednosti uzorka nazivaju se međugrupna varijacija SSA. Dio unutargrupne varijacije, kao što je već spomenuto, objašnjava se činjenicom da podaci pripadaju različitim skupinama. Međutim, čak i da su grupe potpuno iste (tj. nulta hipoteza bi bila istinita), i dalje bi postojale međugrupne varijacije. Razlog tome leži u prirodnoj varijabilnosti procesa izrade padobrana. Budući da su uzorci različiti, njihove srednje vrijednosti uzoraka se međusobno razlikuju. Stoga, ako je nulta hipoteza istinita, varijabilnost između grupa i unutar grupa su procjene varijabilnosti populacije. Ako je nulta hipoteza netočna, hipoteza između grupa bit će veća. To je činjenica koja leži u pozadini F-kriteriji za usporedbu razlika između matematičkih očekivanja nekoliko skupina.

Nakon provedbe jednosmjerne ANOVE i pronalaženja značajnih razlika između tvrtki, ostaje nepoznato koji se dobavljač značajno razlikuje od ostalih. Znamo samo da matematička očekivanja stanovništva nisu jednaka. Drugim riječima, barem jedno od matematičkih očekivanja značajno se razlikuje od ostalih. Da biste odredili koji se pružatelj usluga razlikuje od ostalih, možete koristiti Tukeyjev postupak, koji koristi usporedbu u parovima između pružatelja usluga. Ovaj postupak razvio je John Tukey. Nakon toga, on i C. Cramer neovisno su modificirali ovaj postupak za situacije u kojima se veličine uzorka međusobno razlikuju.

Višestruka usporedba: Tukey-Kramerov postupak

U našem scenariju, jednosmjerna analiza varijance korištena je za usporedbu snage padobrana. Nakon što su utvrđene značajne razlike između matematičkih očekivanja četiri skupine, potrebno je utvrditi koje se skupine međusobno razlikuju. Iako postoji nekoliko načina rješavanja ovog problema, opisat ćemo samo Tukey-Kramerov postupak višestruke usporedbe. Ova metoda je primjer postupaka post hoc usporedbe, budući da se hipoteza koja se testira formulira nakon analize podataka. Tukey-Kramerov postupak omogućuje simultanu usporedbu svih parova grupa. U prvoj fazi izračunavaju se razlike xj - Xj, gdje j ≠j, između matematičkih očekivanja s(s – 1)/2 skupine. Kritični raspon Tukey-Kramerov postupak izračunava se po formuli:

gdje Q U- gornja kritična vrijednost distribucije studentiziranog raspona, koja ima S stupnjevi slobode u brojniku i n - Sa stupnjevi slobode u nazivniku.

Ako veličine uzorka nisu iste, kritični raspon se izračunava za svaki par matematičkih očekivanja zasebno. U posljednjoj fazi svaki s(s – 1)/2 parovi matematičkih očekivanja uspoređuju se s odgovarajućim kritičnim rasponom. Smatra se da su elementi para značajno različiti ako je modul razlike | Xj - Xj| između njih prelazi kritični raspon.

Tukey-Cramerov postupak primjenjujemo na problem čvrstoće padobrana. Budući da padobranska tvrtka ima četiri dobavljača, treba ispitati 4(4 – 1)/2 = 6 pari dobavljača (slika 9).

Riža. 9. Usporedbe uzoraka u parovima

Budući da sve grupe imaju isti volumen (tj. sve nj = nj), dovoljno je izračunati samo jedan kritični raspon. Da biste to učinili, prema tablici ANOVA(slika 6) određujemo vrijednost MSW = 6,094. Zatim nalazimo vrijednost Q U pri α = 0,05, S= 4 (broj stupnjeva slobode u brojniku) i n- Sa= 20 – 4 = 16 (broj stupnjeva slobode u nazivniku). Nažalost, nisam našao odgovarajuću funkciju u Excelu, pa sam se poslužio tablicom (sl. 10).

Riža. 10. Kritična vrijednost studentiziranog raspona Q U

Dobivamo:

Budući da je samo 4,74 > 4,47 (vidi donju tablicu na slici 9), postoji statistički značajna razlika između prvog i drugog dobavljača. Svi ostali parovi imaju srednje vrijednosti uzoraka, što nam ne dopušta govoriti o njihovoj različitosti. Posljedično, prosječna čvrstoća padobrana tkanih od vlakana kupljenih od prvog dobavljača znatno je manja od one drugog.

Nužni uvjeti za jednosmjernu analizu varijance

Prilikom rješavanja problema čvrstoće padobrana nismo provjeravali jesu li ispunjeni uvjeti pod kojima se može koristiti jednofaktor F-kriterij. Kako znati možete li primijeniti single-factor F-kriterij u analizi konkretnih eksperimentalnih podataka? Jedan faktor F-test se može primijeniti samo ako su ispunjene tri osnovne pretpostavke: eksperimentalni podaci moraju biti slučajni i neovisni, imati normalnu distribuciju, a njihove varijance moraju biti iste.

Prva pretpostavka je slučajnost i neovisnost podataka- treba uvijek učiniti, budući da ispravnost svakog eksperimenta ovisi o slučajnosti izbora i/ili procesu slučajnog odabira. Kako bi se izbjeglo iskrivljavanje rezultata, potrebno je izvući podatke iz S populacije nasumično i neovisno jedna o drugoj. Slično tome, podaci bi trebali biti nasumično raspoređeni S razine faktora koji nas zanima (eksperimentalne skupine). Kršenje ovih uvjeta može ozbiljno iskriviti rezultate analize varijance.

Druga pretpostavka je normalnost- znači da su podaci izvučeni iz normalno raspoređenih populacija. Što se tiče t-kriterij, jednosmjerna analiza varijance na temelju F-kriterij je relativno neosjetljiv na kršenje ovog uvjeta. Ako distribucija nije predaleko od normalne, razina značajnosti F- kriterij se malo mijenja, osobito ako je veličina uzorka dovoljno velika. Ako je uvjet normalne distribucije ozbiljno narušen, treba ga primijeniti.

Treća pretpostavka je jednolikost disperzije- znači da su varijance svake opće populacije međusobno jednake (tj. σ 1 2 = σ 2 2 = … = σ j 2). Ova pretpostavka omogućuje odlučivanje treba li odvojiti ili objediniti varijance unutar grupe. Ako su volumeni grupa isti, uvjet homogenosti varijance ima mali učinak na zaključke dobivene korištenjem F- kriteriji. Međutim, ako veličine uzorka nisu iste, kršenje uvjeta jednakosti varijanci može ozbiljno iskriviti rezultate analize varijance. Stoga treba težiti tome da veličine uzorka budu iste. Jedna od metoda za provjeru pretpostavke o homogenosti varijance je kriterij Levenay opisano u nastavku.

Ako je od sva tri uvjeta narušen samo uvjet jednolikosti disperzije, primjenjuje se postupak analogan t-kriterij koji koristi zasebnu varijancu (vidi detalje). Međutim, ako su pretpostavke normalne distribucije i homogenosti varijance istovremeno narušene, potrebno je normalizirati podatke i smanjiti razlike između varijanci ili primijeniti neparametarski postupak.

Leveneyev kriterij za provjeru homogenosti varijance

Iako F- kriterij je relativno otporan na kršenje uvjeta jednakosti varijanci u skupinama, grubo kršenje ove pretpostavke značajno utječe na razinu značajnosti i snage kriterija. Možda je jedan od najmoćnijih kriterij Levenay. Za provjeru jednakosti varijanci S opće populacije, testirat ćemo sljedeće hipoteze:

H 0: σ 1 2 = σ 2 2 = ... = σj 2

H 1: Ne sve σ j 2 isti su ( j = 1, 2, …, S)

Modificirani Leveneyjev test temelji se na tvrdnji da ako je varijabilnost u skupinama ista, analiza varijance apsolutnih vrijednosti razlika između opažanja i medijana skupine može se primijeniti za testiranje nulte hipoteze o jednakosti varijanci. Dakle, prvo treba izračunati apsolutne vrijednosti razlika između opažanja i medijana u svakoj skupini, a zatim izvršiti jednosmjernu analizu varijance na dobivenim apsolutnim vrijednostima razlika. Kako bismo ilustrirali Levenayev kriterij, vratimo se na scenarij opisan na početku bilješke. Koristeći podatke prikazane na Sl. 6, provest ćemo sličnu analizu, ali s obzirom na module razlika u početnim podacima i medijanima za svaki uzorak posebno (Sl. 11).

Za što se koristi analiza varijance? Svrha analize varijance je proučavanje prisutnosti ili odsutnosti značajnog utjecaja bilo kojeg kvalitativnog ili kvantitativnog čimbenika na promjene proučavanog efektivnog svojstva. Da bi se to postiglo, čimbenik, za koji se pretpostavlja da ima ili nema značajan utjecaj, dijeli se u gradacijske razrede (drugim riječima, skupine) i utvrđuje se je li utjecaj čimbenika isti ispitivanjem značajnosti između srednjih vrijednosti u skupovi podataka koji odgovaraju gradacijama faktora. Primjeri: istražuje se ovisnost dobiti poduzeća o vrsti korištenih sirovina (tada su gradacijski razredi vrste sirovina), ovisnost troška outputa jedinice proizvodnje o veličini poduzeća podjela (tada su gradacijski razredi obilježja veličine jedinice: veliki, srednji, mali).

Minimalan broj gradacijskih razreda (grupa) je dva. Ocjenjivanje razreda može biti kvalitativno ili kvantitativno.

Zašto se analiza varijance naziva disperzijska analiza? Analiza varijance ispituje omjer dviju varijanci. Disperzija je, kao što znamo, mjera disperzije podataka oko srednje vrijednosti. Prva je varijanca objašnjena utjecajem faktora, koja karakterizira širenje vrijednosti između gradacija faktora (skupina) oko prosjeka svih podataka. Druga je neobjašnjiva varijanca, koja karakterizira disperziju podataka unutar stupnjeva (grupa) oko prosječnih vrijednosti samih grupa. Prva disperzija se može nazvati međugrupnom, a druga - unutargrupnom. Omjer ovih varijanci naziva se stvarni Fisherov omjer i uspoređuje se s kritičnom vrijednošću Fisherovog omjera. Ako je stvarni Fisherov omjer veći od kritičnog, tada se prosječne gradacijske klase razlikuju jedna od druge i faktor koji se proučava značajno utječe na promjenu podataka. Ako je manji, onda se prosječni gradacijski razredi međusobno ne razlikuju i faktor nema značajan učinak.

Kako se formuliraju, prihvaćaju i odbacuju hipoteze u analizi varijance? U analizi varijance odredite specifična gravitacija kombinirani učinak jednog ili više čimbenika. Značajnost utjecaja čimbenika utvrđuje se testiranjem hipoteza:

  • H0 : μ 1 = μ 2 = ... = μ a, gdje a- broj gradacijskih razreda - sve gradacijske klase imaju jednu srednju vrijednost,
  • H1 : Ne sve μ ja su jednaki - nemaju sve gradacijske klase istu srednju vrijednost.

Ako utjecaj faktora nije značajan, tada je razlika između gradacijskih klasa ovog faktora također beznačajna i, tijekom analize varijance, nulta hipoteza H0 se ne odbija. Ako je utjecaj čimbenika značajan, onda je nulta hipoteza H0 odbijeno: nemaju svi gradacijski razredi istu srednju vrijednost, odnosno među mogućim razlikama između gradacijskih razreda jedna ili više njih su značajne.

Još neki pojmovi analize varijance. Statistički kompleks u analizi disperzije je tablica empirijskih podataka. Ako se u svim gradacijskim razredima isti broj opcija, tada se statistički kompleks naziva homogenim (homogenim), ako je broj opcija različit - heterogenim (heterogenim).

Ovisno o broju procijenjenih faktora, razlikuju se jednofaktorska, dvofaktorska i višefaktorska analiza varijance.

Jednosmjerna analiza varijance: suština metode, formule, primjeri

Bit metode, formule

temelji se na činjenici da se zbroj kvadrata odstupanja statističkog kompleksa može podijeliti na komponente:

SS = SS a + SS e,

SS

SSa a zbroj kvadrata odstupanja,

SSe je neobjašnjivi zbroj kvadratnih odstupanja ili zbroj kvadratnih odstupanja pogreške.

Ako kroz nja naznačiti broj opcija u svakom gradacijskom razredu (skupini) i a - ukupni broj gradacije faktora (grupe), zatim - ukupan broj opažanja i možete dobiti sljedeće formule:

ukupan broj kvadrata odstupanja: ,

objasniti utjecajem faktora a zbroj kvadrata odstupanja: ,

neobjašnjivi zbroj kvadratnih odstupanja ili zbroj kvadratnih odstupanja: ,

- ukupni prosjek opažanja,

(skupina).

Osim,

gdje je gradacijska disperzija faktora (grupe).

Da biste proveli jednosmjernu analizu varijance podataka statističkog kompleksa, trebate pronaći stvarni Fisherov omjer - omjer varijance objašnjene utjecajem faktora (međugrupna) i neobjašnjene varijance (unutargrupna):

i usporediti je s Fisherovom kritičnom vrijednošću.

Odstupanja se izračunavaju na sljedeći način:

objašnjena varijanca,

neobjašnjiva varijanca,

va = a − 1 je broj stupnjeva slobode objašnjene disperzije,

ve= na je broj stupnjeva slobode neobjašnjive disperzije,

v = n

Kritična vrijednost Fisherovog omjera s određenim vrijednostima razine značajnosti i stupnjeva slobode može se pronaći u statističkim tablicama ili izračunati pomoću MS Excel F.OBR funkcije (slika ispod, za povećanje kliknite na nju tipkom lijeva tipka miša).


Funkcija zahtijeva unos sljedećih podataka:

Vjerojatnost - razina značajnosti α ,

stupnjevi_slobode1 - broj stupnjeva slobode objašnjene varijance va,

stupnjevi_slobode2 - broj stupnjeva slobode neobjašnjene varijance ve.

Ako je stvarna vrijednost Fisherovog omjera veća od kritične vrijednosti (), tada se nulta hipoteza odbacuje s razinom značajnosti α . To znači da čimbenik značajno utječe na promjenu podatka i da je podatak ovisan o čimbeniku s vjerojatnošću P = 1 − α .

Ako je stvarna vrijednost Fisherovog omjera manja od kritične vrijednosti (), tada se nulta hipoteza ne može odbaciti s razinom značajnosti α . To znači da faktor ne utječe značajno na podatke s vjerojatnošću P = 1 − α .

Jednosmjerna ANOVA: Primjeri

Primjer 1 Potrebno je utvrditi utječe li vrsta korištenih sirovina na dobit poduzeća. U šest gradacijskih klasa (skupina) faktora (tip 1, tip 2 itd.) prikupljeni su podaci o dobiti od proizvodnje 1000 jedinica proizvoda u milijunima rubalja tijekom 4 godine.

Vrsta sirovine2014 2015 2016 2017
17,21 7,55 7,29 7,6
27,89 8,27 7,39 8,18
37,25 7,01 7,37 7,53
47,75 7,41 7,27 7,42
57,7 8,28 8,55 8,6
67,56 8,05 8,07 7,84
Prosjek
Disperzija
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

a= 6 i u svakom razredu (skupini) ni = 4 zapažanja. Ukupan broj opažanja n = 24 .

Brojevi stupnjeva slobode:

va = a − 1 = 6 − 1 = 5 ,

ve= na = 24 − 6 = 18 ,

v = n − 1 = 24 − 1 = 23 .

Izračunajmo varijance:

.

.

Budući da je stvarni Fisherov omjer veći od kritičnog:

s razinom značaja α = 0,05 zaključujemo da se dobit poduzeća, ovisno o vrsti sirovina koje se koriste u proizvodnji, značajno razlikuje.

Ili, što je isto, odbacujemo glavnu hipotezu o jednakosti sredina u svim klasama gradacije faktora (skupinama).

U upravo razmatranom primjeru, svaka klasa gradacije faktora imala je isti broj opcija. No, kao što je spomenuto u uvodnom dijelu, broj opcija može biti različit. A to ni na koji način ne komplicira postupak analize varijance. Ovo je sljedeći primjer.

Primjer 2 Potrebno je utvrditi postoji li ovisnost jediničnog troška outputa o veličini jedinice poduzeća. Faktor (vrijednost potpodjele) podijeljen je u tri gradacijske klase (skupine): mala, srednja, velika. Podaci koji odgovaraju ovim skupinama o trošku proizvodnje jedinice iste vrste proizvoda za određeno razdoblje su sažeti.

maliprosjekvelik
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Prosjek58,6 54,0 51,0
Disperzija128,25 65,00 107,60

Broj klasa gradacije faktora (grupa) a= 3 , broj promatranja u razredima (grupama) n1 = 4 , n2 = 7 , n3 = 6 . Ukupan broj opažanja n = 17 .

Brojevi stupnjeva slobode:

va = a − 1 = 2 ,

ve= na = 17 − 3 = 14 ,

v = n − 1 = 16 .

Izračunajmo zbrojeve kvadrata odstupanja:

Izračunajmo varijance:

,

.

Izračunajmo stvarni Fisherov omjer:

.

Kritična vrijednost Fisherovog omjera:

Budući da je stvarna vrijednost Fisherovog omjera manja od kritične: , zaključujemo da veličina jedinice poduzeća nema značajan utjecaj na trošak proizvodnje.

Ili, što je isto, s vjerojatnošću od 95% prihvaćamo glavnu hipotezu da se prosječni trošak proizvodnje jedinice istog proizvoda u malim, srednjim i velikim odjelima poduzeća značajno ne razlikuje.

Jednosmjerna ANOVA u MS Excelu

Jednosmjernu analizu varijance moguće je provesti pomoću MS Excel procedure Jednosmjerna analiza varijance. Koristimo ga za analizu podataka o odnosu između vrste korištenih sirovina i dobiti poduzeća iz primjera 1.

Analiza usluga/podataka i odaberite alat za analizu Jednosmjerna analiza varijance.

u prozoru interval unosa navedite područje podataka (u našem slučaju to je $A$2:$E$7). Označavamo kako je faktor grupiran - po stupcima ili po redovima (u našem slučaju po redovima). Ako prvi stupac sadrži nazive klasa faktora, označite okvir Oznake u prvom stupcu. U prozoru Alfa označavaju razinu značajnosti α = 0,05 .

Druga tablica - Analiza varijance - sadrži podatke o vrijednostima faktora između grupa i unutar grupa i ukupne iznose. To su zbroj kvadratnih odstupanja (SS), broj stupnjeva slobode (df) i disperzija (MS). U zadnja tri stupca - stvarna vrijednost Fisherova omjera (F), p-razina (P-value) i kritična vrijednost Fisherova omjera (F crit).

MS F p-vrijednost Fcrit
0,58585 6,891119 0,000936 2,77285
0,085017

Budući da je stvarna vrijednost Fisherovog koeficijenta (6,89) veća od kritične vrijednosti (2,77), s vjerojatnošću od 95% odbacujemo nultu hipotezu o jednakosti prosječne produktivnosti pri korištenju svih vrsta sirovina, tj. zaključiti da vrsta korištenih sirovina utječe na profit poduzeća.

Dvosmjerna analiza varijance bez ponavljanja: suština metode, formule, primjer

Dvosmjerna analiza varijance koristi se za provjeru moguće ovisnosti efektivnog svojstva o dva faktora - A i B. Zatim a- broj gradacija faktora A i b- broj gradacija faktora B. U statističkom kompleksu, zbroj kvadrata reziduala podijeljen je na tri komponente:

SS = SS a + SS b + SS e,

je ukupni zbroj kvadrata odstupanja,

- objašnjeno utjecajem faktora A zbroj kvadrata odstupanja,

- objašnjeno utjecajem faktora B zbroj kvadrata odstupanja,

- ukupni prosjek opažanja,

Prosjek opažanja u svakoj gradaciji faktora A ,

B .

A ,

Disperzija objašnjena utjecajem faktora B ,

va = a − 1 A ,

vb= b − 1 - broj stupnjeva slobode disperzije, objašnjen utjecajem faktora B ,

ve = ( a − 1)(b − 1)

v = ab− 1 - ukupan broj stupnjeva slobode.

Ako su čimbenici neovisni jedan o drugome, tada se postavljaju dvije nulte hipoteze i odgovarajuće alternativne hipoteze kako bi se odredila važnost čimbenika:

za faktor A :

H0 : μ 1A= μ 2A = ... = μ aA,

H1 : Ne sve μ iA su jednaki;

za faktor B :

H0 : μ 1B= μ 2B=...= μ aB,

H1 : Ne sve μ iB su jednaki.

A

Za određivanje utjecaja faktora B, trebamo usporediti stvarni Fisherov omjer s kritičnim Fisherovim omjerom.

α P = 1 − α .

α P = 1 − α .

Dvosmjerna analiza varijance bez ponavljanja: primjer

Primjer 3 Dane su informacije o prosječnoj potrošnji goriva na 100 kilometara u litrama, ovisno o veličini motora i vrsti goriva.

Potrebno je provjeriti ovisi li potrošnja goriva o veličini motora i vrsti goriva.

Riješenje. Za faktor A broj gradacijskih razreda a= 3 , za faktor B broj gradacijskih razreda b = 3 .

Računamo zbrojeve kvadrata odstupanja:

,

,

,

.

Relevantne varijance:

,

,

.

A . Budući da je stvarni Fisherov omjer manji od kritičnog, s vjerojatnošću od 95% prihvaćamo hipotezu da veličina motora ne utječe na potrošnju goriva. Međutim, ako odaberemo razinu značajnosti α = 0,1 , zatim stvarna vrijednost Fisherovog omjera i tada s vjerojatnošću od 95% možemo prihvatiti da veličina motora utječe na potrošnju goriva.

Stvarni Fisherov omjer za faktor B , kritična vrijednost Fisherovog omjera: . Budući da je stvarni Fisherov omjer veći od kritične vrijednosti Fisherova omjera, s vjerojatnošću od 95% pretpostavljamo da vrsta goriva utječe na njegovu potrošnju.

Dvosmjerna analiza varijance bez ponavljanja u MS Excelu

Dvosmjerna analiza varijance bez ponavljanja može se provesti pomoću MS Excel procedure. Njime analiziramo podatke o odnosu vrste goriva i njegove potrošnje iz primjera 3.

U izborniku MS Excel izvršite naredbu Analiza usluga/podataka i odaberite alat za analizu Dvosmjerna analiza varijance bez ponavljanja.

Podatke popunjavamo na isti način kao u slučaju jednosmjerne ANOVE.


Kao rezultat postupka prikazuju se dvije tablice. Prva tablica je Totals. Sadrži podatke o svim klasama gradacije faktora: broj opažanja, ukupnu vrijednost, srednju vrijednost i varijancu.

Druga tablica – Analiza varijance – sadrži podatke o izvorima varijacije: rasipanje između redaka, rasipanje između stupaca, rasipanje pogreške, ukupno rasipanje, zbroj kvadrata odstupanja (SS), broj stupnjeva slobode (df), varijanca (MS). ). U zadnja tri stupca - stvarna vrijednost Fisherova omjera (F), p-razina (P-value) i kritična vrijednost Fisherova omjera (F crit).

MS F p-vrijednost Fcrit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

Faktor A(veličina motora) grupiran je u redove. Budući da je stvarni Fisherov omjer 5,28 manji od kritičnih 6,94, pretpostavljamo s vjerojatnošću od 95% da potrošnja goriva ne ovisi o veličini motora.

Faktor B(vrsta goriva) grupiran je u stupce. Stvarni Fisherov omjer od 13,56 veći je od kritičnog omjera od 6,94, stoga s vjerojatnošću od 95% pretpostavljamo da potrošnja goriva ovisi o njegovoj vrsti.

Dvosmjerna analiza varijance s ponavljanjima: bit metode, formule, primjer

Dvosmjerna analiza varijance s ponavljanjima koristi se za provjeru ne samo moguće ovisnosti efektivnog svojstva o dva faktora - A i B, ali i moguću interakciju čimbenika A i B. Zatim a- broj gradacija faktora A i b- broj gradacija faktora B, r- broj ponavljanja. U statističkom kompleksu zbroj kvadrata reziduala podijeljen je na četiri komponente:

SS = SS a + SS b + SS ab + SS e,

je ukupni zbroj kvadrata odstupanja,

- objašnjeno utjecajem faktora A zbroj kvadrata odstupanja,

- objašnjeno utjecajem faktora B zbroj kvadrata odstupanja,

- objašnjava se utjecajem međudjelovanja faktora A i B zbroj kvadrata odstupanja,

- neobjašnjen zbroj kvadratnih odstupanja ili zbroj kvadratnih odstupanja od pogreške,

- ukupni prosjek opažanja,

- prosjek opažanja u svakoj gradaciji faktora A ,

- prosječni broj opažanja u svakoj gradaciji faktora B ,

Prosječan broj opažanja u svakoj kombinaciji stupnjevanja faktora A i B ,

n = abr je ukupan broj opažanja.

Odstupanja se izračunavaju na sljedeći način:

Disperzija objašnjena utjecajem faktora A ,

Disperzija objašnjena utjecajem faktora B ,

- disperzija objašnjena međudjelovanjem čimbenika A i B ,

- neobjašnjiva varijanca ili varijanca pogreške,

va = a − 1 - broj stupnjeva slobode disperzije, objašnjen utjecajem faktora A ,

vb= b − 1 - broj stupnjeva slobode disperzije, objašnjen utjecajem faktora B ,

vab = ( a − 1)(b − 1) - broj stupnjeva slobode disperzije, objašnjen međudjelovanjem faktora A i B ,

ve= ab(r − 1) je broj stupnjeva slobode neobjašnjive varijance ili varijance pogreške,

v = abr− 1 - ukupan broj stupnjeva slobode.

Ako su čimbenici neovisni jedan o drugome, postavljaju se tri nulte hipoteze i odgovarajuće alternativne hipoteze kako bi se odredila važnost čimbenika:

za faktor A :

H0 : μ 1A= μ 2A = ... = μ aA,

H1 : Ne sve μ iA su jednaki;

za faktor B :

Utvrditi utjecaj međudjelovanja faktora A i B, trebamo usporediti stvarni Fisherov omjer s kritičnim Fisherovim omjerom.

Ako je stvarni Fisherov omjer veći od kritičnog Fisherovog omjera, tada nultu hipotezu treba odbaciti s razinom značajnosti α . To znači da faktor značajno utječe na podatke: podaci ovise o faktoru s vjerojatnošću P = 1 − α .

Ako je stvarni Fisherov omjer manji od kritičnog Fisherovog omjera, tada se nulta hipoteza treba prihvatiti s razinom značajnosti α . To znači da faktor ne utječe značajno na podatke s vjerojatnošću P = 1 − α .

Dvosmjerna analiza varijance s ponavljanjima: primjer

o međudjelovanju faktora A i B: stvarni Fisherov omjer manji je od kritičnog, stoga interakcija između reklamne kampanje i određene trgovine nije značajna.

Dvosmjerna analiza varijance s ponavljanjima u MS Excelu

Dvosmjernu analizu varijance s ponavljanjima moguće je provesti postupkom MS Excel. Njime analiziramo podatke o odnosu prihoda trgovine i odabira pojedine trgovine i reklamne kampanje iz primjera 4.

U izborniku MS Excel izvršite naredbu Analiza usluga/podataka i odaberite alat za analizu Dvosmjerna analiza varijance s ponavljanjima.

Podatke popunjavamo na isti način kao i kod dvosmjerne ANOVA-e bez ponavljanja, s tim da u kućicu broj redaka do uzorka morate unijeti broj ponavljanja.

Kao rezultat postupka prikazuju se dvije tablice. Prva tablica sastoji se od tri dijela: prva dva odgovaraju svakoj od dvije reklamne kampanje, a treća sadrži podatke o obje reklamne kampanje. Stupci tablice sadrže informacije o svim gradacijskim klasama drugog faktora - store: broj opažanja, ukupna vrijednost, srednja vrijednost i varijanca.

U drugoj tablici - podaci o zbroju kvadrata odstupanja (SS), broju stupnjeva slobode (df), disperziji (MS), stvarnoj vrijednosti Fisherovog omjera (F), p-razini (P-value) i kritična vrijednost Fisherovog omjera (F crit) za različite izvore varijacije: dva faktora navedena u recima (uzorak) i stupcima, interakcija faktora, pogreške (unutar) i ukupni iznosi (ukupno).

MS F p-vrijednost Fcrit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

Za faktor B stvarni Fisherov omjer veći je od kritičnog omjera, stoga, s vjerojatnošću od 95%, prihodi se značajno razlikuju između trgovina.

Za interakciju faktora A i B stvarni omjer Fishera je manji od kritičnog, stoga, s vjerojatnošću od 95%, interakcija između reklamne kampanje i određene trgovine nije značajna.

Sve o "Matematičkoj statistici"