Какви въпроси могат да бъдат решени чрез дисперсионен анализ. Курсова работа: Дисперсионен анализ. Грипът причинява повишено производство на хистамин

Дисперсионен анализе система от концепции и техники, които позволяват да се обобщи процедурата за сравняване на две средни стойности за две проби, взети от генерални съвкупности с нормално разпределение в случай на голям брой проби.

Сервизно задание. С този онлайн калкулатор можете:

  • провеждане на еднопосочен дисперсионен анализ;
  • отговорете на въпроса - дали средните стойности на експериментите съвпадат или не;
  • при избраното ниво на значимост потвърдете или опровергайте нулевата хипотеза H 0 за равенството на груповите средни;

Инструкция. Посочете броя на измеренията (броя редове) q, броя на нивата на фактора p, щракнете върху Напред. Полученото решение се записва във файл на Word. Тази процедура обикновено се използва за избор на значими фактори за изграждане на уравнение на множествена регресия.

Пример. Продуктът на железопътния транспорт за целите на тестването на надеждността се експлоатира q пъти, i=1,...q при p нива на работно време Tj, j=1,..., p. Във всеки тест се отчита броят на неуспехите n ij. При ниво на значимост α = 0,05, изследвайте ефекта от времето на работа на продукта върху броя на повреди по метода на еднопосочен ANOVA при q=4, p=4. Резултатите от теста n ij са представени в таблици.
Решение.
Еднопосочна ANOVA процедура. Намиране на групови средни стойности:

нП 1П 2П 3P 4
1 145 210 195 155
2 140 200 190 150
3 150 190 240 180
4 190 195 210 175
х156.25 198.75 208.75 165

Нека обозначим с p - броя нива на фактора (p=4). Броят на измерванията на всяко ниво е еднакъв и равен на q=4.


(1)



R общо = ∑∑(x ij -x) (2)

R f \u003d q (x ij -x)


R почивка \u003d R общо - R f












Ако f obl >f cr, тогава факторът има значително влияние и трябва да се вземе предвид, в противен случай има незначителен ефект, който може да бъде пренебрегнат.

(4)


нП 2 1П 2 2П 2 3P 2 4
1 21025 44100 38025 24025
2 19600 40000 36100 22500
3 22500 36100 57600 32400
4 36100 38025 44100 30625
99225 158225 175825 109550



Rtot = 99225 + 158225 + 175825 + 109550 - 4 4 182,19 2 = 11748,44
Намираме R f по формулата (5):
R f \u003d 4 (156,25 2 + 198,75 2 + 208,75 2 + 165 2) - 4 182,19 2 \u003d 7792,19
Получаваме R почивка: R почивка \u003d R общо - R f = 11748,44 - 7792,19 \u003d 3956,25
Ние определяме факторните и остатъчните дисперсии:



Оценката на факторната дисперсия е по-голяма от оценката на остатъчната дисперсия, така че можем веднага да твърдим, че нулевата хипотеза за равенство не е вярна математически очакванияпо примерни слоеве.
С други думи, в този пример факторът Ф оказва значително влияние върху случайната променлива.

Намерете f обл

За ниво на значимост α=0,05, брой степени на свобода 3 и 12, намираме f cr от таблицата за разпределение на Фишер-Снедекор.
f cr (0,05; 3; 12) = 3,49
Поради факта, че f obl > f cr, приемаме нулевата хипотеза за значителното влияние на фактора върху резултатите от експериментите.

Пример #2. Анкетирани са студентите от първи курс, за да се идентифицират дейностите, на които посвещават свободното си време. Проверете дали разпределението на вербалните и невербалните предпочитания на учениците се различава.
Намиране на групови средни стойности:

нП 1П 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
х15.6 17
Нека обозначим с p - броя нива на фактора (p=2). Броят на измерванията на всяко ниво е еднакъв и равен на q=5.
Последният ред съдържа груповите средни стойности за всяко ниво на фактора.
Общата средна стойност може да се получи като средната аритметична стойност на груповите средни стойности:
(1)
Разпространението на груповите средни стойности на процента на неуспех спрямо общата средна стойност се влияе както от промените в нивото на разглеждания фактор, така и от случайни фактори.
За да се отчете влиянието на този фактор, общата дисперсия на извадката се разделя на две части, първата от които се нарича фактор S 2 f, а втората - остатъчната S 2 rest.
За да се вземат предвид тези компоненти, първо се изчислява общата сума на квадратите на отклоненията на варианта от общата средна стойност:
R общо \u003d ∑ ∑ (x ij -x)
и факториалната сума на квадратите на отклоненията на груповите средства от общата средна стойност, която характеризира влиянието на този фактор:
R f \u003d q∑ (x ij -x)
Последният израз се получава чрез заместване на всеки вариант в израза Rtot с груповата средна стойност за дадения фактор.
Остатъчната сума на квадратите на отклоненията се получава като разликата:
R почивка \u003d R общо - R f
За да се определи общата дисперсия на извадката, е необходимо да се раздели Rtotal на броя на измерванията pq:

и за да се получи безпристрастната обща дисперсия на извадката, този израз трябва да се умножи по pq/(pq-1):

Съответно, за дисперсията на безпристрастната факторна извадка:

където p-1 е броят на степените на свобода на дисперсията на безпристрастната факторна извадка.
За да се оцени влиянието на фактора върху промените в разглеждания параметър, се изчислява стойността:

Тъй като съотношението на двете извадкови дисперсии S 2 f и S 2 rem е разпределено съгласно закона на Фишер-Снедекор, получената стойност f obs се сравнява със стойността на функцията на разпределение

в критичната точка f cr, съответстваща на избраното ниво на значимост a.
Ако f obl >f cr, тогава факторът има значително влияние и трябва да се вземе предвид, в противен случай има незначителен ефект, който може да бъде пренебрегнат.
Следните формули също могат да се използват за изчисляване на Robs и Rf:
R общо \u003d x ij ²-x ², (4)
R f \u003d q∑x j ²-x ², (5)
Намираме общата средна стойност по формулата (1):
За да изчислим Rtot с помощта на формула (4), съставяме таблица с опция за 2 квадрата:
нП 2 1П 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Общата средна стойност се изчислява по формула (1):

Rtot = 1322 + 1613 - 5 2 16,3 2 = 278,1
Намираме R f по формулата (5):
R f \u003d 5 (15,6 2 + 17 2) - 2 16,3 2 \u003d 4,9
Получаваме R почивка: R почивка \u003d R общо - R f = 278,1 - 4,9 \u003d 273,2
Ние определяме факториела и остатъчната дисперсия:


Ако средните стойности на случайна променлива, изчислени за отделни проби, са еднакви, тогава оценките на факторните и остатъчните дисперсии са безпристрастни оценки на общата дисперсия и се различават незначително.
Тогава сравнението на оценките на тези дисперсии според критерия на Фишър трябва да покаже, че няма причина да се отхвърли нулевата хипотеза за равенството на факторните и остатъчните дисперсии.
Оценката на факторната дисперсия е по-малка от оценката на остатъчната дисперсия, така че можем веднага да твърдим валидността на нулевата хипотеза за равенството на математическите очаквания за слоевете на извадката.
С други думи, в този пример факторът Ф не влияе значително на случайната променлива.
Нека проверим нулевата хипотеза H 0: равенството на средните стойности на x.
Намерете f обл

За ниво на значимост α=0,05, брой степени на свобода 1 и 8, намираме f cr от таблицата за разпределение на Фишер-Снедекор.
f cr (0,05; 1; 8) = 5,32
Поради факта, че f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
С други думи, разпределението на вербалните и невербалните предпочитания на учениците е различно.

Упражнение. Заводът разполага с четири линии за производство на облицовъчни плочки. 10 плочки бяха избрани на случаен принцип от всяка линия по време на смяната и тяхната дебелина (mm) беше измерена. Отклоненията от номиналния размер са дадени в таблицата. Необходимо е при ниво на значимост a = 0,05 да се установи зависимостта на производството на висококачествени плочки от производствената линия (фактор А).

Упражнение. При ниво на значимост a = 0,05, изследвайте ефекта на цвета на боята върху експлоатационния живот на покритието.

Пример #1. Извършени са 13 теста, от които 4 на първо ниво на фактора, 4 на второ, 3 на трето и 2 на четвърто ниво. Използвайки метода на дисперсионния анализ при ниво на значимост 0,05, проверете нулевата хипотеза за равенството на груповите средни стойности. Предполага се, че пробите са взети от нормални популации със същите вариации. Резултатите от теста са показани в таблицата.

Решение:
Намиране на групови средни стойности:

нП 1П 2П 3P 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
х1.4 1.43 1.33 1.32
Нека обозначим с p - броя нива на фактора (p=4). Броят на измерванията на всяко ниво е: 4,4,3,2
Последният ред съдържа груповите средни стойности за всяко ниво на фактора.
Общата средна стойност се изчислява по формулата:

За да изчислим Общо с помощта на формула (4), съставяме таблица с опция за 2 квадрата:
нП 2 1П 2 2П 2 3P 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49
Общата сума на квадратите на отклоненията се намира по формулата:

Намираме S f по формулата:


Получаваме S rest: S rest \u003d S total - S f = 0,0293 - 0,0263 \u003d 0,003
Определете дисперсията на фактора:

и остатъчна дисперсия:

Ако средните стойности на случайна променлива, изчислени за отделни проби, са еднакви, тогава оценките на факторните и остатъчните дисперсии са безпристрастни оценки на общата дисперсия и се различават незначително.
Тогава сравнението на оценките на тези дисперсии според критерия на Фишър трябва да покаже, че няма причина да се отхвърли нулевата хипотеза за равенството на факторните и остатъчните дисперсии.
Оценката на факторната дисперсия е по-голяма от оценката на остатъчната дисперсия, така че можем веднага да твърдим, че нулевата хипотеза за равенството на математическите очаквания за слоевете на извадката не е вярна.
С други думи, в този пример факторът Ф оказва значително влияние върху случайната променлива.
Нека проверим нулевата хипотеза H 0: равенството на средните стойности на x.
Намерете f обл

За ниво на значимост α=0,05, брой степени на свобода 3 и 12, намираме f cr от таблицата за разпределение на Фишер-Снедекор.
f cr (0,05; 3; 12) = 3,49
Поради факта, че fobs > fcr, приемаме нулевата хипотеза за значителното влияние на фактора върху резултатите от експериментите (отхвърляме нулевата хипотеза за равенството на груповите средни стойности). С други думи, груповите средства като цяло се различават значително.

Пример #2. В училището има 5 шести класа. Психологът има за задача да установи дали средното ниво на ситуативна тревожност в часовете е еднакво. За това бяха дадени в таблицата. Проверете нивото на значимост α=0,05, допускането, че средната ситуационна тревожност в класовете не се различава.

Пример #3. За изследване на стойността на X бяха проведени 4 теста за всяко от петте нива на фактор F. Резултатите от теста са дадени в таблицата. Разберете дали влиянието на фактора F върху стойността на X е значително. Вземете α = 0,05. Предполага се, че пробите са взети от нормални популации със същите вариации.

Пример #4. Да предположим, че в педагогическия експеримент са участвали три групи ученици, всяка от по 10 души. В групите бяха използвани различни методи на обучение: в първата - традиционна (F 1), във втората - базирана на компютърни технологии (F 2), в третата - метод, който широко използва задачи за самостоятелна работа(F3). Знанията се оценяваха по десетобална система.
Необходимо е да се обработят получените данни от изпитите и да се направи заключение дали влиянието на метода на преподаване е значимо, като се приеме за ниво на значимост α=0,05.
Резултатите от изпитите са дадени в таблица, F j - нивото на фактора x ij - оценката на i-тия ученик на ученика по метода F j .

аз 1 2 3 4 5 6 7 8 9 10
Ниво на фактор F j F1 7 5 6 4 6 7 8 6 5 7
F2 9 8 10 8 7 10 10 9 7 6
F3 6 7 6 6 9 5 7 8 7 8

Пример номер 5. Показани са резултатите от конкурентното сортоизпитване на културите (добив в cd ha). Всеки сорт е тестван в четири парцела. Използвайте метода на дисперсионния анализ, за ​​да изследвате влиянието на сорта върху добива. Задайте значимостта на влиянието на фактора (делът на междугруповата вариация в общата вариация) и значимостта на резултатите от експеримента на ниво на значимост 0,05.
Добиви в участъци за сортоизпитване

Разнообразие Производителност при повторения на c. от ха
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

5.1. Какво е дисперсионен анализ?

Дисперсионният анализ е разработен през 20-те години на миналия век от английския математик и генетик Роналд Фишър. Според проучване сред учени, което установи кой е повлиял най-много на биологията на 20-ти век, сър Фишър спечели първенството (за заслугите си той беше удостоен с рицарско звание - едно от най-високите отличия във Великобритания); в това отношение Фишър е сравним с Чарлз Дарвин, който има най-голямо влияние върху биологията през 19 век.

Дисперсионният анализ (Analis of variance) е вече отделна индустриястатистика. Тя се основава на факта, открит от Фишър, че мярката за променливостта на изследваното количество може да бъде разложена на части, съответстващи на факторите, влияещи върху това количество и случайни отклонения.

За да разберем същността на дисперсионния анализ, ще извършим един и същ тип изчисления два пъти: „ръчно“ (с калкулатор) и с помощта на Статистически програми. За да опростим задачата си, няма да работим с резултатите от реално описание на разнообразието от зелени жаби, а с измислен пример, който се отнася до сравнението на жените и мъжете при хората.Помислете за разликата във височината на 12 възрастни: 7 жени и 5 мъже.

Таблица 5.1.1. Пример за еднопосочен ANOVA: Данни за пол и височина за 12 души

Нека направим еднопосочен анализ на дисперсията: нека сравним дали мъжете и жените се различават статистически значимо или не в характеризираната група по отношение на височината.

5.2. Тест за нормално разпределение

По-нататъшните разсъждения се основават на факта, че разпределението в разглежданата извадка е нормално или близко до нормалното. Ако разпределението е далеч от нормалното, дисперсията (дисперсията) не е адекватна мярка за неговата променливост. Анализът на дисперсията обаче е относително устойчив на отклонения на разпределението от нормалното.

Тези данни могат да бъдат тествани за нормалност по два начина. различни начини. Първо: Статистика / Основна статистика / Таблици / Описателна статистика / Раздел Нормалност. В разделаНормалност можете да изберете кои тестове за нормално разпределение да използвате. При натискане на бутона Честотни таблици се появява честотната таблица, а на бутоните Хистограми - хистограма. Таблицата и лентовата графика ще показват резултатите от различни тестове.

Вторият метод е свързан с използването на подходящи възможности при конструиране на хистограми. В диалоговия прозорец за изграждане на хистограма (Графики / Хистограми...) изберете раздела Разширени. В долната му част има блок Статистика. Обърнете внимание на това Shapiro-Wilk T est и тест на Колмогоров-Смирнов, както е показано на фигурата.

Ориз. 5.2.1. Статистически тестове за нормално разпределение в диалога за изграждане на хистограма

Както се вижда от хистограмата, разпределението на растежа в нашата извадка се различава от нормалното (в средата - „провал“).


Ориз. 5.2.2. Хистограма, начертана с параметрите, посочени в предишната фигура

Третият ред в заглавието на графиката показва параметрите на нормалното разпределение, което е най-близо до наблюдаваното разпределение. Общата средна стойност е 173, общото стандартно отклонение е 10,4. Вмъкването в долната част на графиката показва резултатите от тестовете за нормалност. D е тестът на Колмогоров-Смирнов, а SW-W е тестът на Шапиро-Уилк. Както може да се види, за всички използвани тестове, разликите в разпределението на растежа от нормалното разпределение се оказаха статистически незначими ( стр във всички случаи по-голям от 0,05).

Така че, формално казано, тестовете за съответствие на разпределението с нормалното не ни „забраниха“ да използваме параметричния метод, основан на предположението за нормална дистрибуция. Както вече споменахме, анализът на дисперсията е относително устойчив на отклонения от нормалното, така че ние все още го използваме.

5.3. Еднопосочна ANOVA: Ръчни изчисления

За да характеризираме променливостта на височината на хората в горния пример, ние изчисляваме сумата от квадратните отклонения (на английски се означава като СС , Сума от квадрати или ) отделни стойности от средната стойност: . Средната стойност на височината в горния пример е 173 сантиметра. Въз основа на това,

СС = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

СС = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

СС = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Получената стойност (1192) е мярка за променливостта на целия набор от данни. Те обаче се състоят от две групи, за всяка от които е възможно да се разпредели собствена средна стойност. В посочените данни средният ръст на жените е 168 см, а на мъжете - 180 см.

Изчислете сумата на квадратите на отклоненията за жени:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Ние също така изчисляваме сумата на квадратите на отклоненията за мъжете:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

От какво зависи изследваната стойност в съответствие с логиката на дисперсионния анализ?

Две изчислени количества, SS f и SS m , характеризират вътрешногруповата дисперсия, която при анализа на дисперсията обикновено се нарича "грешка". Произходът на това име е свързан със следната логика.

Какво определя височината на човек в този пример? На първо място, от средния ръст на хората като цяло, независимо от техния пол. Второ, от пода. Ако хората от един пол (мъжки) са по-високи от другия (женски), това може да се представи като допълнение към "универсалната" средна стойност на някаква стойност, ефектът на пола. И накрая, хората от един и същи пол се различават по височина поради индивидуалните различия. В рамките на модел, който описва височината като сбор от средната стойност за човека плюс корекция на пола, индивидуалните различия са необясними и могат да се разглеждат като „грешка“.

И така, в съответствие с логиката на дисперсионния анализ, изследваната стойност се определя, както следва: , където xij - i-та стойност на изследваната величина при j-та стойност на изследвания фактор; - обща авария; Fj - влиянието на j-тата стойност на изследвания фактор; - "грешка", приносът на индивидуалността на обекта, към който се отнася стойносттаxij .

Междугрупова сума на квадратите

Така, СС грешки = SS f + SS m = 212 + 560 = 772. С тази стойност описахме вътрешногруповата променливост (при разделяне на групите по пол). Но има и втора част от променливостта - междугрупова, която ще наречемSS ефект (защото говорим за ефекта от разделянето на разглежданото множество обекти на жени и мъже).

Средната стойност на всяка група се различава от общата средна стойност. Когато изчисляваме приноса на тази разлика към общата мярка за променливост, трябва да умножим разликата между групата и общата средна стойност по броя на обектите във всяка група.

SS ефект = = 7x(168-173) 2 + 5x(180-173) 2 = 7x52 + 5x72 = 7x25 + 5x49 = 175 + 245 = 420.

Тук се проявява принципът на постоянството на сумата от квадрати, открит от Фишър: SS = SS ефект + SS грешки , т.е. за този пример 1192 = 440 + 722.

Средни квадратчета

Сравнявайки в нашия пример междугруповите и вътрешногруповите суми на квадратите, можем да видим, че първата е свързана с вариацията на двете групи, а втората - 12 стойности в 2 групи. Брой степени на свобода ( df ) за някакъв параметър може да се определи като разликата между броя на обектите в групата и броя на зависимостите (уравнения), които свързват тези стойности.

В нашия пример df ефект = 2–1 = 1, а df грешки = 12–2 = 10.

Можем да разделим сумите на квадратите на броя на техните степени на свобода, за да получим средните квадрати ( ГОСПОЖИЦА , средства на квадрати). След като направим това, можем да установим това ГОСПОЖИЦА - нищо повече от дисперсии ("дисперсии", резултат от разделяне на сумата от квадратите на броя на степените на свобода). След това откритие можем да разберем структурата на таблицата ANOVA. За нашия пример ще изглежда така.

Ефект

Грешка

MS ефект и MS грешки са оценки на междугруповите и вътрешногруповите дисперсии и следователно могат да бъдат сравнявани според критерияЕ (критерий на Снедекор, кръстен на Фишер), предназначен за сравняване на варианти. Този критерий е просто частното от разделянето на по-голямата дисперсия на по-малката. В нашия случай това е 420 / 77,2 = 5,440.

Определяне на статистическата значимост на теста на Фишер по таблиците

Ако трябваше да определим статистическата значимост на ефекта ръчно, използвайки таблици, ще трябва да сравним получената критериална стойност Е с критично съответстващо определено нивостатистическа значимост за дадени степени на свобода.


Ориз. 5.3.1. Фрагмент от таблицата с критични стойности на критерия Е

Както можете да видите, за нивото на статистическа значимост p=0,05, критичната стойност на критерияЕ е 4,96. Това означава, че в нашия пример ефектът от изследвания пол е записан с ниво на статистическа значимост от 0,05.

Полученият резултат може да се тълкува по следния начин. Вероятността на нулевата хипотеза, според която средният ръст на жените и мъжете е еднакъв, а регистрираната разлика в ръста им се дължи на случайност при формирането на извадките, е под 5%. Това означава, че трябва да изберем алтернативната хипотеза, че средният ръст на жените и мъжете е различен.

5.4. Еднопосочен анализ на дисперсията ( ANOVA) в пакета Statistica

В случаите, когато изчисленията не се правят ръчно, а с помощта на подходящи програми (например пакета Statistica), стойността стр определя автоматично. Вижда се, че е малко по-висока от критичната стойност.

За да анализирате обсъждания пример, като използвате най-простата версия на дисперсионния анализ, трябва да изпълните процедурата Statistics / ANOVA за файла със съответните данни и да изберете опцията One-way ANOVA (еднопосочна ANOVA) в Тип на прозорец за анализ и диалоговия прозорец Бързи спецификации в прозореца Метод на спецификация.


Ориз. 5.4.1. Диалог Общ ANOVA/MANOVA (ANOVA)

В бързия диалогов прозорец, който се отваря, в полето Променливи трябва да посочите онези колони, които съдържат данните, чиято променливост изучаваме (списък със зависими променливи; в нашия случай колоната Растеж), както и колона, съдържаща стойности ​които разделят изследваната стойност на групи (Категоричен предиктор (фактор); в нашия случай колоната Пол). В тази версия на анализа, за разлика от многовариантния анализ, може да се вземе предвид само един фактор.


Ориз. 5.4.2. Еднопосочен ANOVA диалог (еднопосочен анализ на дисперсията)

В прозореца Кодове на факторите трябва да посочите тези стойности на разглеждания фактор, които трябва да бъдат обработени по време на този анализ. Всички налични стойности могат да се видят с помощта на бутона Zoom; ако, както в нашия пример, трябва да вземете предвид всички стойности на факторите (а за пола в нашия пример има само две от тях), можете да щракнете върху бутона Всички. Когато колоните за обработка и факторните кодове са зададени, можете да щракнете върху бутона OK и да отидете до прозореца за бърз анализ за резултатите: ANOVA Results 1, в раздела Quick.

Ориз. 5.4.3. Бързият раздел на прозореца с резултати от ANOVA

Бутонът Всички ефекти/Графики ви позволява да видите как се сравняват средните стойности на двете групи. Над графиката е посочен броят на степените на свобода, както и стойностите на F и p за разглеждания фактор.


Ориз. 5.4.4. Графично показване на резултатите от дисперсионния анализ

Бутонът Всички ефекти ви позволява да получите таблица ANOVA, подобна на описаната по-горе (с някои значителни разлики).


Ориз. 5.4.5. Таблица с резултатите от дисперсионния анализ (сравнете с подобна таблица, получена "ръчно")

Долният ред на таблицата показва сумата от квадрати, броя на степените на свобода и средните квадрати за грешката (променливост в рамките на групата). На реда по-горе - подобни показатели за изследвания фактор (в случая знакът Пол), както и критерия Е (отношението на средните квадрати на ефекта към средните квадрати на грешката) и неговото ниво на статистическа значимост. Фактът, че ефектът от разглеждания фактор се оказа статистически значим, е показан чрез червено подчертаване.

И първият ред показва данни за индикатора „Прихващане“. Това редът на таблицата е загадка за потребителите, които се присъединяват към пакета Statistica в неговата 6-та или по-нова версия. Стойността на Intercept вероятно е свързана с разширяването на сумата от квадрати на всички стойности на данните (т.е. 1862 + 1692 … = 360340). Посочената за него стойност на критерия F се получава чрез разделяне MS Intercept/MS Error = 353220 / 77.2 = 4575.389 и естествено дава много ниска стойност стр . Интересното е, че в Statistica-5 тази стойност изобщо не е изчислена и ръководствата за използване на по-късни версии на пакета не коментират въвеждането му по никакъв начин. Вероятно най-доброто нещо, което може да направи биолог на Statistica-6 и по-късно, е просто да игнорира реда Intercept в таблицата ANOVA.

5.5. ANOVA и критериите на Student и Fisher: кое е по-добро?

Както можете да видите, данните, които сравнихме с помощта на еднопосочен анализ на дисперсията, бихме могли да изследваме и с помощта на тестовете на Стюдънт и Фишер. Нека сравним тези два метода. За да направим това, ние изчисляваме разликата във височината на мъжете и жените, използвайки тези критерии. За да направим това, ще трябва да следваме пътя Статистика / Основна статистика / t-тест, независимо, по групи. Естествено, зависимите променливи са променливата за растеж, а променливата за групиране е променливата за пола.


Ориз. 5.5.1. Сравнение на данните, обработени с помощта на ANOVA, според критериите на Стюдънт и Фишер

Както можете да видите, резултатът е същият като при използване на ANOVA. стр = 0.041874 и в двата случая, както е показано на фиг. 5.4.5 и показано на фиг. 5.5.2 (вижте сами!).


Ориз. 5.5.2. Резултатите от анализа (подробно тълкуване на таблицата с резултати - в параграфа за критерия на Стюдента)

Важно е да се подчертае, че въпреки че критерият F от математическа гледна точка в разглеждания анализ според критериите на Стюдънт и Фишер е същият като при ANOVA (и изразява съотношението на дисперсията), неговото значение в резултатите от анализът, представен от финалната таблица, е напълно различен. При сравняване чрез тестовете на Student и Fisher, сравнението на средните стойности на пробите се извършва по критерия на Student, а сравнението на тяхната променливост се извършва по критерия на Fisher. В резултатите от анализа не се показва самата дисперсия, а нейната Корен квадратен- стандартно отклонение.

При анализа на дисперсията, за разлика от това, тестът на Фишър се използва за сравняване на средните стойности на различни извадки (както обсъдихме, това се прави чрез разделяне на сумата от квадрати на части и сравняване на средната сума от квадрати, съответстващи на интер- и интра- групова променливост).

Въпреки това, горната разлика се отнася по-скоро до представянето на резултатите от статистическото изследване, отколкото до неговата същност. Както се посочва например от Glantz (1999, p. 99), сравнението на групи чрез теста на Student може да се разглежда като специален случай на дисперсионен анализ за две извадки.

И така, сравнението на проби според тестовете на Стюдънт и Фишър има едно важно предимство пред анализа на дисперсията: то може да сравнява проби по отношение на тяхната променливост. Но предимствата на ANOVA все още са значителни. Сред тях например е възможността за едновременно сравнение на няколко проби.

В практиката на лекарите при провеждане на биомедицински, социологически и експериментални изследвания става необходимо да се установи влиянието на факторите върху резултатите от изследването на здравословното състояние на населението, при оценка на професионалната дейност и ефективността на иновациите.

Има редица статистически методи, които ви позволяват да определите силата, посоката, моделите на влияние на факторите върху резултата в общия или извадкови популации(изчисляване на критерий I, корелационен анализ, регресия, Χ 2 - (критерий за съгласие на Пиърсън и др.) Дисперсионният анализ е разработен и предложен от английския учен, математик и генетик Роналд Фишър през 20-те години на XX век.

Анализът на дисперсията се използва по-често в научни и практически изследвания на общественото здраве и здравеопазването, за да се изследва влиянието на един или повече фактори върху резултантната характеристика. Той се основава на принципа на "отразяване на разнообразието от стойности на фактора(ите) върху разнообразието от стойности на резултантния атрибут" и установява силата на влиянието на фактора(ите) в пробните популации .

Същността на метода за дисперсионен анализ е да се измерват индивидуалните дисперсии (обща, факторна, остатъчна) и допълнително да се определи силата (дяла) на влиянието на изследваните фактори (оценка на ролята на всеки от факторите или тяхното съвместно влияние) върху резултантния атрибут(и).

Дисперсионен анализ- това е статистически метод за оценка на връзката между фактора и характеристиките на ефективността в различни групи, избрани на случаен принцип, въз основа на определянето на разликите (разнообразието) в стойностите на характеристиките. Дисперсионният анализ се основава на анализа на отклоненията на всички единици от изследваната съвкупност от средноаритметичната стойност. Като мярка за отклонения се приема дисперсия (B) - средният квадрат на отклоненията. Отклоненията, причинени от влиянието на факторен атрибут (фактор), се сравняват с големината на отклоненията, причинени от случайни обстоятелства. Ако отклоненията, причинени от атрибута на фактора, са по-значими от случайните отклонения, тогава се счита, че факторът оказва значително влияние върху резултантния атрибут.

За да се изчисли дисперсията на стойностите на отклонението на всяка опция (всяка регистрирана числова стойностзнак) от средното аритметично се повдига на квадрат. Това ще се отърве от негативните знаци. След това тези отклонения (разлики) се сумират и разделят на броя на наблюденията, т.е. средни отклонения. Така се получават стойностите на дисперсията.

Важна методологична стойност за прилагането на дисперсионния анализ е правилното формиране на извадката. В зависимост от целта и задачите могат произволно да се формират селективни групи, независимо една от друга (контролни и експериментални групи за изследване на някакъв показател, например влиянието на високото кръвно налягане върху развитието на инсулт). Такива проби се наричат ​​независими.

Често резултатите от експозицията на фактори се изследват в една и съща група проби (например при едни и същи пациенти) преди и след експозиция (лечение, профилактика, рехабилитационни мерки), такива проби се наричат ​​зависими.

Дисперсионният анализ, при който се проверява влиянието на един фактор, се нарича еднофакторен анализ (едномерен анализ). При изследване на влиянието на повече от един фактор се използва многовариантен дисперсионен анализ (мултивариантен анализ).

Факторните признаци са тези признаци, които влияят върху изследваното явление.
Ефективните знаци са тези знаци, които се променят под влияние на факторни знаци.

За извършване на дисперсионен анализ могат да се използват както качествени (пол, професия), така и количествени характеристики (брой инжекции, пациенти в отделението, брой дни на легло).

Методи за дисперсионен анализ:

  1. Метод по Фишер (Fisher) - критерий F (стойности на F, вижте Приложение № 1);
    Методът се използва при еднопосочен дисперсионен анализ, когато общата дисперсия на всички наблюдавани стойности се разлага на дисперсията в отделните групи и дисперсията между групите.
  2. Метод на "общия линеен модел".
    Базира се на корелационен или регресионен анализ, използван в многовариантния анализ.

Обикновено в биомедицинските изследвания се използват само еднофакторни, максимално двуфакторни дисперсионни комплекси. Многофакторните комплекси могат да бъдат изследвани чрез последователно анализиране на едно- или двуфакторни комплекси, изолирани от цялата наблюдавана популация.

Условия за използване на дисперсионен анализ:

  1. Задачата на изследването е да се определи силата на влиянието на един (до 3) фактора върху резултата или да се определи силата на комбинираното влияние на различни фактори (пол и възраст, физическа активност и хранене и др.).
  2. Изследваните фактори трябва да са независими (несвързани) един с друг. Например не може да се изследва комбинираният ефект от трудов стаж и възраст, ръст и тегло на децата и т.н. върху заболеваемостта на населението.
  3. Изборът на групи за изследването се извършва на случаен принцип (случаен подбор). Организацията на дисперсионен комплекс с прилагането на принципа на случаен избор на опции се нарича рандомизация (в превод от английски - случаен), т.е. избрани на случаен принцип.
  4. Могат да се използват както количествени, така и качествени (атрибутивни) характеристики.

При извършване на еднопосочен дисперсионен анализ се препоръчва (необходимо условие за прилагане):

  1. Нормалността на разпределението на анализираните групи или съответствието на извадковите групи с генерални съвкупности с нормално разпределение.
  2. Независимост (несвързаност) на разпределението на наблюденията по групи.
  3. Наличие на честота (повтаряемост) на наблюденията.

Нормалността на разпределението се определя от кривата на Гаус (De Mavour), която може да бъде описана от функцията y \u003d f (x), тъй като това е един от законите за разпределение, използвани за приблизително описание на явления, които са случайни, вероятностен характер. Обектът на биомедицинските изследвания е явлението от вероятностен характер, нормалното разпределение в такива изследвания е много често.

Принципът на приложение на метода на дисперсионния анализ

Първо се формулира нулева хипотеза, т.е. предполага се, че изследваните фактори нямат никакъв ефект върху стойностите на получения атрибут и получените разлики са случайни.

След това определяме каква е вероятността за получаване на наблюдаваните (или по-силни) разлики, при условие че нулевата хипотеза е вярна.

Ако тази вероятност е малка*, тогава отхвърляме нулевата хипотеза и заключаваме, че резултатите от изследването са статистически значими. Това все още не означава, че ефектът от изследваните фактори е доказан (това е преди всичко въпрос на планиране на изследването), но все още е малко вероятно резултатът да се дължи на случайност.
__________________________________
* Максималната приемлива вероятност за отхвърляне на истинска нулева хипотеза се нарича ниво на значимост и се обозначава с α = 0,05.

Когато всички условия за прилагане на дисперсионния анализ са изпълнени, декомпозицията на общата дисперсия математически изглежда така:

Д ген. = D факт + D почивка. ,

Д ген. - общата дисперсия на наблюдаваните стойности (вариант), характеризираща се с разпространението на варианта от общата средна стойност. Измерва вариацията на даден признак в цялата популация под влиянието на всички фактори, които са причинили тази вариация. Цялостното многообразие се състои от междугрупово и вътрешногрупово;

D факт - факторна (междугрупова) дисперсия, характеризираща се с разликата в средните стойности във всяка група и зависи от влиянието на изследвания фактор, по който се диференцира всяка група. Например, в групи от различни етиологични фактори на клиничния ход на пневмония, средното ниво на прекарания ден на леглото не е еднакво - наблюдава се междугрупово разнообразие.

D почивка. - остатъчна (вътрешногрупова) дисперсия, която характеризира дисперсията на варианта в рамките на групите. Отразява произволна вариация, т.е. част от вариацията, която възниква под влияние на неуточнени фактори и не зависи от признака - факторът, лежащ в основата на групирането. Вариантността на изследваната черта зависи от силата на влиянието на някои неотчетени случайни фактори, както на организирани (посочени от изследователя), така и на случайни (неизвестни) фактори.

Следователно общата вариация (дисперсия) се състои от вариацията, причинена от организирани (дадени) фактори, наречена факторна вариация и неорганизирани фактори, т.е. остатъчна вариация (случайна, неизвестна).

Класическият дисперсионен анализ се извършва в следните стъпки:

  1. Изграждане на дисперсионен комплекс.
  2. Изчисляване на средни квадрати на отклонения.
  3. Изчисляване на дисперсията.
  4. Сравнение на факторни и остатъчни дисперсии.
  5. Оценка на резултатите с помощта на теоретичните стойности на разпределението на Фишер-Снедекор (Приложение N 1).

АЛГОРИТЪМ ЗА ИЗВЪРШВАНЕ НА АНОВАНСКИ АНАЛИЗ СЪГЛАСНО ОПРОСТЕН ВАРИАНТ

Алгоритъмът за провеждане на дисперсионен анализ с помощта на опростен метод ви позволява да получите същите резултати, но изчисленията са много по-прости:

I етап. Изграждане на дисперсионен комплекс

Изграждането на дисперсионен комплекс означава изграждане на таблица, в която факторите, ефективният признак и подборът на наблюдения (пациенти) във всяка група ще бъдат ясно разграничени.

Еднофакторният комплекс се състои от няколко степени на един фактор (А). Градациите са извадки от различни общи популации (A1, A2, AZ).

Двуфакторен комплекс - състои се от няколко градации на два фактора в комбинация един с друг. Етиологичните фактори в заболеваемостта от пневмония са еднакви (A1, A2, AZ) в комбинация с различни форми на клинично протичане на пневмония (H1 - остра, H2 - хронична).

Знак за резултат (среден брой легла дни) Етиологични фактори в развитието на пневмония
A1 A2 A3
H1 H2 H1 H2 H1 H2
M = 14 дни

II етап. Изчисляване на общата средна стойност (М общ)

Изчисляване на сумата от опциите за всяка градация на факторите: Σ Vj = V 1 + V 2 + V 3

Изчисляване на общата сума на варианта (Σ V общо) за всички градации на атрибута на фактора: Σ V общо = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

Изчисляване на средната група (М гр.) Знак на фактора: М гр. = Σ Vj / N,
където N е сумата от броя наблюдения за всички градации на характеристиката на фактор I (Σn по групи).

III етап. Изчисляване на отклоненията:

При спазване на всички условия за прилагане на дисперсионния анализ, математическата формула е следната:

Д ген. = D факт + D почивка.

Д ген. - обща дисперсия, характеризираща се с разпространението на варианта (наблюдаваните стойности) от общата средна;
D факт. - факторна (междугрупова) дисперсия характеризира разпространението на груповите средни от общата средна;
D почивка. - остатъчна (вътрешногрупова) дисперсия характеризира дисперсията на варианта в рамките на групите.

  1. Изчисляване на факторна дисперсия (D факт.): D факт. = Σh - H
  2. Изчисляването на h се извършва по формулата: h = (Σ Vj) / N
  3. Изчисляването на H се извършва по формулата: H = (Σ V) 2 / N
  4. Изчисляване на остатъчната дисперсия: D почивка. = (Σ V) 2 - Σ h
  5. Изчисляване на общата дисперсия:Д ген. = (Σ V) 2 - Σ H

IV етап. Изчисляване на основния показател за силата на влияние на изследвания факторПоказателят за силата на влияние (η 2) на факторен атрибут върху резултата се определя от дела на факторната вариация (D факт.) В общата вариация (D общ), η 2 (това) - показва каква част от влиянието на изследвания фактор заема сред всички останали фактори и се определя по формулата:

V етап. Определянето на надеждността на резултатите от изследването по метода на Фишер се извършва по формулата:


F - критерий на Фишер;
Fst. - таблична стойност (виж Приложение 1).
σ 2 факт, σ 2 почивка. - факторни и остатъчни отклонения (от лат. de - от, via - път) - отклонение от средната линия, определено по формулите:


r е броят градации на факторния атрибут.

Сравнението на критерия на Фишер (F) със стандартния (табличен) F се извършва според колоните на таблицата, като се вземат предвид степените на свобода:

v 1 \u003d n - 1
v 2 \u003d N - 1

Хоризонтално v 1 се определя вертикално - v 2 , в тяхното пресичане се определя таблична стойност F, където горната таблична стойност p ≥ 0,05, а долната съответства на p > 0,01 и се сравнява с изчисления критерий F. Ако стойността на изчисления критерий F е равна или по-голяма от табличната, тогава резултатите са надеждни и H 0 не се отхвърля.

Задачата:

В предприятието на Н. нивото на нараняванията се увеличи, във връзка с което лекарят проведе изследване на индивидуалните фактори, сред които беше проучен трудовият опит на работниците в магазините. В предприятието Н. са взети проби от 4 цеха с подобни условия и характер на работа. Процентът на нараняванията се изчислява на 100 служители през последната година.

При изследването на фактора трудов стаж бяха получени следните данни:

Въз основа на данните от проучването беше изложена нулева хипотеза (H 0) за ефекта от трудовия опит върху нивото на нараняванията на служителите на предприятие А.

Упражнение
Потвърдете или опровергайте нулевата хипотеза, като използвате еднопосочен дисперсионен анализ:

  1. определят силата на влияние;
  2. оценете надеждността на влиянието на фактора.

Етапи на прилагане на дисперсионен анализ
да се определи влиянието на фактор (трудов опит) върху резултата (процент на наранявания)

Заключение.В извадковия комплекс беше разкрито, че влиянието на трудовия опит върху нивото на нараняванията е 80% от общия брой други фактори. За всички цехове на завода може да се каже с вероятност от 99,7% (13,3> 8,7), че трудовият стаж влияе върху нивото на нараняванията.

По този начин нулевата хипотеза (Н 0) не се отхвърля и ефектът от трудовия опит върху нивото на нараняванията в цеховете на завод А се счита за доказан.

F стойност (тест на Fisher) стандарт при p ≥ 0,05 (горна стойност) при p ≥ 0,01 (долна стойност)

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. Власов В.В. Епидемиология. - М.: ГЕОТАР-МЕД, 2004. 464 с.
  2. Архипова Г.Л., Лаврова И.Г., Трошина И.М. някои съвременни методистатистически анализ в медицината. - М.: Метроснаб, 1971. - 75 с.
  3. Зайцев В.М., Лифляндски В.Г., Маринкин В.И. Приложна медицинска статистика. - Санкт Петербург: ООО "Издателска къща ФОЛИАНТ", 2003. - 432 с.
  4. Платонов A.E. Статистически анализ в медицината и биологията: задачи, терминология, логика, компютърни методи. - М.: Издателство на Руската академия на медицинските науки, 2000. - 52 с.
  5. Плохински Н.А. Биометрия. - Издателство на Сибирския клон на Академията на науките на СССР Новосибирск. - 1961. - 364 с.

Използването на статистика в тази бележка ще бъде показано с междусекторен пример. Да приемем, че сте производствен мениджър в Perfect Parachute. Парашутите са направени от синтетични влакна, доставени от четири различни доставчика. Една от основните характеристики на парашута е неговата здравина. Трябва да се уверите, че всички доставени влакна имат еднаква здравина. За да се отговори на този въпрос, е необходимо да се направи експеримент, в който да се измерва здравината на парашути, изтъкани от синтетични влакна от различни доставчици. Информацията, получена по време на този експеримент, ще определи кой доставчик предоставя най-издръжливите парашути.

Много приложения са свързани с експерименти, в които се разглеждат няколко групи или нива на един фактор. Някои фактори, като например температурата на изпичане на керамика, може да имат множество числени нива (т.е. 300°, 350°, 400° и 450°). Други фактори, като местоположението на стоките в супермаркет, могат да имат категорични нива (напр. първи доставчик, втори доставчик, трети доставчик, четвърти доставчик). Еднофакторни експерименти, при които експерименталните единици са разпределени на случаен принцип към групи или факторни нива, се наричат ​​напълно рандомизирани.

ИзползванеЕ-критерии за оценка на разликите между няколко математически очаквания

Ако числените измервания на фактор в групи са непрекъснати и са изпълнени някои допълнителни условия, анализът на дисперсията (ANOVA - Ананализ о f Vaрианс). Анализът на дисперсията с помощта на напълно рандомизирани дизайни се нарича еднопосочен ANOVA. В известен смисъл терминът дисперсионен анализ е подвеждащ, защото сравнява разликите между средните стойности на групите, а не между дисперсиите. Сравнението на математическите очаквания обаче се извършва именно на базата на анализа на вариациите на данните. В процедурата ANOVA общата вариация на резултатите от измерването се разделя на междугрупови и вътрешногрупови (фиг. 1). Вътрешногруповата вариация се обяснява с експериментална грешка, докато междугруповата вариация се обяснява с ефектите на експерименталните условия. Символ собозначава броя на групите.

Ориз. 1. Разделяне на вариации в напълно рандомизиран експеримент

Изтеглете бележка в или формат, примери във формат

Нека се преструваме, че сгрупите се извличат от независими популации, които имат нормално разпределение и еднаква вариация. Нулевата хипотеза е, че математическите очаквания на популациите са еднакви: H 0: μ 1 = μ 2 = ... = μ s. Алтернативната хипотеза гласи, че не всички математически очаквания са еднакви: H 1: не всички μ j са еднакви й= 1, 2, …, s).

На фиг. Фигура 2 представя истинската нулева хипотеза за математическите очаквания на петте сравнени групи, при условие че генералните съвкупности имат нормално разпределение и една и съща вариация. Пет популации, свързани с различни нивафакторите са идентични. Следователно те се наслагват един върху друг, като имат едно и също математическо очакване, вариация и форма.

Ориз. 2. Пет популации имат едно и също математическо очакване: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

От друга страна, да предположим, че всъщност нулевата хипотеза е невярна и четвъртото ниво има най-голямото математическо очакване, първото ниво има малко по-ниско математическо очакване, а останалите нива имат същите и дори по-малки математически очаквания (фиг. 3). Имайте предвид, че с изключение на средната стойност, всичките пет популации са идентични (т.е. имат една и съща променливост и форма).

Ориз. 3. Ефектът от експерименталните условия се наблюдава: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

Когато се тества хипотезата за равенство на математическите очаквания на няколко генерални съвкупности, общата вариация се разделя на две части: междугрупова вариация, дължаща се на разликите между групите, и вътрешногрупова вариация, дължаща се на разликите между елементи, принадлежащи към една и съща група. Общата вариация се изразява като общата сума на квадратите (SST - sum of squares total). Тъй като нулевата хипотеза е, че очакванията на всички сгрупите са равни една на друга, общата вариация е равна на сумата от квадратите на разликите между отделните наблюдения и общата средна стойност (средна средна стойност), изчислена за всички проби. Пълна вариация:

където - обща средна стойност, Xij - аз-e наблюдавам й-та група или ниво, n j- брой наблюдения в й-та група, н- общ брой наблюдения във всички групи (т.е. н = н 1 + n 2 + … + nc), с- брой изучавани групи или нива.

Междугрупова вариация, обикновено наричана сума от квадрати сред групите (SSA), е равна на сумата от квадратите на разликите между средната стойност на извадката от всяка група йи общо средно умножен по обема на съответната група n j:

където с- броя на изследваните групи или нива, n j- брой наблюдения в й-та група, й- означава й-та група, - обща авария.

Вътрешногрупова вариация, обикновено наричана сума от квадрати в групи (SSW), е равна на сумата от квадратите на разликите между елементите на всяка група и средната стойност на извадката от тази група й:

където хij - аз-ти елемент й-та група, й- означава й-та група.

Защото се сравняват сфакторни нива, междугруповата сума на квадратите има s - 1степени на свобода. Всеки от снива има n j – 1 степени на свобода, така че вътрешногруповият сбор от квадрати има н- Сстепени на свобода и

В допълнение, общата сума на квадратите има н – 1 степени на свобода, тъй като всяко наблюдение хijв сравнение с общата средна стойност, изчислена за всички ннаблюдения. Ако всяка от тези суми се раздели на съответния брой степени на свобода, ще възникнат три вида дисперсия: интергрупа(среден квадрат сред - MSA), вътрешногрупови(среден квадрат в рамките на - MSW) и пълен(общ среден квадрат - MST):

Въпреки факта, че основната цел на дисперсионния анализ е да се сравнят математическите очаквания сгрупи за разкриване на ефекта от експерименталните условия, името му се дължи на факта, че основният инструмент е анализът на отклоненията различен тип. Ако нулевата хипотеза е вярна и между очакваните стойности сгрупи няма значителни разлики, и трите дисперсии - MSA, MSW и MST - са оценки на дисперсията σ2присъщи на анализираните данни. За да тестваме нулевата хипотеза H 0: μ 1 = μ 2 = ... = μ sи алтернативна хипотеза H 1: не всички μ j са еднакви й = 1, 2, …, с), е необходимо да се изчисли статистиката Е-критерий, който е отношението на две дисперсии, MSA и MSW. тест Е-статистика при едномерен дисперсионен анализ

Статистика Е-критериите се подчиняват Е- разпределение със s - 1степени на свобода в числителя MSAи n - сстепени на свобода в знаменателя ТБО. За дадено ниво на значимост α, нулевата хипотеза се отхвърля, ако изчисленото Е ЕUприсъщи Е- разпределение със s - 1 n - сстепени на свобода в знаменателя. Така, както е показано на фиг. 4 решаващото правило е формулирано по следния начин: нулева хипотеза H 0отхвърлен ако F > FU; в противен случай не се отхвърля.

Ориз. 4. Критична област на дисперсионен анализ при тестване на хипотеза H 0

Ако нулевата хипотеза H 0е вярно, изчислено Е-статистиката е близка до 1, тъй като нейният числител и знаменател са оценки на една и съща стойност - дисперсията σ 2, присъща на анализираните данни. Ако нулевата хипотеза H 0е невярно (и има значителна разлика между очакваните стойности на различните групи), изчислено Е-статистиката ще бъде много по-голяма от единица, тъй като нейният числител, MSA, в допълнение към естествената променливост на данните, оценява ефекта от експерименталните условия или разликата между групите, докато знаменателят MSW оценява само естествената променливост на данните. По този начин процедурата ANOVA е Ее тест, при който при дадено ниво на значимост α нулевата хипотеза се отхвърля, ако изчисленото Е- статистическите данни са по-големи от горната критична стойност ЕUприсъщи Е- разпределение със s - 1степени на свобода в числителя и n - сстепени на свобода в знаменателя, както е показано на фиг. четири.

За да илюстрираме еднопосочния анализ на дисперсията, нека се върнем към сценария, очертан в началото на бележката. Целта на експеримента е да се установи дали парашутите, изтъкани от синтетични влакна, получени от различни доставчици, имат еднаква здравина. Всяка група има пет изплетени парашута. Групите са разделени по доставчик - Доставчик 1, Доставчик 2, Доставчик 3 и Доставчик 4. Измерването на здравината на парашутите се извършва със специален уред, който тества тъканта за разкъсване от двете страни. Силата, необходима за счупване на парашут, се измерва на специална скала. Колкото по-висока е силата на скъсване, толкова по-здрав е парашутът. Excel позволява анализ Е-Статистика с едно кликване. Преминете през менюто ДанниАнализ на даннии изберете линията Еднопосочен дисперсионен анализ, попълнете отворения прозорец (фиг. 5). Резултатите от експеримента (сила на празнината), някои описателни статистики и резултатите от еднопосочен анализ на дисперсията са показани на фиг. 6.

Ориз. 5. Прозорец Пакет за еднопосочен ANOVA анализпревъзходен

Ориз. Фиг. 6. Индикатори за якост на парашути, изтъкани от синтетични влакна, получени от различни доставчици, описателна статистика и резултати от еднопосочен анализ на дисперсията

Анализът на фигура 6 показва, че има известна разлика между средните стойности на извадката. Средната якост на влакната, получени от първия доставчик е 19,52, от втория - 24,26, от третия - 22,84 и от четвъртия - 21,16. Статистически значима ли е тази разлика? Разпределението на силата на разкъсване е показано на точковата диаграма (фиг. 7). Ясно показва различията както между групите, така и вътре в тях. Ако обемът на всяка група беше по-голям, те биха могли да бъдат анализирани с помощта на диаграма на стъбла и листа, графика на кутия или графика на нормално разпределение.

Ориз. 7. Диаграма на разпределение на якостта на парашути, изтъкани от синтетични влакна, получени от четири доставчика

Нулевата хипотеза гласи, че няма значителни разлики между средните стойности на якост: H 0: μ 1 = μ 2 = μ 3 = μ 4. Алтернативна хипотеза е, че има поне един доставчик, чиято средна здравина на влакната се различава от другите: H 1: не всички μ j са еднакви ( й = 1, 2, …, с).

Обща средна стойност (вижте фигура 6) = AVERAGE(D12:D15) = 21,945; за да определите, можете също да усредните всички 20 оригинални числа: \u003d СРЕДНО (A3: D7). Изчисляват се стойностите на дисперсията Пакет за анализи са отразени в таблицата Дисперсионен анализ(вижте фиг. 6): SSA = 63.286, SSW = 97.504, SST = 160.790 (вижте колоната ССмаси Дисперсионен анализфигура 6). Средните стойности се изчисляват чрез разделяне на тези суми от квадрати на подходящия брой степени на свобода. Тъй като с= 4 и н= 20, получаваме следните стойности на степените на свобода; за SSA: s - 1= 3; за SSW: n–c= 16; за SST: n - 1= 19 (вижте колоната df). Така: MSA = SSA / ( в - 1)= 21.095; MSW=SSW/( n–c) = 6,094; MST = SST / ( n - 1) = 8,463 (вижте колоната ГОСПОЖИЦА). Е-статистика = MSA / MSW = 3,462 (вижте колоната Е).

Горна критична стойност ЕU, характерни за Е-разпределение, се определя по формулата = F. OBR (0,95; 3; 16) = 3,239. Параметри на функцията =F.OBR(): α = 0,05, числителят има три степени на свобода, а знаменателят е 16. Така изчислената Е-статистиката, равна на 3,462, надвишава горната критична стойност ЕU= 3.239, нулевата хипотеза се отхвърля (фиг. 8).

Ориз. 8. Критична област на дисперсионен анализ при ниво на значимост 0,05, ако числителят има три степени на свобода, а знаменателят е -16

Р-стойност, т.е. вероятността, че при истинска нулева хипотеза Е- статистика не по-малка от 3,46, равна на 0,041 или 4,1% (вижте колоната p-стойностмаси Дисперсионен анализфигура 6). Тъй като тази стойност не надвишава нивото на значимост α = 5%, нулевата хипотеза се отхвърля. Освен това, Р-стойност показва, че вероятността да се намери такава или голяма разлика между математическите очаквания на генералните съвкупности, при условие че те действително са еднакви, е 4,1%.

Така. Има разлика между четирите примерни средни стойности. Нулевата хипотеза беше, че всички математически очаквания на четирите популации са равни. При тези условия се изчислява мярка за общата променливост (т.е. общата вариация на SST) на силата на всички парашути чрез сумиране на квадратите на разликите между всяко наблюдение Xijи общо средно . След това общата вариация беше разделена на два компонента (виж Фиг. 1). Първият компонент беше междугруповата вариация в SSA, а вторият компонент беше вътрешногруповата вариация в SSW.

Какво обяснява променливостта в данните? С други думи, защо не всички наблюдения са еднакви? Една от причините е, че различните фирми доставят влакна с различна здравина. Това отчасти обяснява защо групите имат различни очаквани стойности: колкото по-силен е ефектът от експерименталните условия, толкова по-голяма е разликата между средните стойности на групите. Друга причина за променливостта на данните е естествената променливост на всеки процес, в случая производството на парашути. Дори и всички влакна да са закупени от един и същи доставчик, здравината им няма да е еднаква при равни други условия. Тъй като този ефект се появява във всяка от групите, той се нарича вариация в рамките на групата.

Разликите между средните стойности на извадката се наричат ​​междугрупова вариация на SSA. Част от вътрешногруповата вариация, както вече беше споменато, се обяснява с факта, че данните принадлежат към различни групи. Въпреки това, дори ако групите бяха напълно еднакви (т.е. нулевата хипотеза щеше да е вярна), пак щеше да има междугрупови вариации. Причината за това се крие в естествената променливост на процеса на производство на парашута. Тъй като пробите са различни, техните средни стойности на извадката се различават една от друга. Следователно, ако нулевата хипотеза е вярна, както междугруповата, така и вътрешногруповата променливост са оценки на променливостта на популацията. Ако нулевата хипотеза е невярна, хипотезата между групите ще бъде по-голяма. Именно този факт е в основата Е-критерии за съпоставяне на разликите между математическите очаквания на няколко групи.

След извършване на еднопосочна ANOVA и установяване на значителна разлика между фирмите, остава неизвестно кой от доставчиците е значително различен от останалите. Знаем само, че математическите очаквания на населението не са еднакви. С други думи, поне едно от математическите очаквания се различава значително от останалите. За да определите кой доставчик е различен от другите, можете да използвате Процедура Тъки, който използва сравнение по двойки между доставчици. Тази процедура е разработена от John Tukey. Впоследствие той и C. Cramer независимо модифицират тази процедура за ситуации, в които размерите на пробите се различават един от друг.

Множествено сравнение: процедура Тъки-Крамер

В нашия сценарий беше използван еднопосочен анализ на дисперсията за сравняване на силата на парашутите. След като са открити значителни разлики между математическите очаквания на четирите групи, е необходимо да се определи кои групи се различават една от друга. Въпреки че има няколко начина за решаване на този проблем, ние ще опишем само процедурата за множествено сравнение на Tukey-Kramer. Този метод е пример за процедури за post hoc сравнение, тъй като хипотезата, която ще се тества, се формулира след анализ на данните. Процедурата Tukey-Kramer ви позволява да сравнявате едновременно всички двойки групи. На първия етап се изчисляват разликите хй - Хй, където j ≠й, между математическите очаквания s(s – 1)/2групи. Критичен диапазонПроцедурата на Tukey-Kramer се изчислява по формулата:

където Q U- горната критична стойност на разпределението на студентизирания диапазон, който има сстепени на свобода в числителя и н - Сстепени на свобода в знаменателя.

Ако размерите на извадката не са еднакви, критичният диапазон се изчислява за всяка двойка математически очаквания поотделно. На последния етап всеки s(s – 1)/2двойки математически очаквания се сравнява със съответния критичен диапазон. Елементите на една двойка се считат за значително различни, ако модулът на разликата | Xj - Хй| между тях надхвърля критичния диапазон.

Нека приложим процедурата на Тъки-Крамер към проблема за здравината на парашутите. Тъй като парашутната компания има четирима доставчика, трябва да бъдат тествани 4(4 – 1)/2 = 6 чифта доставчици (Фигура 9).

Ориз. 9. Сравнения по двойки на извадкови средни стойности

Тъй като всички групи имат еднакъв обем (т.е. всички n j = n j), достатъчно е да се изчисли само един критичен диапазон. За да направите това, според таблицата ANOVA(фиг. 6) определяме стойността на MSW = 6,094. След това намираме стойността Q Uпри α = 0,05, с= 4 (брой степени на свобода в числителя) и н- С= 20 – 4 = 16 (броят на степените на свобода в знаменателя). За съжаление не намерих съответната функция в Excel, затова използвах таблицата (фиг. 10).

Ориз. 10. Критична стойност на студентизирания диапазон Q U

Получаваме:

Тъй като само 4,74 > 4,47 (вижте долната таблица на фигура 9), съществува статистически значима разлика между първия и втория доставчик. Всички останали двойки имат примерни средни, което не ни позволява да говорим за тяхната разлика. Следователно средната якост на парашутите, изтъкани от влакна, закупени от първия доставчик, е значително по-малка от тази на втория.

Необходими условия за еднопосочен дисперсионен анализ

При решаването на проблема за здравината на парашутите не проверихме дали са изпълнени условията, при които може да се използва еднофакторната Е-критерий. Как да разберете дали можете да кандидатствате еднофакторно Е-критерий при анализа на конкретни експериментални данни? Единичен фактор Е-тестът може да се приложи само ако са изпълнени три основни допускания: експерименталните данни трябва да са произволни и независими, да имат нормално разпределение и техните дисперсии трябва да са еднакви.

Първото предположение е произволност и независимост на данните- винаги трябва да се прави, тъй като правилността на всеки експеримент зависи от случайността на избора и / или процеса на рандомизиране. За да се избегне изкривяване на резултатите, е необходимо данните да бъдат извлечени от спопулации на случаен принцип и независимо една от друга. По същия начин данните трябва да бъдат разпределени на случаен принцип снива на интересуващия ни фактор (експериментални групи). Нарушаването на тези условия може сериозно да изкриви резултатите от дисперсионния анализ.

Второто предположение е нормалност- означава, че данните са извлечени от нормално разпределени популации. Що се отнася до T-критерий, еднопосочен дисперсионен анализ въз основа на Е-критерият е относително нечувствителен към нарушаването на това условие. Ако разпределението не е твърде далеч от нормалното, нивото на значимост Е-критерият се променя малко, особено ако размерът на извадката е достатъчно голям. Ако условието за нормалното разпределение е сериозно нарушено, трябва да се приложи.

Третото предположение е равномерност на дисперсията- означава, че дисперсиите на всяка генерална съвкупност са равни една на друга (т.е. σ 1 2 = σ 2 2 = … = σ j 2). Това предположение позволява да се реши дали да се отделят или обединят вариациите в рамките на групата. Ако обемите на групите са еднакви, условието за хомогенност на дисперсията има малък ефект върху заключенията, получени с помощта на Е- критерии. Въпреки това, ако размерите на извадката не са еднакви, нарушаването на условието за равенство на дисперсиите може сериозно да изкриви резултатите от дисперсионния анализ. Следователно трябва да се стремим да гарантираме, че размерите на извадката са еднакви. Един от методите за проверка на предположението за хомогенност на дисперсията е критерият Левенеописани по-долу.

Ако от всичките три условия е нарушено само условието за равномерност на дисперсията, процедура, аналогична на T-критерий, използващ отделна вариация (виж подробности). Въпреки това, ако предположенията за нормално разпределение и хомогенност на дисперсията са нарушени едновременно, е необходимо да се нормализират данните и да се намалят разликите между дисперсиите или да се приложи непараметрична процедура.

Критерий на Левени за проверка на хомогенността на дисперсията

Макар че Е- критерият е относително устойчив на нарушения на условието за равенство на дисперсиите в групите, грубото нарушение на това предположение значително влияе върху нивото на значимост и мощност на критерия. Може би един от най-мощните е критерият Левене. За проверка на равенството на дисперсиите собщи популации, ще тестваме следните хипотези:

H 0: σ 1 2 = σ 2 2 = ... = σй 2

H 1: Не всички σ j 2са същите ( й = 1, 2, …, с)

Модифицираният тест на Leveney се основава на твърдението, че ако променливостта в групите е еднаква, може да се приложи анализ на дисперсията на абсолютните стойности на разликите между наблюденията и груповите медиани, за да се тества нулевата хипотеза за равенство на дисперсиите. Така че, първо трябва да изчислите абсолютните стойности на разликите между наблюденията и медианите във всяка група и след това да извършите еднопосочен дисперсионен анализ на получените абсолютни стойности на разликите. За да илюстрираме критерия Левене, нека се върнем към сценария, описан в началото на бележката. Използвайки данните, представени на фиг. 6, ще направим подобен анализ, но по отношение на модулите на разликите в изходните данни и медианите за всяка извадка поотделно (фиг. 11).

За какво се използва дисперсионният анализ? Целта на дисперсионния анализ е да се изследва наличието или отсъствието на значимо влияние на всеки качествен или количествен фактор върху промените в изследвания ефективен признак. За да направите това, факторът, за който се предполага, че има или няма значително влияние, се разделя на градационни класове (с други думи, групи) и се установява дали влиянието на фактора е същото чрез изследване на значимостта между средните стойности в наборите от данни, съответстващи на градациите на фактора. Примери: изследва се зависимостта на печалбата на предприятието от вида на използваните суровини (тогава градационните класове са видовете суровини), зависимостта на себестойността на продукцията на единица продукция от размера на подразделението на предприятието ( тогава градационните класове са характеристиките на размера на единицата: голям, среден, малък).

Минималният брой градационни паралелки (групи) е два. Класовете за оценяване могат да бъдат качествени или количествени.

Защо анализът на дисперсията се нарича дисперсионен анализ? Анализът на дисперсията изследва съотношението на две дисперсии. Дисперсията, както знаем, е мярка за дисперсията на данните около средната стойност. Първата е дисперсията, обяснена с влиянието на фактора, която характеризира разпространението на стойностите между градациите на фактора (групите) около средната стойност на всички данни. Втората е необяснимата дисперсия, която характеризира дисперсията на данните в градации (групи) около средните стойности на самите групи. Първата дисперсия може да се нарече междугрупова, а втората - вътрешногрупова. Съотношението на тези отклонения се нарича действително съотношение на Фишер и се сравнява с критичната стойност на съотношението на Фишер. Ако действителното съотношение на Фишер е по-голямо от критичното, тогава средните класове на градация се различават един от друг и изследваният фактор значително влияе върху промяната в данните. Ако е по-малко, тогава средните градационни класове не се различават един от друг и факторът няма значително влияние.

Как се формулират, приемат и отхвърлят хипотезите при дисперсионния анализ? При анализа на дисперсията определете специфично теглокомбинираното въздействие на един или повече фактори. Значимостта на влиянието на фактора се определя чрез тестване на хипотези:

  • з0 : μ 1 = μ 2 = ... = μ а, където а- брой градационни класове - всички градационни класове имат една средна стойност,
  • з1 : Не всички μ азса равни - не всички градационни класове имат еднаква средна стойност.

Ако влиянието на даден фактор не е значимо, тогава разликата между градационните класове на този фактор също е незначителна и в хода на дисперсионния анализ нулевата хипотеза з0 не се отхвърля. Ако влиянието на фактора е значително, тогава нулевата хипотеза з0 отхвърлено: не всички градационни класове имат еднаква средна стойност, т.е. сред възможните разлики между градационните класове една или повече са значими.

Още няколко концепции за дисперсионния анализ. Статистическият комплекс в дисперсионния анализ е таблица с емпирични данни. Ако във всички градационни класове същото числоопции, тогава статистическият комплекс се нарича хомогенен (хомогенен), ако броят на опциите е различен - разнороден (хетерогенен).

В зависимост от броя на оценените фактори се разграничават еднофакторен, двуфакторен и многофакторен дисперсионен анализ.

Еднопосочен дисперсионен анализ: същност на метода, формули, примери

Същността на метода, формули

се основава на факта, че сумата от квадратите на отклоненията на статистическия комплекс може да бъде разделена на компоненти:

СС = ССа + ССд,

СС

ССа асума на квадратите на отклоненията,

ССде необяснената сума от квадратни отклонения или сумата от квадратни отклонения на грешката.

Ако през назпосочете броя на опциите във всеки градационен клас (група) и а - общ бройградации на фактора (групи), след това - общия брой наблюдения и можете да получите следните формули:

общ брой квадратни отклонения: ,

обяснява с влиянието на фактора асума на квадратите на отклоненията: ,

необяснима сума от квадратни отклонения или сума от квадратни грешки отклонения: ,

- обща средна стойност на наблюденията,

(група).

Освен това,

където е градационната дисперсия на фактора (групата).

За да извършите еднопосочен анализ на дисперсията върху данните от статистически комплекс, трябва да намерите действителното съотношение на Фишер - съотношението на дисперсията, обяснена от влиянието на фактора (междугрупова) и необяснимата дисперсия (вътрешногрупова):

и го сравнете с критичната стойност на Фишер.

Разликите се изчисляват, както следва:

обяснена дисперсия,

необяснима вариация,

vа = а − 1 е броят на степените на свобода на обяснената дисперсия,

ve= на е броят на степените на свобода на необяснимата дисперсия,

v = н

Критичната стойност на съотношението на Фишер с определени стойности на нивото на значимост и степените на свобода могат да бъдат намерени в статистически таблици или изчислени с помощта на функцията MS Excel F.OBR (фигурата по-долу, за да я увеличите, щракнете върху нея с ляв бутон на мишката).


Функцията изисква да въведете следните данни:

Вероятност - ниво на значимост α ,

степени_на_свобода1 - броят степени на свобода на обяснената дисперсия vа,

степени_на_свобода2 - брой степени на свобода на необяснима вариация vд.

Ако действителната стойност на коефициента на Фишер е по-голяма от критичната стойност (), тогава нулевата хипотеза се отхвърля с ниво на значимост α . Това означава, че факторът значително влияе върху промяната в данните и данните са зависими от фактора с вероятност П = 1 − α .

Ако действителната стойност на коефициента на Фишер е по-малка от критичната (), тогава нулевата хипотеза не може да бъде отхвърлена с ниво на значимост α . Това означава, че факторът не влияе значително на данните с вероятност П = 1 − α .

Еднопосочна ANOVA: Примери

Пример 1Необходимо е да се установи дали видът на използваните суровини влияе върху печалбата на предприятието. В шест градационни класа (групи) на фактора (тип 1, тип 2 и т.н.) бяха събрани данни за печалбата от производството на 1000 единици продукти в милиони рубли за 4 години.

Вид на суровината2014 2015 2016 2017
1-во7,21 7,55 7,29 7,6
2-ро7,89 8,27 7,39 8,18
3-то7,25 7,01 7,37 7,53
4-ти7,75 7,41 7,27 7,42
5-ти7,7 8,28 8,55 8,6
6-ти7,56 8,05 8,07 7,84
Средно аритметично
дисперсия
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

а= 6 и във всеки клас (група) нi = 4наблюдения. Общ брой наблюдения н = 24 .

Брой степени на свобода:

vа = а − 1 = 6 − 1 = 5 ,

ve= на = 24 − 6 = 18 ,

v = н − 1 = 24 − 1 = 23 .

Нека изчислим дисперсиите:

.

.

Тъй като действителното съотношение на Фишер е по-голямо от критичното:

с ниво на значимост α = 0,05 заключаваме, че печалбата на предприятието, в зависимост от вида на суровините, използвани в производството, се различава значително.

Или, което е същото, отхвърляме основната хипотеза за равенството на средните във всички класове факторна градация (групи).

В току-що разгледания пример всеки клас на факторна градация имаше еднакъв брой опции. Но, както беше споменато в уводната част, броят на опциите може да бъде различен. И това по никакъв начин не усложнява процедурата за дисперсионен анализ. Това е следващият пример.

Пример 2Необходимо е да се установи дали има зависимост на себестойността на единица продукция от размера на предприятието. Факторът (стойността на подразделение) е разделен на три градационни класа (групи): малък, среден, голям. Обобщават се данните, съответстващи на тези групи за себестойността на продукцията на единица от същия вид продукт за определен период.

малъксредно аритметичноголям
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Средно аритметично58,6 54,0 51,0
дисперсия128,25 65,00 107,60

Брой класове (групи) на факторна градация а= 3 , брой наблюдения в класове (групи) н1 = 4 , н2 = 7 , н3 = 6 . Общ брой наблюдения н = 17 .

Брой степени на свобода:

vа = а − 1 = 2 ,

ve= на = 17 − 3 = 14 ,

v = н − 1 = 16 .

Нека изчислим сумите на квадратите на отклоненията:

Нека изчислим дисперсиите:

,

.

Нека изчислим действителното съотношение на Фишер:

.

Критичната стойност на коефициента на Фишер:

Тъй като действителната стойност на коефициента на Фишер е по-малка от критичната: , ние заключаваме, че размерът на единицата на предприятието не оказва значително влияние върху себестойността на продукцията.

Или, което е същото, с вероятност от 95% приемаме основната хипотеза, че средните разходи за производство на единица от същия продукт в малки, средни и големи подразделения на предприятието не се различават значително.

Еднопосочна ANOVA в MS Excel

Еднопосочен анализ на дисперсията може да се извърши с помощта на процедурата MS Excel Еднопосочен дисперсионен анализ. Използваме го, за да анализираме данни за връзката между вида на използваните суровини и печалбата на предприятието от пример 1.

Анализ на услуги/даннии изберете инструмент за анализ Еднопосочен дисперсионен анализ.

в прозореца интервал на въвежданепосочете областта за данни (в нашия случай това е $A$2:$E$7). Посочваме как е групиран факторът - по колони или по редове (в нашия случай по редове). Ако първата колона съдържа имената на факторните класове, поставете отметка в квадратчето Етикети в първата колона. В прозореца Алфапосочете нивото на значимост α = 0,05 .

Втората таблица - Анализ на дисперсията - съдържа данни за стойностите на фактора между групите и в рамките на групите и суми. Това са сумата от квадратните отклонения (SS), броят на степените на свобода (df) и дисперсията (MS). В последните три колони - действителната стойност на коефициента на Фишер (F), p-ниво (P-value) и критичната стойност на коефициента на Фишер (F crit).

ГОСПОЖИЦА Е p-стойност Fcrit
0,58585 6,891119 0,000936 2,77285
0,085017

Тъй като действителната стойност на коефициента на Фишер (6,89) е по-голяма от критичната стойност (2,77), с вероятност от 95% отхвърляме нулевата хипотеза за равенството на средната производителност при използване на всички видове суровини, т.е. заключават, че видът на използваните суровини влияе върху печалбата на предприятията.

Двупосочен дисперсионен анализ без повторения: същност на метода, формули, пример

Двупосочният анализ на дисперсията се използва за проверка на възможната зависимост на ефективната характеристика от два фактора - Аи б. Тогава а- брой градации на фактора Аи b- брой градации на фактора б. В статистическия комплекс сумата от квадратите на остатъците се разделя на три компонента:

СС = ССа + ССб + ССд,

е общата сума на квадратите на отклоненията,

- обяснява се с влиянието на фактора Асума на квадратите на отклоненията,

- обяснява се с влиянието на фактора бсума на квадратите на отклоненията,

- обща средна стойност на наблюденията,

Средна стойност на наблюденията във всяка градация на фактора А ,

б .

А ,

Дисперсия, обяснена с влиянието на фактора б ,

vа = а − 1 А ,

vb= b − 1 - броят на степените на свобода на дисперсията, обяснени с влиянието на фактора б ,

ve = ( а − 1)(b − 1)

v = аб− 1 - общ брой степени на свобода.

Ако факторите са независими един от друг, тогава се излагат две нулеви хипотези и съответните алтернативни хипотези, за да се определи значимостта на факторите:

за фактора А :

з0 : μ 1A= μ 2A = ... = μ aA,

з1 : Не всички μ iAса равни;

за фактора б :

з0 : μ 1B= μ 2B=...= μ aB,

з1 : Не всички μ iBса равни.

А

Да се ​​определи влиянието на даден фактор б, трябва да сравним действителното съотношение на Фишер с критичното съотношение на Фишер.

α П = 1 − α .

α П = 1 − α .

Двупосочен дисперсионен анализ без повторения: пример

Пример 3Дава се информация за средния разход на гориво на 100 километра в литри, в зависимост от обема на двигателя и вида на горивото.

Необходимо е да се провери дали разходът на гориво зависи от обема на двигателя и вида на горивото.

Решение. За фактора Аброй градационни класове а= 3 , за фактора бброй градационни класове b = 3 .

Изчисляваме сумите на квадратите на отклоненията:

,

,

,

.

Съответни отклонения:

,

,

.

А . Тъй като действителното съотношение на Фишер е по-малко от критичното, с вероятност от 95% приемаме хипотезата, че размерът на двигателя не влияе на разхода на гориво. Ако обаче изберем нивото на значимост α = 0,1, тогава действителната стойност на коефициента на Фишер и след това с вероятност от 95% можем да приемем, че размерът на двигателя влияе върху разхода на гориво.

Действително съотношение на Фишер за фактор б , критичната стойност на коефициента на Фишер: . Тъй като действителното съотношение на Fisher е по-голямо от критичната стойност на коефициента на Fisher, приемаме с 95% вероятност, че видът гориво влияе върху разхода му.

Двустранен дисперсионен анализ без повторения в MS Excel

Двупосочен дисперсионен анализ без повторения може да се извърши с помощта на процедурата MS Excel. Използваме го, за да анализираме данните за връзката между вида на горивото и неговия разход от пример 3.

В менюто на MS Excel изпълнете командата Анализ на услуги/даннии изберете инструмент за анализ Двустранен дисперсионен анализ без повторения.

Попълваме данните по същия начин, както при еднопосочен ANOVA.


В резултат на процедурата се показват две таблици. Първата таблица е Totals. Той съдържа данни за всички класове факторна градация: брой наблюдения, обща стойност, средна стойност и дисперсия.

Втората таблица – Анализ на дисперсията – съдържа данни за източниците на вариация: разсейване между редове, разсейване между колони, разсейване на грешки, общо разсейване, сума на квадратите на отклоненията (SS), брой степени на свобода (df), дисперсия (MS) ). В последните три колони - действителната стойност на коефициента на Фишер (F), p-ниво (P-value) и критичната стойност на коефициента на Фишер (F crit).

ГОСПОЖИЦА Е p-стойност Fcrit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

Фактор А(размер на двигателя) е групиран в редове. Тъй като действителното съотношение на Фишер 5,28 е по-малко от критичното 6,94, приемаме с 95% вероятност, че разходът на гориво не зависи от размера на двигателя.

Фактор б(вид гориво) е групирано в колони. Действителното съотношение на Фишер от 13,56 е по-голямо от критичното съотношение от 6,94, следователно, с вероятност от 95%, приемаме, че разходът на гориво зависи от неговия тип.

Двупосочен дисперсионен анализ с повторения: същност на метода, формули, пример

Двупосочният дисперсионен анализ с повторения се използва за проверка не само на възможната зависимост на ефективната характеристика от два фактора - Аи б, но и възможното взаимодействие на факторите Аи б. Тогава а- брой градации на фактора Аи b- брой градации на фактора б, r- брой повторения. В статистическия комплекс сумата от квадратите на остатъците се разделя на четири компонента:

СС = ССа + ССб + СС ab + ССд,

е общата сума на квадратите на отклоненията,

- обяснява се с влиянието на фактора Асума на квадратите на отклоненията,

- обяснява се с влиянието на фактора бсума на квадратите на отклоненията,

- обяснява се с влиянието на взаимодействието на факторите Аи бсума на квадратите на отклоненията,

- необяснима сума от квадратни отклонения или сума от квадратни грешки отклонения,

- обща средна стойност на наблюденията,

- средна стойност на наблюденията във всяка градация на фактора А ,

- среден брой наблюдения във всяка градация на фактора б ,

Среден брой наблюдения във всяка комбинация от факторни градации Аи б ,

н = абре общият брой наблюдения.

Дисперсиите се изчисляват, както следва:

Дисперсия, обяснена с влиянието на фактора А ,

Дисперсия, обяснена с влиянието на фактора б ,

- дисперсия, обясняваща се с взаимодействието на факторите Аи б ,

- необяснима вариация или вариация на грешката,

vа = а − 1 - броят на степените на свобода на дисперсията, обяснени с влиянието на фактора А ,

vb= b − 1 - броят на степените на свобода на дисперсията, обяснени с влиянието на фактора б ,

vab = ( а − 1)(b − 1) - броят на степените на свобода на дисперсията, обяснени от взаимодействието на факторите Аи б ,

ve= аб(r − 1) е броят на степените на свобода на необяснимата или грешната дисперсия,

v = абр− 1 - общ брой степени на свобода.

Ако факторите са независими един от друг, тогава се излагат три нулеви хипотези и съответните алтернативни хипотези, за да се определи значимостта на факторите:

за фактора А :

з0 : μ 1A= μ 2A = ... = μ aA,

з1 : Не всички μ iAса равни;

за фактора б :

Да се ​​определи влиянието на взаимодействието на факторите Аи б, трябва да сравним действителното съотношение на Фишер с критичното съотношение на Фишер.

Ако действителното съотношение на Фишер е по-голямо от критичното съотношение на Фишер, тогава нулевата хипотеза трябва да бъде отхвърлена с ниво на значимост α . Това означава, че факторът значително влияе върху данните: данните зависят от фактора с вероятност П = 1 − α .

Ако действителното съотношение на Фишер е по-малко от критичното съотношение на Фишер, тогава нулевата хипотеза трябва да се приеме с ниво на значимост α . Това означава, че факторът не влияе значително на данните с вероятност П = 1 − α .

Двустранен дисперсионен анализ с повторения: пример

за взаимодействието на факторите Аи б: действителното съотношение на Fisher е по-малко от критичното, следователно взаимодействието между рекламната кампания и конкретния магазин не е значимо.

Двустранен дисперсионен анализ с повторения в MS Excel

Двупосочен анализ на дисперсията с повторения може да се извърши с помощта на процедурата MS Excel. Използваме го, за да анализираме данни за връзката между приходите от магазина и избора на конкретен магазин и рекламната кампания от пример 4.

В менюто на MS Excel изпълнете командата Анализ на услуги/даннии изберете инструмент за анализ Двустранен дисперсионен анализ с повторения.

Попълваме данните по същия начин, както при двупосочен ANOVA без повторения, с допълнението, че в полето брой редове за извадка трябва да въведете броя повторения.

В резултат на процедурата се показват две таблици. Първата таблица се състои от три части: първите две съответстват на всяка от двете рекламни кампании, третата съдържа данни за двете рекламни кампании. Колоните на таблицата съдържат информация за всички градационни класове на втория фактор - магазин: брой наблюдения, обща стойност, средна стойност и дисперсия.

Във втората таблица - данни за сумата на квадратните отклонения (SS), броя на степените на свобода (df), дисперсия (MS), действителната стойност на коефициента на Фишер (F), p-ниво (P-стойност) и критичната стойност на съотношението на Фишер (F crit) за различни източници на вариация: два фактора, дадени в редове (извадка) и колони, взаимодействия на факторите, грешки (вътрешни) и общи суми (общо).

ГОСПОЖИЦА Е p-стойност Fcrit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

За фактора бдействителното съотношение на Fisher е по-голямо от критичното съотношение, следователно, с вероятност от 95%, приходите варират значително между магазините.

За взаимодействието на факторите Аи бдействителното съотношение на Fisher е по-малко от критично, следователно с вероятност от 95% взаимодействието между рекламната кампания и конкретен магазин не е значимо.

Всичко за "Математическа статистика"