چه سوالاتی را می توان با تحلیل واریانس حل کرد. درس: تجزیه و تحلیل پراکندگی. آنفولانزا باعث افزایش تولید هیستامین می شود

تحلیل واریانسسیستمی از مفاهیم و تکنیک هایی است که به شما امکان می دهد روند مقایسه دو میانگین را برای دو نمونه گرفته شده از جمعیت هابا توزیع نرمال، در مورد تعداد زیادی نمونه.

واگذاری خدمات. با این ماشین حساب آنلاین می توانید:

  • انجام تحلیل واریانس یک طرفه؛
  • به این سوال پاسخ دهید - آیا میانگین مقادیر آزمایش ها مطابقت دارند یا خیر.
  • در سطح معناداری انتخاب شده، فرضیه صفر H 0 در مورد برابری میانگین های گروه را تایید یا رد کنید.

دستورالعمل. تعداد ابعاد (تعداد ردیف) q , تعداد سطوح فاکتور p را مشخص کنید، روی Next کلیک کنید. راه حل به دست آمده در یک فایل Word ذخیره می شود. این روش معمولاً برای انتخاب عوامل مهم برای ساخت یک معادله رگرسیون چندگانه استفاده می شود.

مثال. محصول حمل و نقل ریلی به منظور آزمایش قابلیت اطمینان، q بار، i=1،...q در سطوح p از زمان عملیات Tj، j=1،...، p استفاده می شود. در هر آزمون، تعداد خرابی ها n ij شمارش می شود. در سطح معناداری 0.05 = α، تأثیر زمان عملکرد محصول بر تعداد خرابی ها را با روش ANOVA یک طرفه در q=4 و p=4 بررسی کنید. نتایج آزمون n ij در جداول ارائه شده است.
تصمیم.
روش ANOVA یک طرفه. یافتن میانگین های گروهی:

نP 1P 2ص 3P 4
1 145 210 195 155
2 140 200 190 150
3 150 190 240 180
4 190 195 210 175
ایکس156.25 198.75 208.75 165

بیایید p را نشان دهیم - تعداد سطوح عامل (p=4). تعداد اندازه گیری ها در هر سطح یکسان و برابر با q=4 است.


(1)



R کل = ∑∑(x ij -x) (2)

R f \u003d q (x ij -x)


R استراحت \u003d R کل - R f












اگر f obl >f cr، فاکتور تأثیر قابل توجهی دارد و باید مورد توجه قرار گیرد، در غیر این صورت تأثیر ناچیزی دارد که می توان از آن چشم پوشی کرد.

(4)


نص 2 1ص 2 2ص 2 3ص 2 4
1 21025 44100 38025 24025
2 19600 40000 36100 22500
3 22500 36100 57600 32400
4 36100 38025 44100 30625
99225 158225 175825 109550



Rtot = 99225 + 158225 + 175825 + 109550 - 4 182.19 2 = 11748.44
R f را طبق فرمول (5) پیدا می کنیم:
R f \u003d 4 (156.25 2 + 198.75 2 + 208.75 2 + 165 2) - 4 182.19 2 \u003d 7792.19
استراحت R را دریافت می کنیم: R استراحت \u003d R کل - R f \u003d 11748.44 - 7792.19 \u003d 3956.25
ما واریانس فاکتوریل و باقیمانده را تعیین می کنیم:



تخمین واریانس عامل بزرگتر از تخمین واریانس باقیمانده است، بنابراین می توانیم بلافاصله ادعا کنیم که فرضیه صفر برابری درست نیست. انتظارات ریاضیتوسط لایه های نمونه
به عبارت دیگر در این مثال ضریب Ф بر متغیر تصادفی تاثیر بسزایی دارد.

f obl را پیدا کنید

برای سطح معناداری α=0.05، تعداد درجات آزادی 3 و 12، f cr را از جدول توزیع فیشر-اسندکور پیدا می کنیم.
f cr (0.05؛ 3؛ 12) = 3.49
با توجه به اینکه f obl > f cr فرضیه صفر در مورد تأثیر معنی دار عامل بر نتایج آزمایشات را می پذیریم.

مثال شماره 2. دانش آموزان سال اول به منظور شناسایی فعالیت هایی که اوقات فراغت خود را به آن اختصاص می دهند مورد بررسی قرار گرفتند. بررسی کنید که آیا توزیع ترجیحات کلامی و غیرکلامی دانش آموزان متفاوت است یا خیر.
یافتن میانگین های گروهی:

نP 1P 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
ایکس15.6 17
بیایید p را نشان دهیم - تعداد سطوح عامل (p=2). تعداد اندازه گیری ها در هر سطح یکسان و برابر q=5 است.
ردیف آخر شامل میانگین گروه برای هر سطح از فاکتور است.
میانگین کلی را می توان به عنوان میانگین حسابی گروه به دست آورد:
(1)
گسترش میانگین‌های گروهی درصد شکست نسبت به میانگین کل هم تحت تأثیر تغییرات سطح عامل در نظر گرفته شده و هم از عوامل تصادفی است.
به منظور در نظر گرفتن تأثیر این عامل، کل واریانس نمونه به دو بخش تقسیم می شود، که اولی آن فاکتوریل S 2 f نامیده می شود، و دومی - باقیمانده S 2 استراحت.
برای در نظر گرفتن این مولفه ها، ابتدا مجموع مجذور انحرافات متغیر از میانگین کل محاسبه می شود:
R کل \u003d ∑ ∑ (x ij -x)
و مجموع فاکتوریل مجذور انحرافات گروه به معنای از میانگین کل است که تأثیر این عامل را مشخص می کند:
R f \u003d q∑ (x ij -x)
آخرین عبارت با جایگزینی هر گونه در عبارت Rtot با میانگین گروه برای عامل داده شده به دست می آید.
مجموع باقیمانده مجذور انحرافات به عنوان تفاوت به دست می آید:
R استراحت \u003d R کل - R f
برای تعیین کل واریانس نمونه، لازم است Rtotal را بر تعداد اندازه‌گیری‌ها pq تقسیم کنیم:

و برای بدست آوردن واریانس کل نمونه بی طرفانه، این عبارت باید در pq/(pq-1) ضرب شود:

بر این اساس، برای واریانس نمونه فاکتوریل بی طرفانه:

که در آن p-1 تعداد درجات آزادی واریانس نمونه فاکتوریل بی طرف است.
برای ارزیابی تأثیر عامل بر تغییرات پارامتر مورد نظر، مقدار زیر محاسبه می شود:

از آنجایی که نسبت دو واریانس نمونه S 2 f و S 2 rem طبق قانون فیشر- اسندکور توزیع شده است، مقدار f obs حاصل با مقدار تابع توزیع مقایسه می شود.

در نقطه بحرانی f cr مربوط به سطح اهمیت انتخاب شده a.
اگر f obl >f cr، فاکتور تأثیر قابل توجهی دارد و باید مورد توجه قرار گیرد، در غیر این صورت تأثیر ناچیزی دارد که می توان از آن چشم پوشی کرد.
از فرمول های زیر نیز می توان برای محاسبه Robs و Rf استفاده کرد:
کل R \u003d x ij ²-x ²، (4)
R f \u003d q∑x j²-x²، (5)
میانگین کلی را با فرمول (1) پیدا می کنیم:
برای محاسبه Rtot با استفاده از فرمول (4)، یک جدول از گزینه های 2 مربع را جمع آوری می کنیم:
نص 2 1ص 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

میانگین کلی با فرمول (1) محاسبه می شود:

Rtot = 1322 + 1613 - 5 2 16.3 2 = 278.1
R f را طبق فرمول (5) پیدا می کنیم:
R f \u003d 5 (15.6 2 + 17 2) - 2 16.3 2 \u003d 4.9
استراحت R را دریافت می کنیم: R استراحت \u003d R کل - R f \u003d 278.1 - 4.9 \u003d 273.2
ما واریانس فاکتوریل و باقیمانده را تعیین می کنیم:


اگر مقادیر میانگین یک متغیر تصادفی محاسبه‌شده برای نمونه‌های جداگانه یکسان باشد، تخمین‌های واریانس فاکتوریل و باقیمانده تخمین‌های بی‌طرفانه واریانس عمومی هستند و تفاوت‌های ناچیزی دارند.
سپس مقایسه برآوردهای این واریانس ها با توجه به معیار فیشر باید نشان دهد که دلیلی برای رد فرضیه صفر در مورد برابری واریانس فاکتوریل و باقیمانده وجود ندارد.
برآورد واریانس عاملی کمتر از برآورد واریانس باقیمانده است، بنابراین می‌توانیم فوراً اعتبار فرضیه صفر در مورد برابری انتظارات ریاضی برای لایه‌های نمونه را تأیید کنیم.
به عبارت دیگر، در این مثال، ضریب Ф تأثیر معنی‌داری بر متغیر تصادفی ندارد.
بیایید فرضیه صفر H 0 را بررسی کنیم: برابری مقادیر متوسط ​​x.
f obl را پیدا کنید

برای سطح معناداری α=0.05، تعداد درجات آزادی 1 و 8، f cr را از جدول توزیع فیشر-اسندکور پیدا می کنیم.
f cr (0.05؛ 1؛ 8) = 5.32
با توجه به اینکه f obs< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
به عبارت دیگر، توزیع ترجیحات کلامی و غیرکلامی دانش آموزان متفاوت است.

ورزش. این کارخانه دارای چهار خط برای تولید کاشی های روبرو می باشد. 10 کاشی به طور تصادفی از هر خط در حین جابجایی انتخاب و ضخامت آنها (میلی متر) اندازه گیری شد. انحراف از اندازه اسمی در جدول آورده شده است. برای ایجاد وابستگی تولید کاشی های با کیفیت بالا به خط تولید (عامل A) در سطح معنی داری a = 0.05 مورد نیاز است.

ورزش. در سطح معنی داری a = 0.05، تأثیر رنگ رنگ بر عمر مفید پوشش را بررسی کنید.

مثال شماره 1. 13 آزمون انجام شد که از این تعداد 4 آزمون در سطح اول عامل، 4 آزمون در سطح دوم، 3 آزمون در سطح سوم و 2 آزمون در سطح چهارم قرار گرفتند. با استفاده از روش تحلیل واریانس در سطح معنی داری 05/0، فرضیه صفر در مورد برابری میانگین های گروهی را بررسی کنید. فرض بر این است که نمونه ها از جمعیت های نرمال با واریانس های یکسان گرفته شده اند. نتایج آزمایش در جدول نشان داده شده است.

تصمیم:
یافتن میانگین های گروهی:

نP 1P 2ص 3P 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
ایکس1.4 1.43 1.33 1.32
بیایید p را نشان دهیم - تعداد سطوح عامل (p=4). تعداد اندازه گیری ها در هر سطح: 4،4،3،2 می باشد
ردیف آخر شامل میانگین گروه برای هر سطح از فاکتور است.
میانگین کلی با فرمول محاسبه می شود:

برای محاسبه Stotal با استفاده از فرمول (4)، جدولی از گزینه های 2 مربعی را جمع آوری می کنیم:
نص 2 1ص 2 2ص 2 3ص 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49
مجموع مجذور انحرافات با فرمول بدست می آید:

S f را با فرمول پیدا می کنیم:


S استراحت دریافت می کنیم: S استراحت \u003d S کل - S f \u003d 0.0293 - 0.0263 \u003d 0.003
تعیین واریانس عاملی:

و واریانس باقیمانده:

اگر مقادیر میانگین یک متغیر تصادفی محاسبه‌شده برای نمونه‌های جداگانه یکسان باشد، تخمین‌های واریانس فاکتوریل و باقی‌مانده تخمین‌های بی‌طرفانه واریانس عمومی هستند و تفاوت‌های ناچیزی دارند.
سپس مقایسه برآوردهای این واریانس ها با توجه به معیار فیشر نشان می دهد که دلیلی برای رد فرضیه صفر در مورد برابری واریانس فاکتوریل و باقیمانده وجود ندارد.
تخمین واریانس فاکتوریل بیشتر از تخمین واریانس باقیمانده است، بنابراین می توانیم بلافاصله ادعا کنیم که فرضیه صفر در مورد برابری انتظارات ریاضی برای لایه های نمونه درست نیست.
به عبارت دیگر در این مثال ضریب Ф بر متغیر تصادفی تاثیر بسزایی دارد.
بیایید فرضیه صفر H 0 را بررسی کنیم: برابری مقادیر متوسط ​​x.
f obl را پیدا کنید

برای سطح معناداری α=0.05، تعداد درجات آزادی 3 و 12، f cr را از جدول توزیع فیشر-اسندکور پیدا می کنیم.
f cr (0.05؛ 3؛ 12) = 3.49
با توجه به اینکه fobs > fcr، فرضیه صفر را در مورد تأثیر معنادار عامل بر نتایج آزمایشات می پذیریم (فرضیه صفر در مورد برابری میانگین های گروهی را رد می کنیم). به عبارت دیگر، معنای گروه در کل به طور قابل توجهی متفاوت است.

مثال شماره 2. این مدرسه دارای 5 کلاس ششم است. روانشناس وظیفه دارد تعیین کند که آیا میانگین سطح اضطراب موقعیتی در کلاس ها یکسان است یا خیر. برای این در جدول آورده شده است. سطح معناداری 0.05=α را بررسی کنید، این فرض که میانگین اضطراب موقعیتی در کلاس ها تفاوتی ندارد.

مثال شماره 3. برای بررسی مقدار X، 4 آزمون در هر یک از سطوح پنج گانه فاکتور F انجام شد که نتایج آزمون در جدول آورده شده است. دریابید که آیا تأثیر عامل F بر مقدار X قابل توجه است یا خیر. α = 0.05 را در نظر بگیرید. فرض بر این است که نمونه ها از جمعیت های نرمال با واریانس های یکسان گرفته شده اند.

مثال شماره 4. فرض کنید سه گروه از دانش آموزان هر کدام 10 نفر در آزمایش آموزشی شرکت کردند. روش‌های تدریس متفاوتی در گروه‌ها استفاده شد: در گروه اول - سنتی (F 1)، در دوم - مبتنی بر فناوری رایانه (F 2)، در سوم - روشی که به طور گسترده از وظایف برای کار مستقل(F3). دانش بر اساس یک سیستم ده امتیازی ارزیابی شد.
لازم است داده‌های به‌دست‌آمده در امتحانات پردازش شود و در مورد اینکه آیا تأثیر روش تدریس معنی‌دار است یا خیر، با در نظر گرفتن سطح معنی‌داری 0.05=α، نتیجه‌گیری شود.
نتایج امتحانات در جدول F j - سطح ضریب x ij - ارزیابی دانش آموز i-ام دانش آموز طبق روش F j آورده شده است.

من 1 2 3 4 5 6 7 8 9 10
سطح فاکتور F j F1 7 5 6 4 6 7 8 6 5 7
F2 9 8 10 8 7 10 10 9 7 6
F3 6 7 6 6 9 5 7 8 7 8

مثال شماره 5. نتایج آزمون واریته رقابتی محصولات نشان داده شده است (بازده در c.d. هکتار). هر رقم در چهار پلات آزمایش شد. برای بررسی تأثیر رقم بر عملکرد از روش تحلیل واریانس استفاده کنید. معنی‌داری تأثیر عامل (سهم تغییرات بین گروهی در کل تغییرات) و معنی‌داری نتایج آزمایش را در سطح معنی‌داری 05/0 تنظیم کنید.
بازده در کرت های آزمایش واریته

تنوع بهره وری در تکرار ج. از هکتار
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

5.1. تحلیل واریانس چیست؟

آنالیز واریانس در دهه 1920 توسط رونالد فیشر ریاضیدان و ژنتیک شناس انگلیسی توسعه یافت. طبق یک نظرسنجی در بین دانشمندان، که مشخص شد چه کسی بیشترین تأثیر را بر زیست شناسی قرن بیستم داشته است، این سر فیشر بود که برنده عنوان قهرمانی شد (برای خدماتش به او نشان شوالیه - یکی از بالاترین ممتازها در بریتانیای کبیر) اهدا شد. از این نظر، فیشر با چارلز داروین قابل مقایسه است که در قرن نوزدهم بیشترین تأثیر را بر زیست شناسی داشت.

تجزیه و تحلیل پراکندگی (Analis of variance) در حال حاضر است صنعت جداگانهآمار. بر اساس این واقعیت کشف شده توسط فیشر است که اندازه گیری تغییرپذیری کمیت مورد مطالعه را می توان به بخش های مربوط به عوامل مؤثر بر این کمیت و انحرافات تصادفی تجزیه کرد.

برای درک ماهیت تحلیل واریانس، ما یک نوع محاسبات را دو بار انجام خواهیم داد: "دستی" (با ماشین حساب) و با استفاده از برنامه های آماری. برای ساده‌تر کردن کارمان، با نتایج توصیف واقعی تنوع قورباغه‌های سبز کار نمی‌کنیم، بلکه با یک مثال تخیلی که مربوط به مقایسه زن و مرد در انسان است، کار خواهیم کرد.تنوع قد 12 بزرگسال را در نظر بگیرید: 7 زن و 5 مرد.

جدول 5.1.1. مثال ANOVA یک طرفه: داده های جنسیت و قد برای 12 نفر

بیایید یک آنالیز واریانس یک طرفه انجام دهیم: بیایید مقایسه کنیم که آیا مردان و زنان از نظر قد در گروه مشخص شده از نظر آماری تفاوت معنی‌داری دارند یا نه.

5.2. تست توزیع نرمال

استدلال بیشتر بر این واقعیت استوار است که توزیع در نمونه در نظر گرفته شده نرمال یا نزدیک به نرمال است. اگر توزیع از نرمال دور باشد، واریانس (واریانس) معیار مناسبی برای تغییرپذیری آن نیست. با این حال، تجزیه و تحلیل واریانس نسبتاً مقاوم به انحراف توزیع از نرمال است.

این داده ها را می توان از دو طریق برای نرمال بودن آزمایش کرد. راه های مختلف. اول: آمار / آمار پایه / جداول / آمار توصیفی / برگه نرمال. در برگهعادی بودن شما می توانید انتخاب کنید که از کدام تست های توزیع نرمال استفاده کنید. هنگامی که روی دکمه جداول فرکانس کلیک می کنید، جدول فرکانس ظاهر می شود و دکمه های Histograms - یک هیستوگرام. جدول و نمودار میله ای نتایج تست های مختلف را نشان می دهد.

روش دوم با استفاده از امکانات مناسب در هنگام ساخت هیستوگرام همراه است. در گفتگوی ساخت هیستوگرام (Grafs / Histograms...)، تب Advanced را انتخاب کنید. در قسمت پایین آن یک بلوک Statistics وجود دارد. روی آن Shapiro-Wilk توجه داشته باشیدتی est و آزمون Kolmogorov-Smirnov، همانطور که در شکل نشان داده شده است.

برنج. 5.2.1. آزمون های آماری برای توزیع نرمال در گفتگوی ساخت هیستوگرام

همانطور که از هیستوگرام مشاهده می شود، توزیع رشد در نمونه ما با طبیعی متفاوت است (در وسط - "شکست").


برنج. 5.2.2. هیستوگرام با پارامترهای مشخص شده در شکل قبل ترسیم شده است

خط سوم در عنوان نمودار، پارامترهای توزیع نرمال را نشان می دهد که نزدیک ترین به توزیع مشاهده شده است. میانگین کلی 173، انحراف استاندارد کلی 10.4 است. درج شده در پایین نمودار، نتایج آزمایش‌های نرمال بودن را نشان می‌دهد. D آزمون کولموگروف-اسمیرنوف و SW-W تست شاپیرو-ویلک است. همانطور که مشاهده می شود، برای تمام آزمون های مورد استفاده، تفاوت در توزیع رشد از توزیع نرمال از نظر آماری ناچیز بود. پ در همه موارد بیشتر از 0.05).

بنابراین، به طور رسمی، آزمایش‌های مربوط به انطباق توزیع با نرمال ما را از استفاده از روش پارامتریک بر اساس این فرض منع نکردند. توزیع نرمال. همانطور که قبلاً ذکر شد، تجزیه و تحلیل واریانس نسبتاً در برابر انحراف از نرمال مقاوم است، بنابراین ما هنوز از آن استفاده می کنیم.

5.3. ANOVA یک طرفه: محاسبات دستی

برای مشخص کردن تغییر قد افراد در مثال بالا، مجموع انحرافات مجذور را محاسبه می کنیم (در انگلیسی به این صورت نشان داده می شود. اس اس ، مجموع مربع ها یا ) مقادیر فردی از میانگین: . میانگین مقدار قد در مثال بالا 173 سانتی متر است. بر این اساس،

اس اس = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

اس اس = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

اس اس = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

مقدار حاصل (1192) معیاری برای تغییرپذیری کل مجموعه داده است. با این حال، آنها از دو گروه تشکیل شده اند که برای هر یک می توان میانگین خود را اختصاص داد. در داده های داده شده، میانگین قد زنان 168 سانتی متر و مردان - 180 سانتی متر است.

مجموع مجذور انحرافات زنان را محاسبه کنید:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

ما همچنین مجموع انحرافات مجذور مردان را محاسبه می کنیم:

اس اس ام = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

اس اس ام = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

مقدار مورد مطالعه مطابق با منطق تحلیل واریانس به چه چیزی بستگی دارد؟

دو مقدار محاسبه شده، SS f و اس اس ام ، واریانس درون گروهی را مشخص می کند که در تحلیل واریانس معمولاً به آن "خطا" می گویند. ریشه این نام با منطق زیر مرتبط است.

چه چیزی قد یک فرد را در این مثال تعیین می کند؟ اول از همه، از میانگین قد افراد به طور کلی، صرف نظر از جنسیت آنها. ثانیاً از روی زمین. اگر افراد یک جنس (مذکر) از جنس دیگر (مونث) بلندتر باشند، این می تواند به عنوان افزودنی بر میانگین «جهانی» مقداری، یعنی تأثیر جنسیت نشان داده شود. در نهایت، افراد همجنس به دلیل تفاوت های فردی از نظر قد با هم تفاوت دارند. در مدلی که قد را به عنوان مجموع میانگین انسان به اضافه یک تنظیم جنسی توصیف می کند، تفاوت های فردی غیرقابل توضیح است و می تواند به عنوان یک "اشتباه" دیده شود.

بنابراین، مطابق با منطق تحلیل واریانس، مقدار مورد مطالعه به صورت زیر تعیین می شود: ، جایی که xij - مقدار i-امین کمیت مورد مطالعه در مقدار j-امین عامل مورد مطالعه. - میانگین عمومی؛ Fj - تأثیر مقدار j-ام عامل مورد مطالعه؛ - "خطا"، سهم فردیت شیئی که ارزش به آن اشاره داردxij .

مجموع مربع های بین گروهی

بنابراین، اس اس اشتباهات = SS f + SS m = 212 + 560 = 772. با این مقدار، تنوع درون گروهی (هنگام جداسازی گروه ها بر اساس جنسیت) را توضیح دادیم. اما بخش دوم تغییرپذیری نیز وجود دارد - بین گروهی که ما آن را فراخوانی خواهیم کردافکت SS (زیرا ما در مورد تأثیر تقسیم مجموعه اشیاء مورد نظر به زن و مرد صحبت می کنیم).

میانگین هر گروه با میانگین کلی متفاوت است. هنگام محاسبه سهم این تفاوت در اندازه گیری کلی تنوع، باید تفاوت بین گروه و میانگین کل را در تعداد اشیاء در هر گروه ضرب کنیم.

افکت SS = = 7x(168-173) 2 + 5x (180-173) 2 = 7x52 + 5x72 = 7x25 + 5x49 = 175 + 245 = 420.

در اینجا اصل ثابت بودن مجموع مربع ها که توسط فیشر کشف شد خود را نشان داد: SS = اثر SS + خطاهای SS ، یعنی برای این مثال، 1192 = 440 + 722.

مربع های میانی

با مقایسه در مثال ما مجموع مربع های بین گروهی و درون گروهی، می بینیم که اولی با تغییرات دو گروه مرتبط است و دومی - 12 مقدار در 2 گروه. تعداد درجات آزادی ( df ) برای برخی از پارامترها را می توان به عنوان تفاوت بین تعداد اشیاء در گروه و تعداد وابستگی ها (معادلات) که این مقادیر را به هم متصل می کند تعریف کرد.

در مثال ما اثر df = 2–1 = 1، آ خطاهای df = 12–2 = 10.

ما می توانیم مجموع مربع ها را بر تعداد درجات آزادی آنها تقسیم کنیم تا مجذورهای میانگین ( ام‌اس ، به معنای مربع). با انجام این کار، می توانیم آن را ثابت کنیم ام‌اس - چیزی بیش از واریانس ("پراکندگی"، نتیجه تقسیم مجموع مربع ها بر تعداد درجات آزادی). پس از این کشف، می توانیم ساختار جدول ANOVA را درک کنیم. برای مثال ما به این شکل خواهد بود.

اثر

خطا

اثر ام اس و خطاهای ام اس تخمینی از واریانس های بین گروهی و درون گروهی هستند و بنابراین می توان آنها را بر اساس معیار مقایسه کرد.اف (معیار Snedecor، به نام فیشر)، طراحی شده برای مقایسه انواع. این معیار صرفاً ضریب تقسیم واریانس بزرگتر بر واریانس کوچکتر است. در مورد ما، این 420 / 77.2 = 5.440 است.

تعیین اهمیت آماری آزمون فیشر با توجه به جداول

اگر بخواهیم اهمیت آماری اثر را به صورت دستی و با استفاده از جداول تعیین کنیم، باید مقدار معیار بدست آمده را با هم مقایسه کنیم. اف با متناظر انتقادی سطح مشخصاهمیت آماری برای درجات آزادی معین


برنج. 5.3.1. قطعه جدول با مقادیر بحرانی معیار اف

همانطور که می بینید، برای سطح معنی داری آماری 0.05=p، مقدار بحرانی معیاراف 4.96 است. به این معنی که در مثال ما، تأثیر جنسیت مورد مطالعه با سطح معناداری آماری 05/0 ثبت شد.

نتیجه به دست آمده را می توان به صورت زیر تفسیر کرد. احتمال فرض صفر که بر اساس آن میانگین قد زنان و مردان یکسان است و تفاوت ثبت شده قد آنها به دلیل تصادفی بودن در تشکیل نمونه ها کمتر از 5 درصد است. این بدان معناست که باید فرضیه جایگزین را انتخاب کنیم که میانگین قد زنان و مردان متفاوت است.

5.4. تحلیل واریانس یک طرفه ( ANOVA) در بسته Statistica

در مواردی که محاسبات به صورت دستی انجام نمی شود، بلکه با کمک برنامه های مناسب (مثلاً بسته Statistica)، مقدار پ به صورت خودکار تعیین می شود. مشاهده می شود که مقداری بالاتر از مقدار بحرانی است.

برای تجزیه و تحلیل مثال مورد بحث با استفاده از ساده ترین نسخه تجزیه و تحلیل واریانس، باید رویه آماری / ANOVA را برای فایل با داده های مربوطه اجرا کنید و گزینه ANOVA یک طرفه (یک طرفه ANOVA) را در نوع انتخاب کنید. پنجره تجزیه و تحلیل، و گزینه گفتگوی مشخصات سریع در پنجره روش مشخصات.


برنج. 5.4.1. دیالوگ کلی ANOVA/MANOVA (ANOVA)

در پنجره گفتگوی سریعی که باز می شود، در قسمت Variables، باید ستون هایی را مشخص کنید که حاوی داده هایی هستند که در حال مطالعه تنوع آن ها هستیم (لیست متغیر وابسته؛ در مورد ما، ستون رشد)، و همچنین ستونی حاوی مقادیر. که مقدار مورد مطالعه را به گروه‌هایی تقسیم می‌کند (پیش‌بینی‌کننده طبقه‌ای (عامل)؛ در مورد ما، ستون جنسیت). در این نسخه از تحلیل، بر خلاف تحلیل چند متغیره، تنها یک عامل را می توان در نظر گرفت.


برنج. 5.4.2. گفتگوی ANOVA یک طرفه (تحلیل واریانس یک طرفه)

در پنجره Factor codes، باید مقادیر فاکتور مورد نظر را که باید در طول این تحلیل پردازش شوند، مشخص کنید. تمام مقادیر موجود را می توان با استفاده از دکمه زوم مشاهده کرد. اگر، مانند مثال ما، باید همه مقادیر فاکتور را در نظر بگیرید (و برای جنسیت در مثال ما فقط دو مورد از آنها وجود دارد)، می توانید روی دکمه همه کلیک کنید. هنگامی که ستون های پردازش و کدهای فاکتور تنظیم شدند، می توانید روی دکمه OK کلیک کنید و برای نتایج به پنجره تجزیه و تحلیل سریع بروید: نتایج ANOVA 1، در زبانه Quick.

برنج. 5.4.3. برگه سریع پنجره نتایج ANOVA

دکمه All Effects/Graphs به شما این امکان را می دهد که ببینید میانگین دو گروه چگونه با هم مقایسه می شوند. در بالای نمودار، تعداد درجات آزادی و همچنین مقادیر F و p برای فاکتور مورد نظر نشان داده شده است.


برنج. 5.4.4. نمایش گرافیکی نتایج تحلیل واریانس

دکمه همه جلوه ها به شما امکان می دهد یک جدول ANOVA مشابه آنچه در بالا توضیح داده شد (با برخی تفاوت های قابل توجه) دریافت کنید.


برنج. 5.4.5. جدول با نتایج تجزیه و تحلیل واریانس (مقایسه با جدول مشابه به دست آمده "دستی")

خط پایین جدول مجموع مربع ها، تعداد درجات آزادی و میانگین مربعات خطا (تغییرپذیری درون گروهی) را نشان می دهد. در خط بالا - شاخص های مشابه برای عامل مورد مطالعه (در این مورد، علامت جنسیت)، و همچنین معیار اف (نسبت مجذورات میانگین اثر به مجذورهای میانگین خطا)، و سطح معنی داری آماری آن. این واقعیت که اثر عامل مورد بررسی از نظر آماری معنی‌دار است با برجسته کردن قرمز نشان داده می‌شود.

و خط اول داده های مربوط به نشانگر "Intercept" را نشان می دهد. این ردیف جدول برای کاربرانی که به بسته Statistica در نسخه ششم یا جدیدتر آن ملحق می شوند یک معما است. مقدار Intercept احتمالاً مربوط به بسط مجموع مربعات همه مقادیر داده است (یعنی 1862 + 1692 ... = 360340). مقدار معیار F نشان داده شده برای آن با تقسیم به دست می آید MS Intercept / خطای MS = 353220 / 77.2 = 4575.389 و طبیعتاً مقدار بسیار کمی می دهد پ . جالب اینجاست که در Statistica-5 این مقدار به هیچ وجه محاسبه نشده است و راهنمای استفاده از نسخه های بعدی بسته به هیچ وجه در مورد معرفی آن اظهار نظر نمی کند. احتمالاً بهترین کاری که یک زیست شناس Statistica-6 و بعد از آن می تواند انجام دهد این است که به سادگی ردیف Intercept را در جدول ANOVA نادیده بگیرد.

5.5. ANOVA و معیارهای دانشجویی و فیشر: کدام بهتر است؟

همانطور که می بینید، داده هایی را که با استفاده از تحلیل واریانس یک طرفه مقایسه کردیم، می توانیم با استفاده از آزمون های Student's و Fisher نیز بررسی کنیم. بیایید این دو روش را با هم مقایسه کنیم. برای این کار تفاوت قد مردان و زنان را با استفاده از این معیارها محاسبه می کنیم. برای این کار باید مسیر Statistics / Basic Statistics / t-test مستقل را به تفکیک گروه ها دنبال کنیم. به طور طبیعی، متغیرهای وابسته، متغیر رشد، و متغیر گروه بندی، متغیر جنسیت است.


برنج. 5.5.1. مقایسه داده های پردازش شده با استفاده از ANOVA بر اساس معیارهای دانشجویی و فیشر

همانطور که می بینید، نتیجه مشابه با استفاده از ANOVA است. پ 0.041874 = در هر دو مورد، همانطور که در شکل نشان داده شده است. 5.4.5 و در شکل نشان داده شده است. 5.5.2 (خودتان ببینید!).


برنج. 5.5.2. نتایج تجزیه و تحلیل (تفسیر تفصیلی جدول نتایج - در پاراگراف معیار دانشجو)

تاکید بر این نکته حائز اهمیت است که اگرچه معیار F از نظر ریاضی در تحلیل مورد بررسی با توجه به معیارهای Student و Fisher همانند ANOVA است (و نسبت واریانس را بیان می کند)، اما معنای آن در نتایج تجزیه و تحلیل ارائه شده توسط جدول نهایی کاملا متفاوت است. هنگام مقایسه با آزمون دانشجویی و فیشر، مقایسه میانگین مقادیر نمونه ها با معیار دانش آموز و مقایسه تنوع آنها با معیار فیشر انجام می شود. در نتایج تجزیه و تحلیل، این خود واریانس نیست که نمایش داده می شود، بلکه آن است ریشه دوم- انحراف معیار.

در تحلیل واریانس، در مقابل، از آزمون فیشر برای مقایسه میانگین‌های نمونه‌های مختلف استفاده می‌شود (همانطور که گفتیم، این کار با تقسیم مجموع مربع‌ها به قطعات و مقایسه میانگین مجموع مربع‌های مربوط به بین و درون انجام می‌شود. تنوع گروهی).

با این حال، تفاوت فوق به ارائه نتایج یک مطالعه آماری مربوط می شود تا ماهیت آن. همانطور که به عنوان مثال توسط گلانتز (1999، ص 99) اشاره شد، مقایسه گروه ها با آزمون استیودنت می تواند به عنوان یک مورد خاص از تحلیل واریانس برای دو نمونه در نظر گرفته شود.

بنابراین مقایسه نمونه‌ها بر اساس آزمون‌های استودنت و فیشر یک مزیت مهم نسبت به تحلیل واریانس دارد: می‌تواند نمونه‌ها را از نظر تغییرپذیری با هم مقایسه کند. اما مزایای ANOVA هنوز قابل توجه است. از جمله آنها، به عنوان مثال، امکان مقایسه همزمان چند نمونه است.

در عمل پزشکان هنگام انجام مطالعات زیست پزشکی، جامعه شناختی و تجربی، لازم است تأثیر عوامل بر نتایج مطالعه وضعیت سلامت جمعیت، هنگام ارزیابی فعالیت حرفه ای و اثربخشی نوآوری ها ایجاد شود.

تعدادی روش آماری وجود دارد که به شما امکان می دهد قدرت، جهت، الگوهای تأثیر عوامل بر نتیجه را در جمعیت عمومی یا نمونه تعیین کنید (محاسبه معیار I، تجزیه و تحلیل همبستگی، رگرسیون، Χ 2 - (معیار توافق پیرسون، تجزیه و تحلیل واریانس توسط دانشمند، ریاضیدان و ژنتیک انگلیسی رونالد فیشر در دهه 1920 توسعه و پیشنهاد شد.

تجزیه و تحلیل واریانس اغلب در مطالعات علمی و عملی بهداشت عمومی و مراقبت های بهداشتی برای مطالعه تأثیر یک یا چند عامل بر صفت حاصل استفاده می شود. این بر اساس اصل "انعکاس تنوع مقادیر عامل(ها) بر تنوع مقادیر صفت حاصل" است و قدرت تاثیر عامل(های) را در جمعیت های نمونه مشخص می کند. .

ماهیت روش تحلیل واریانس اندازه گیری واریانس های فردی (کل، فاکتوریل، باقیمانده) و تعیین بیشتر قدرت (سهم) تأثیر عوامل مورد مطالعه (ارزیابی نقش هر یک از عوامل، یا تأثیر مشترک آنها بر ویژگی(های) حاصل.

تحلیل واریانس- این یک روش آماری برای ارزیابی رابطه بین ویژگی های عامل و عملکرد در گروه های مختلف است که به طور تصادفی بر اساس تعیین تفاوت (تنوع) در مقادیر ویژگی ها انتخاب شده است. تجزیه و تحلیل واریانس بر اساس تجزیه و تحلیل انحرافات همه واحدهای جامعه مورد مطالعه از میانگین حسابی است. به عنوان اندازه گیری انحرافات، پراکندگی (B) گرفته می شود - میانگین مربع انحراف. انحرافات ناشی از تأثیر یک ویژگی عامل (عامل) با بزرگی انحرافات ناشی از شرایط تصادفی مقایسه می شود. اگر انحرافات ناشی از صفت عامل از انحرافات تصادفی معنی دارتر باشد، در آن صورت در نظر گرفته می شود که این عامل بر ویژگی حاصل تأثیر بسزایی دارد.

به منظور محاسبه واریانس مقادیر انحراف هر گزینه (هر یک ثبت شده مقدار عددیعلامت) از میانگین حسابی مجذور می شود. این کار علائم منفی را از بین می برد. سپس این انحرافات (تفاوتها) جمع شده و بر تعداد مشاهدات تقسیم می شوند. میانگین انحرافات بنابراین، مقادیر پراکندگی به دست می آید.

یک ارزش روش شناختی مهم برای کاربرد تحلیل واریانس، تشکیل صحیح نمونه است. بسته به هدف و مقاصد، می‌توان گروه‌های انتخابی را به‌طور تصادفی مستقل از یکدیگر تشکیل داد (گروه‌های کنترل و آزمایش برای بررسی برخی شاخص‌ها، مثلاً تأثیر فشار خون بالا بر ایجاد سکته مغزی). چنین نمونه هایی مستقل نامیده می شوند.

اغلب، نتایج قرار گرفتن در معرض عوامل در یک گروه نمونه (به عنوان مثال، در همان بیماران) قبل و بعد از قرار گرفتن در معرض (درمان، پیشگیری، اقدامات توانبخشی) مطالعه می شود، چنین نمونه هایی وابسته نامیده می شوند.

آنالیز واریانس که در آن تأثیر یک عامل بررسی می شود، آنالیز تک عاملی (تحلیل تک متغیره) نامیده می شود. هنگام مطالعه تأثیر بیش از یک عامل، از تحلیل واریانس چند متغیره (تحلیل چند متغیره) استفاده می شود.

نشانه های عاملی آن دسته از نشانه هایی هستند که بر پدیده مورد مطالعه تأثیر می گذارند.
علائم مؤثر آن دسته از علائم هستند که تحت تأثیر علائم عامل تغییر می کنند.

از هر دو ویژگی کیفی (جنسیت، حرفه) و کمی (تعداد تزریقات، بیماران در بخش، تعداد روزهای بستری) می توان برای انجام تحلیل واریانس استفاده کرد.

روشهای تجزیه و تحلیل پراکندگی:

  1. روش با توجه به فیشر (فیشر) - معیار F (مقادیر F، پیوست شماره 1 را ببینید).
    این روش در تجزیه و تحلیل واریانس یک طرفه استفاده می شود، زمانی که واریانس کل همه مقادیر مشاهده شده به واریانس درون گروه های فردی و واریانس بین گروه ها تجزیه می شود.
  2. روش "مدل خطی عمومی".
    بر اساس تحلیل همبستگی یا رگرسیون مورد استفاده در تحلیل چند متغیره است.

معمولاً در تحقیقات زیست پزشکی فقط از کمپلکس های پراکندگی یک عاملی حداکثر دو عاملی استفاده می شود. مجتمع های چند عاملی را می توان با تجزیه و تحلیل متوالی مجتمع های یک یا دو عاملی جدا شده از کل جمعیت مشاهده شده بررسی کرد.

شرایط استفاده از تحلیل واریانس:

  1. وظیفه این مطالعه تعیین قدرت تأثیر یک (حداکثر 3) عامل بر نتیجه یا تعیین قدرت تأثیر ترکیبی عوامل مختلف (جنس و سن، فعالیت بدنی و تغذیه و غیره) است.
  2. عوامل مورد مطالعه باید مستقل (غیر مرتبط) با یکدیگر باشند. به عنوان مثال، نمی توان اثر ترکیبی سابقه کار و سن، قد و وزن کودکان و غیره را مطالعه کرد. بر میزان بروز جمعیت
  3. انتخاب گروه ها برای مطالعه به صورت تصادفی (انتخاب تصادفی) انجام می شود. سازماندهی یک مجتمع پراکندگی با اجرای اصل انتخاب تصادفی گزینه ها تصادفی سازی نامیده می شود (ترجمه شده از انگلیسی - تصادفی)، یعنی. به صورت تصادفی انتخاب شده است.
  4. می توان از هر دو ویژگی کمی و کیفی (اسنادی) استفاده کرد.

هنگام انجام آنالیز واریانس یک طرفه، توصیه می شود (شرط لازم برای کاربرد):

  1. نرمال بودن توزیع گروه های مورد تجزیه و تحلیل یا مطابقت گروه های نمونه با جمعیت های عمومی با توزیع نرمال.
  2. استقلال (عدم اتصال) توزیع مشاهدات در گروه ها.
  3. وجود فراوانی (عود) مشاهدات.

نرمال بودن توزیع توسط منحنی گاوس (De Mavour) تعیین می شود، که می توان آن را با تابع y \u003d f (x) توصیف کرد، زیرا یکی از قوانین توزیع است که برای تقریب توصیف پدیده هایی که تصادفی هستند، استفاده می شود. ماهیت احتمالی موضوع تحقیقات زیست پزشکی پدیده ای با ماهیت احتمالی است، توزیع نرمال در چنین مطالعاتی بسیار رایج است.

اصل کاربرد روش تحلیل واریانس

ابتدا یک فرضیه صفر فرموله می شود، یعنی فرض بر این است که عوامل مورد مطالعه هیچ تاثیری بر مقادیر صفت حاصل ندارند و تفاوت های حاصل تصادفی است.

سپس تعیین می کنیم که احتمال به دست آوردن تفاوت های مشاهده شده (یا قوی تر) چقدر است، مشروط بر اینکه فرضیه صفر درست باشد.

اگر این احتمال کوچک* باشد، فرضیه صفر را رد می کنیم و نتیجه می گیریم که نتایج تحقیق از نظر آماری معنی دار است. این هنوز به این معنی نیست که تأثیر عوامل مورد مطالعه ثابت شده است (این در درجه اول یک موضوع برنامه ریزی تحقیقاتی است)، اما هنوز بعید است که نتیجه ناشی از شانس باشد.
__________________________________
* حداکثر احتمال قابل قبول برای رد فرضیه صفر واقعی، سطح معنی داری نامیده می شود و با α = 0.05 نشان داده می شود.

هنگامی که تمام شرایط برای اعمال تحلیل واریانس برآورده شود، تجزیه واریانس کل از نظر ریاضی به صورت زیر است:

D gen. = D واقعیت + D استراحت. ،

D gen. - واریانس کل مقادیر مشاهده شده (نوعی)، که با گسترش متغیر از میانگین کل مشخص می شود. تغییرات یک صفت را در کل جمعیت تحت تأثیر همه عواملی که باعث این تنوع شده اند اندازه گیری می کند. تنوع کلی از بین گروهی و درون گروهی تشکیل شده است.

D واقعیت - واریانس فاکتوریل (بین گروهی) که با تفاوت میانگین ها در هر گروه مشخص می شود و به تأثیر عامل مورد مطالعه بستگی دارد که توسط آن هر گروه متمایز می شود. به عنوان مثال، در گروه هایی از عوامل اتیولوژیک مختلف سیر بالینی ذات الریه، سطح متوسط ​​روز خواب سپری شده یکسان نیست - تنوع بین گروهی مشاهده می شود.

D استراحت. - واریانس باقیمانده (درون گروهی)، که پراکندگی واریانت را در گروه ها مشخص می کند. منعکس کننده تغییرات تصادفی است، به عنوان مثال. بخشی از تغییرات که تحت تأثیر عوامل نامشخص رخ می دهد و به ویژگی - عامل زیربنایی گروه بندی بستگی ندارد. تنوع صفت مورد مطالعه به قدرت تأثیر برخی از عوامل تصادفی محاسبه نشده، هم بر عوامل سازمان یافته (ارائه شده توسط محقق) و هم بر روی عوامل تصادفی (ناشناخته) بستگی دارد.

بنابراین، تنوع کل (پراکندگی) از تغییرات ناشی از عوامل سازمان‌یافته (داده‌شده) تشکیل می‌شود که تغییرات فاکتوریل و عوامل سازمان‌یافته نامیده می‌شوند. تغییرات باقیمانده (تصادفی، ناشناخته).

تجزیه و تحلیل واریانس کلاسیک در مراحل زیر انجام می شود:

  1. ساخت مجتمع پراکندگی.
  2. محاسبه میانگین مربعات انحرافات.
  3. محاسبه واریانس
  4. مقایسه واریانس عامل و باقیمانده.
  5. ارزیابی نتایج با استفاده از مقادیر نظری توزیع Fisher-Snedekor (پیوست N 1).

الگوریتم برای انجام آنالیز آنووان با توجه به یک متغیر ساده

الگوریتم برای انجام تجزیه و تحلیل واریانس با استفاده از یک روش ساده به شما امکان می دهد همان نتایج را بدست آورید، اما محاسبات بسیار ساده تر هستند:

صحنه می کنم. ساخت مجتمع پراکندگی

ساخت مجتمع پراکندگی به معنای ساخت جدولی است که در آن عوامل، علامت مؤثر و انتخاب مشاهدات (بیماران) در هر گروه به وضوح مشخص شود.

یک مجموعه یک عاملی از چندین درجه بندی یک عامل (A) تشکیل شده است. درجه بندی ها نمونه هایی از جمعیت های عمومی مختلف (A1، A2، AZ) هستند.

مجتمع دو عاملی - از چندین درجه بندی دو عامل در ترکیب با یکدیگر تشکیل شده است. عوامل اتیولوژیک در بروز پنومونی یکسان است (A1، A2، AZ) در ترکیب با اشکال مختلف سیر بالینی پنومونی (H1 - حاد، H2 - مزمن).

علامت نتیجه (تعداد روزها به طور متوسط) عوامل اتیولوژیک در ایجاد پنومونی
A1 A2 A3
H1 H2 H1 H2 H1 H2
M = 14 روز

مرحله دوم محاسبه میانگین کلی (M obsh)

محاسبه مجموع گزینه ها برای هر درجه بندی عوامل: Σ Vj = V 1 + V 2 + V 3

محاسبه مجموع کل متغیر (Σ V کل) بر روی تمام درجه بندی های ویژگی عامل: Σ V کل = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

محاسبه میانگین گروه (M gr.) علامت عامل: M gr. = Σ Vj / N،
که در آن N مجموع تعداد مشاهدات برای تمام درجه بندی های عامل I است (Σn توسط گروه ها).

مرحله III. محاسبه واریانس:

با توجه به تمام شرایط برای اعمال تحلیل واریانس، فرمول ریاضی به شرح زیر است:

D gen. = D واقعیت + D استراحت.

D gen. - واریانس کل، که با گسترش متغیر (مقادیر مشاهده شده) از میانگین عمومی مشخص می شود.
D واقعیت. - واریانس فاکتوریل (بین گروهی) توزیع میانگین های گروهی را از میانگین عمومی مشخص می کند.
D استراحت. - واریانس باقیمانده (درون گروهی) پراکندگی واریانت را در گروه ها مشخص می کند.

  1. محاسبه واریانس فاکتوریل (D fact.): D واقعیت. = Σh - H
  2. محاسبه h طبق فرمول انجام می شود: h = (Σ Vj) / N
  3. محاسبه H طبق فرمول انجام می شود: H = (Σ V) 2 / N
  4. محاسبه واریانس باقیمانده: D استراحت. = (Σ V) 2 - Σ h
  5. محاسبه واریانس کل: D gen. = (Σ V) 2 - Σ H

مرحله IV محاسبه شاخص اصلی قدرت تأثیر عامل مورد مطالعهشاخص قدرت تأثیر (η 2) یک ویژگی عامل بر نتیجه با سهم واریانس عاملی (واقعیت D) در واریانس کل (D عمومی)، η2 (این) تعیین می شود - نشان می دهد که چه نسبتی تأثیر عامل مورد مطالعه در بین سایر عوامل اشغال می شود و با فرمول تعیین می شود:

مرحله V تعیین پایایی نتایج مطالعه با روش فیشر طبق فرمول انجام می شود:


و - معیار فیشر;
Fst. - مقدار جدولی (به پیوست 1 مراجعه کنید).
σ 2 واقعیت، σ 2 استراحت. - انحرافات فاکتوریل و باقیمانده (از لات. de - از، از طریق - جاده) - انحراف از خط وسط، تعیین شده توسط فرمول:


r تعداد درجه بندی صفت فاکتور است.

مقایسه معیار فیشر (F) با استاندارد (جدولی) F با توجه به درجات آزادی با توجه به ستون های جدول انجام می شود:

v 1 \u003d n - 1
v 2 \u003d N - 1

به صورت افقی، v 1 به صورت عمودی تعیین می شود - v 2، در تقاطع آنها، یک مقدار جدولی F تعیین می شود، که در آن مقدار جدول بالایی p ≥ 0.05، و مقدار پایینی مربوط به p > 0.01 است، و با معیار محاسبه شده F مقایسه می شود. مقدار معیار محاسبه‌شده F برابر یا بزرگ‌تر از معیار جدولی است، پس نتایج قابل اعتماد هستند و H 0 رد نمی‌شود.

وظیفه:

در شرکت N. سطح صدمات افزایش یافت که در رابطه با آن پزشک مطالعه ای در مورد عوامل فردی انجام داد که در میان آنها تجربه کاری کارگران در مغازه ها مورد مطالعه قرار گرفت. نمونه ها در شرکت N. از 4 مغازه با شرایط مشابه و ماهیت کار گرفته شد. میزان آسیب به ازای هر 100 کارمند در سال گذشته محاسبه می شود.

در بررسی عامل سابقه کار، داده های زیر به دست آمد:

بر اساس داده های پژوهش، یک فرضیه صفر (H 0) در مورد تأثیر سابقه کار بر سطح آسیب های کارکنان شرکت A مطرح شد.

ورزش
با استفاده از تحلیل واریانس یک طرفه فرضیه صفر را تأیید یا رد کنید:

  1. تعیین قدرت نفوذ؛
  2. قابلیت اطمینان تأثیر عامل را ارزیابی کنید.

مراحل اعمال تحلیل واریانس
تعیین تأثیر یک عامل (تجربه کاری) بر نتیجه (میزان آسیب)

نتیجه.در مجموعه نمونه مشخص شد که تأثیر سابقه کار بر سطح آسیب 80 درصد در تعداد کل عوامل دیگر است. برای تمامی کارگاه های کارخانه می توان با احتمال 99.7 درصد (13.3 > 8.7) عنوان کرد که سابقه کار بر میزان آسیب ها تأثیر می گذارد.

بنابراین، فرضیه صفر (Н 0) رد نمی شود و تأثیر سابقه کار بر سطح آسیب در کارگاه های کارخانه A اثبات شده تلقی می شود.

مقدار F (آزمون فیشر) استاندارد در p ≥ 0.05 (مقدار بالایی) در p ≥ 0.01 (مقدار پایین تر)

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. ولاسوف V.V. همهگیرشناسی. - M.: GEOTAR-MED، 2004. 464 ص.
  2. Arkhipova G.L.، Lavrova I.G.، Troshina I.M. مقداری روش های مدرنتجزیه و تحلیل آماری در پزشکی - م.: متروسناب، 1350. - 75 ص.
  3. Zaitsev V.M.، Liflyandsky V.G.، Marinkin V.I. آمار پزشکی کاربردی. - سنت پترزبورگ: LLC "FOLIANT Publishing House"، 2003. - 432 p.
  4. پلاتونوف A.E. تجزیه و تحلیل آماری در پزشکی و زیست شناسی: وظایف، اصطلاحات، منطق، روش های کامپیوتری. - M.: انتشارات آکادمی علوم پزشکی روسیه، 2000. - 52 ص.
  5. پلخینسکی N.A. بیومتریک. - انتشارات شعبه سیبری آکادمی علوم اتحاد جماهیر شوروی نووسیبیرسک. - 1961. - 364 ص.

استفاده از آمار در این یادداشت با یک مثال مقطعی نشان داده خواهد شد. فرض کنید شما یک مدیر تولید در Perfect Parachute هستید. چتر نجات از الیاف مصنوعی تولید شده توسط چهار تامین کننده مختلف ساخته می شود. یکی از ویژگی های اصلی چتر نجات، قدرت آن است. باید مطمئن شوید که تمام الیاف عرضه شده دارای استحکام یکسانی هستند. برای پاسخ به این سوال، لازم است آزمایشی طراحی شود که در آن استحکام چترهای بافته شده از الیاف مصنوعی تامین کنندگان مختلف اندازه گیری شود. اطلاعات به دست آمده در طول این آزمایش مشخص می کند که کدام تامین کننده بادوام ترین چتر نجات را ارائه می دهد.

بسیاری از کاربردها مربوط به آزمایشاتی است که در آنها چندین گروه یا سطوح یک عامل در نظر گرفته می شود. برخی از عوامل، مانند دمای پخت سرامیک، ممکن است سطوح عددی متعددی داشته باشند (یعنی 300 درجه، 350 درجه، 400 درجه و 450 درجه). عوامل دیگر، مانند مکان کالا در یک سوپرمارکت، ممکن است دارای سطوح طبقه بندی شوند (به عنوان مثال، تامین کننده اول، تامین کننده دوم، تامین کننده سوم، تامین کننده چهارم). آزمایش‌های تک عاملی که در آن واحدهای آزمایشی به‌طور تصادفی به گروه‌ها یا سطوح عاملی تخصیص داده می‌شوند، کاملاً تصادفی نامیده می‌شوند.

استفادهاف- معیارهایی برای ارزیابی تفاوت بین چندین انتظار ریاضی

اگر اندازه‌گیری‌های عددی یک عامل در گروه‌ها پیوسته باشد و برخی شرایط اضافی برآورده شود، آنالیز واریانس (ANOVA - یکتجزیه و تحلیل o f وارینس). آنالیز واریانس با استفاده از طرح های کاملا تصادفی، ANOVA یک طرفه نامیده می شود. به یک معنا، اصطلاح تحلیل واریانس گمراه کننده است زیرا تفاوت بین مقادیر میانگین گروه ها را مقایسه می کند، نه بین واریانس ها. با این حال، مقایسه انتظارات ریاضی دقیقاً بر اساس تجزیه و تحلیل تغییرات داده ها انجام می شود. در روش ANOVA، کل تغییرات نتایج اندازه گیری به دو گروهی و درون گروهی تقسیم می شود (شکل 1). تغییرات درون گروهی با خطای تجربی توضیح داده می شود، در حالی که تنوع بین گروهی با اثرات شرایط تجربی توضیح داده می شود. نماد باتعداد گروه ها را نشان می دهد.

برنج. 1. جداسازی تغییرات در یک آزمایش کاملاً تصادفی

دانلود یادداشت در قالب یا فرمت، نمونه ها در قالب

بیایید وانمود کنیم که باگروه ها از جمعیت های مستقلی که دارای توزیع نرمال و واریانس یکسان هستند، گرفته می شوند. فرضیه صفر این است که انتظارات ریاضی جمعیت ها یکسان است: H 0: μ 1 = μ 2 = ... = μ s. فرضیه جایگزین بیان می کند که همه انتظارات ریاضی یکسان نیستند: H 1: همه μ j یکسان نیستند j= 1، 2، ...، s).

روی انجیر شکل 2 فرضیه صفر واقعی را در مورد انتظارات ریاضی پنج گروه مقایسه شده ارائه می دهد، مشروط بر اینکه جمعیت های عمومی دارای توزیع نرمال و واریانس یکسان باشند. پنج جمعیت مرتبط با سطوح مختلفعوامل یکسان هستند بنابراین، آنها با داشتن انتظارات ریاضی، تنوع و شکل یکسان بر روی یکدیگر قرار می گیرند.

برنج. 2. پنج جمعیت انتظارات ریاضی یکسانی دارند: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

از طرف دیگر، فرض کنید که در واقع فرضیه صفر نادرست است و سطح چهارم بیشترین انتظار ریاضی را دارد، سطح اول کمی انتظار ریاضی کمتری دارد و سطوح باقیمانده انتظارات ریاضی یکسان و حتی کوچکتر دارند (شکل 10). 3). توجه داشته باشید که به استثنای مقدار میانگین، هر پنج جمعیت یکسان هستند (یعنی تنوع و شکل یکسانی دارند).

برنج. 3. تأثیر شرایط آزمایشی مشاهده می شود: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

هنگام آزمایش فرضیه برابری انتظارات ریاضی چند جمعیت عمومی، تغییرات کل به دو بخش تقسیم می‌شود: تنوع بین گروهی، به دلیل تفاوت بین گروه‌ها، و تنوع درون گروهی، به دلیل تفاوت بین عناصر متعلق به یک گروه. تنوع کل به عنوان مجموع مجموع مربع ها بیان می شود (SST - مجموع مجذورات کل). از آنجایی که فرض صفر این است که انتظار همه باگروه ها با یکدیگر برابر هستند، تغییرات کل برابر است با مجموع مجذور اختلاف بین مشاهدات فردی و میانگین کل (میانگین میانگین ها) محاسبه شده برای همه نمونه ها. تنوع کامل:

جایی که - میانگین کلی، Xij - من-e watch in j-گروه یا سطح، n j- تعداد مشاهدات در j-گروه، n- تعداد کل مشاهدات در همه گروه ها (به عنوان مثال n = n 1 + n 2 + … + n c), با- تعداد گروه ها یا سطوح مورد مطالعه.

تنوع بین گروهیکه معمولاً مجموع مربعات بین گروه ها (SSA) نامیده می شود، برابر است با مجموع مجذور اختلافات بین میانگین نمونه هر گروه. jو میانگین کلی ضرب در حجم گروه مربوطه n j:

جایی که با- تعداد گروه ها یا سطوح مورد مطالعه، n j- تعداد مشاهدات در j-گروه، j- ارزش متوسط j-گروه، - میانگین عمومی

تنوع درون گروهیکه معمولاً مجموع مربع های درون گروه ها (SSW) نامیده می شود، برابر است با مجموع مجذور اختلاف بین عناصر هر گروه و میانگین نمونه این گروه. j:

جایی که ایکسij - منعنصر -ام j-گروه، j- ارزش متوسط j-گروه

چون با هم مقایسه می شوند باسطوح عاملی، مجموع مربعات بین گروهی دارد s - 1درجه آزادی. هر کدام از باسطوح دارد n j – 1 درجه آزادی، بنابراین مجموع مربعات درون گروهی دارد n- بادرجات آزادی و

علاوه بر این، مجموع مجموع مربع ها دارد n – 1 درجات آزادی، از هر مشاهده ایکسijدر مقایسه با میانگین کلی محاسبه شده در همه nمشاهدات اگر هر یک از این مجموع بر تعداد درجات آزادی مربوطه تقسیم شود، سه نوع پراکندگی به وجود می آید: بین گروهی(میانگین مربع در میان - MSA)، درون گروهی(میانگین مربع درون - MSW) و کامل(میانگین مجذور کل - MST):

علیرغم اینکه هدف اصلی از تحلیل واریانس مقایسه انتظارات ریاضی است باگروه ها برای آشکارسازی اثر شرایط آزمایشی، نام آن به این دلیل است که ابزار اصلی آنالیز واریانس است. نوع مختلف. اگر فرضیه صفر درست باشد و بین مقادیر مورد انتظار باگروه ها تفاوت معنی داری ندارند، هر سه واریانس - MSA، MSW و MST - تخمین واریانس هستند. σ2ذاتی در داده های تحلیل شده بنابراین برای آزمون فرضیه صفر H 0: μ 1 = μ 2 = ... = μ sو فرضیه جایگزین H 1: همه μ j یکسان نیستند j = 1, 2, …, با، محاسبه آمار ضروری است اف-معیار، که نسبت دو واریانس MSA و MSW است. تست اف-آمار در تحلیل واریانس تک متغیره

آمار اف- معیارها رعایت می شود اف- توزیع با s - 1درجات آزادی در شمارشگر MSAو ن - بادرجات آزادی در مخرج MSW. برای سطح معناداری معین α، فرضیه صفر در صورت محاسبه رد می شود اف افUذاتی اف- توزیع با s - 1 ن - بادرجات آزادی در مخرج بنابراین، همانطور که در شکل نشان داده شده است. 4، قانون تصمیم گیری به صورت زیر فرموله می شود: فرضیه صفر H 0رد شد اگر F > FU; در غیر این صورت رد نمی شود.

برنج. 4. منطقه بحرانی تجزیه و تحلیل واریانس هنگام آزمایش یک فرضیه H 0

اگر فرضیه صفر H 0درست است، محاسبه شده است اف- آمار نزدیک به 1 است، زیرا صورت و مخرج آن تخمین هایی از یک مقدار هستند - واریانس σ 2 ذاتی در داده های تجزیه و تحلیل شده. اگر فرضیه صفر H 0نادرست است (و بین مقادیر انتظاری گروه های مختلف تفاوت معناداری وجود دارد)، محاسبه می شود اف-آمار بسیار بزرگتر از یک خواهد بود، زیرا کسر آن، MSA، علاوه بر تغییرپذیری طبیعی داده‌ها، تأثیر شرایط آزمایشی یا تفاوت بین گروه‌ها را تخمین می‌زند، در حالی که مخرج MSW تنها تغییرپذیری طبیعی داده‌ها را تخمین می‌زند. بنابراین، روش ANOVA است افآزمونی است که در آن، در سطح معناداری معین α، فرضیه صفر رد می شود اگر اف- آمار بیشتر از مقدار بحرانی بالایی است افUذاتی اف- توزیع با s - 1درجات آزادی در صورتگر و ن - بادرجات آزادی در مخرج، همانطور که در شکل نشان داده شده است. چهار

برای نشان دادن آنالیز واریانس یک طرفه، اجازه دهید به سناریویی که در ابتدای یادداشت ذکر شد بازگردیم. هدف از این آزمایش تعیین این است که آیا چترهای بافته شده از الیاف مصنوعی به دست آمده از تامین کنندگان مختلف دارای استحکام یکسانی هستند یا خیر. هر گروه پنج چتر بافته دارد. گروه ها بر اساس تامین کننده تقسیم می شوند - تامین کننده 1، تامین کننده 2، تامین کننده 3 و تامین کننده 4. استحکام چتر نجات ها با استفاده از دستگاه خاصی اندازه گیری می شود که پارچه را برای پارگی در هر دو طرف آزمایش می کند. نیروی لازم برای شکستن چتر نجات در مقیاس خاصی اندازه گیری می شود. هر چه نیروی شکست بیشتر باشد، چتر نجات قوی تر است. اکسل امکان تجزیه و تحلیل را فراهم می کند اف-آمار با یک کلیک از طریق منو بروید داده هاتحلیل داده هاو خط را انتخاب کنید تحلیل واریانس یک طرفه، پنجره باز شده را پر کنید (شکل 5). نتایج آزمایش (قدرت شکاف)، برخی از آمارهای توصیفی و نتایج تحلیل واریانس یک طرفه در شکل‌های 1 نشان داده شده است. 6.

برنج. 5. پنجره بسته آنالیز ANOVA یک طرفهبرتری داشتن

برنج. شکل 6. شاخص های مقاومت چترهای بافته شده از الیاف مصنوعی به دست آمده از تامین کنندگان مختلف، آمار توصیفی و نتایج تحلیل واریانس یک طرفه

تجزیه و تحلیل شکل 6 نشان می دهد که تفاوتی بین میانگین نمونه وجود دارد. میانگین استحکام الیاف به دست آمده از تامین کننده اول 19.52، ​​از دوم - 24.26، از سوم - 22.84 و از چهارم - 21.16 است. آیا این تفاوت از نظر آماری معنادار است؟ توزیع نیروی گسیختگی در نمودار پراکندگی نشان داده شده است (شکل 7). این به وضوح تفاوت بین گروه ها و درون آنها را نشان می دهد. اگر حجم هر گروه بزرگ‌تر بود، می‌توان آن‌ها را با استفاده از نمودار ساقه و برگ، نمودار جعبه یا نمودار توزیع نرمال تجزیه و تحلیل کرد.

برنج. 7. نمودار گسترش مقاومت چترهای بافته شده از الیاف مصنوعی به دست آمده از چهار تامین کننده

فرضیه صفر بیان می کند که تفاوت معنی داری بین مقادیر میانگین مقاومت وجود ندارد: H 0: μ 1 = μ 2 = μ 3 = μ 4. یک فرضیه جایگزین این است که حداقل یک تامین کننده وجود دارد که میانگین استحکام الیافش با دیگران متفاوت است: H 1: همه μ j یکسان نیستند ( j = 1, 2, …, با).

میانگین کلی (شکل 6 را ببینید) = AVERAGE(D12:D15) = 21.945; برای تعیین، همچنین می توانید میانگین تمام 20 عدد اصلی: \u003d میانگین (A3: D7). مقادیر واریانس محاسبه می شود بسته تحلیلیو در جدول منعکس شده اند تحلیل واریانس(شکل 6 را ببینید): SSA = 63.286، SSW = 97.504، SST = 160.790 (به ستون مراجعه کنید اس اسجداول تحلیل واریانسشکل 6). میانگین ها با تقسیم این مجموع مربع ها بر تعداد مناسب درجه آزادی محاسبه می شوند. از آنجا که با= 4 و n= 20، مقادیر زیر را از درجه آزادی بدست می آوریم. برای SSA: s - 1= 3; برای SSW: n–c= 16; برای SST: n - 1= 19 (به ستون مراجعه کنید df). بنابراین: MSA = SSA / ( ج - 1)= 21.095; MSW=SSW/( n–c) = 6.094; MST = SST / ( n - 1) = 8.463 (به ستون مراجعه کنید ام‌اس). اف-statistics = MSA / MSW = 3.462 (به ستون مراجعه کنید اف).

ارزش بحرانی بالاتر افU، مشخصه برای اف- توزیع، با فرمول = F. OBR (0.95; 3; 16) = 3.239 تعیین می شود. پارامترهای تابع =F.OBR(): α = 0.05، صورتگر سه درجه آزادی دارد و مخرج آن 16 است. بنابراین، محاسبه شده اف-آمار برابر با 3.462 از مقدار بحرانی بالایی فراتر می رود افU= 3.239، فرضیه صفر رد می شود (شکل 8).

برنج. 8. منطقه بحرانی تحلیل واریانس در سطح معنی داری 0.05 در صورتی که صورت دارای سه درجه آزادی و مخرج آن 16- باشد.

آر- ارزش، یعنی این احتمال وجود دارد که تحت یک فرضیه صفر واقعی اف- آمار کمتر از 3.46، برابر با 0.041 یا 4.1٪ (به ستون مراجعه کنید مقدار pجداول تحلیل واریانسشکل 6). از آنجایی که این مقدار از سطح معناداری α = 5% تجاوز نمی کند، فرضیه صفر رد می شود. علاوه بر این، آر-value نشان می دهد که احتمال یافتن چنین یا تفاوت زیادی بین انتظارات ریاضی جمعیت های عمومی، به شرطی که در واقع یکسان باشند، 4.1٪ است.

بنابراین. بین چهار میانگین نمونه تفاوت وجود دارد. فرضیه صفر این بود که تمام انتظارات ریاضی چهار جمعیت برابر است. تحت این شرایط، معیاری از تغییرپذیری کل (یعنی تغییرات کل SST) قدرت همه چتر نجات ها با جمع مجذور اختلاف بین هر مشاهده محاسبه می شود. Xijو میانگین کلی . سپس کل تغییرات به دو جزء تقسیم شد (شکل 1 را ببینید). مؤلفه اول تنوع بین گروهی در SSA و مؤلفه دوم تنوع درون گروهی در SSW بود.

چه چیزی تنوع در داده ها را توضیح می دهد؟ به عبارت دیگر، چرا همه مشاهدات یکسان نیستند؟ یکی از دلایل این است که شرکت های مختلف الیاف را با قدرت های متفاوت عرضه می کنند. این تا حدی توضیح می‌دهد که چرا گروه‌ها مقادیر مورد انتظار متفاوتی دارند: هرچه تأثیر شرایط آزمایشی قوی‌تر باشد، تفاوت بین مقادیر میانگین گروه‌ها بیشتر است. یکی دیگر از دلایل تغییرپذیری داده ها، تغییرپذیری طبیعی هر فرآیند، در این مورد تولید چتر نجات است. حتی اگر همه الیاف از یک تامین کننده خریداری شده باشند، استحکام آنها یکسان نخواهد بود، زیرا همه چیزهای دیگر برابر هستند. از آنجایی که این اثر در هر یک از گروه ها ظاهر می شود، به آن تنوع درون گروهی می گویند.

تفاوت بین میانگین های نمونه را تغییر بین گروهی SSA می نامند. بخشی از تغییرات درون گروهی، همانطور که قبلا ذکر شد، با این واقعیت توضیح داده می شود که داده ها به گروه های مختلف تعلق دارند. با این حال، حتی اگر گروه ها دقیقاً یکسان باشند (یعنی فرضیه صفر درست باشد)، باز هم تنوع بین گروهی وجود خواهد داشت. دلیل این امر در تنوع طبیعی فرآیند ساخت چتر نجات نهفته است. از آنجایی که نمونه ها متفاوت هستند، میانگین نمونه آنها با یکدیگر متفاوت است. بنابراین، اگر فرضیه صفر درست باشد، هر دو متغیر بین گروهی و درون گروهی تخمینی از تنوع جمعیت هستند. اگر فرضیه صفر نادرست باشد، فرضیه بین گروهی بزرگتر خواهد بود. این واقعیت است که زیربنای آن است اف-معیارهای مقایسه تفاوت بین انتظارات ریاضی چند گروه.

پس از انجام آنالیز واریانس یک طرفه و یافتن تفاوت معنی‌دار بین شرکت‌ها، ناشناخته باقی می‌ماند که کدام یک از تامین‌کنندگان تفاوت معنی‌داری با بقیه دارند. ما فقط می دانیم که انتظارات ریاضی جمعیت ها برابر نیست. به عبارت دیگر، حداقل یکی از انتظارات ریاضی تفاوت قابل توجهی با بقیه دارد. برای تعیین اینکه کدام ارائه دهنده با سایرین متفاوت است، می توانید استفاده کنید روش توکی، که از مقایسه زوجی بین ارائه دهندگان استفاده می کند. این روش توسط جان توکی توسعه داده شد. متعاقبا، او و C. Cramer به طور مستقل این روش را برای موقعیت هایی که در آن اندازه نمونه با یکدیگر متفاوت است، اصلاح کردند.

مقایسه چندگانه: روش توکی-کرامر

در سناریوی ما، از آنالیز واریانس یک طرفه برای مقایسه قدرت چتر نجات استفاده شد. پس از یافتن تفاوت معنادار بین انتظارات ریاضی چهار گروه، لازم است مشخص شود که کدام گروه ها با یکدیگر متفاوت هستند. اگرچه راه های مختلفی برای حل این مشکل وجود دارد، اما ما فقط روش مقایسه چندگانه Tukey-Kramer را شرح می دهیم. این روش نمونه ای از روش های مقایسه تعقیبی است، زیرا فرضیه مورد آزمایش پس از تجزیه و تحلیل داده ها فرموله می شود. روش Tukey-Kramer به شما اجازه می دهد تا به طور همزمان همه جفت گروه ها را مقایسه کنید. در مرحله اول، تفاوت ها محاسبه می شود ایکسj - ایکسj، جایی که j ≠j، بین انتظارات ریاضی s(s - 1)/2گروه ها. گستره بحرانیروش Tukey-Kramer با فرمول محاسبه می شود:

جایی که Q U- مقدار بحرانی بالای توزیع محدوده دانشجویی که دارد بادرجات آزادی در صورتگر و n - بادرجات آزادی در مخرج

اگر اندازه های نمونه یکسان نباشد، محدوده بحرانی برای هر جفت انتظارات ریاضی به طور جداگانه محاسبه می شود. در آخرین مرحله، هر کدام s(s - 1)/2جفت انتظارات ریاضی با محدوده بحرانی مربوطه مقایسه می شود. عناصر یک جفت به طور قابل توجهی متفاوت در نظر گرفته می شوند اگر مدول اختلاف | Xj - ایکسj| بین آنها از محدوده بحرانی فراتر می رود.

اجازه دهید روش Tukey-Cramer را برای مشکل قدرت چتر نجات اعمال کنیم. از آنجایی که شرکت چتر نجات دارای چهار تامین کننده است، 4(4 - 1)/2 = 6 جفت تامین کننده باید آزمایش شوند (شکل 9).

برنج. 9. مقایسه دو به دو میانگین نمونه

از آنجایی که همه گروه ها حجم یکسانی دارند (یعنی همه n j = n j، کافی است فقط یک محدوده بحرانی محاسبه شود. برای انجام این کار، طبق جدول ANOVA(شکل 6) مقدار MSW = 6.094 را تعیین می کنیم. سپس مقدار را پیدا می کنیم Q Uدر α = 0.05، با= 4 (تعداد درجات آزادی در صورت حساب) و n- با= 20 – 4 = 16 (تعداد درجات آزادی در مخرج). متأسفانه، تابع مربوطه را در اکسل پیدا نکردم، بنابراین از جدول (شکل 10) استفاده کردم.

برنج. 10. ارزش بحرانی محدوده دانشجویی Q U

ما گرفتیم:

از آنجایی که فقط 4.74 > 4.47 (به جدول پایین در شکل 9 مراجعه کنید)، تفاوت آماری معنی داری بین تامین کننده اول و دوم وجود دارد. همه جفت های دیگر دارای میانگین های نمونه هستند که به ما اجازه نمی دهد در مورد تفاوت آنها صحبت کنیم. در نتیجه، میانگین استحکام چترهای بافته شده از الیاف خریداری شده از تامین کننده اول به طور قابل توجهی کمتر از دومی است.

شرایط لازم برای تحلیل واریانس یک طرفه

هنگام حل مشکل قدرت چتر نجات، بررسی نکردیم که آیا شرایطی وجود دارد که تحت آن می توان از یک عامل استفاده کرد یا خیر. اف-معیار چگونه متوجه می شوید که می توانید تک عاملی را اعمال کنید اف-معیار در تجزیه و تحلیل داده های تجربی خاص؟ تک عاملی افآزمون - فقط در صورتی قابل اعمال است که سه فرض اساسی برآورده شود: داده های تجربی باید تصادفی و مستقل باشند، توزیع نرمال داشته باشند و واریانس آنها باید یکسان باشد.

اولین حدس این است تصادفی بودن و استقلال داده- همیشه باید انجام شود، زیرا صحت هر آزمایش بستگی به تصادفی بودن انتخاب و / یا فرآیند تصادفی سازی دارد. برای جلوگیری از تحریف نتایج، لازم است داده ها از آن استخراج شوند باجمعیت ها به صورت تصادفی و مستقل از یکدیگر. به طور مشابه، داده ها باید به طور تصادفی روی آنها توزیع شوند باسطوح عامل مورد علاقه ما (گروه های آزمایشی). نقض این شرایط می تواند به طور جدی نتایج تحلیل واریانس را مخدوش کند.

حدس دوم این است عادی بودن- به این معنی است که داده ها از جمعیت های معمولی توزیع شده است. با توجه به تی-معیار، تحلیل واریانس یک طرفه بر اساس اف-معیار نسبتاً غیر حساس به نقض این شرط است. اگر توزیع خیلی از نرمال فاصله نداشته باشد، سطح معنی داری است اف-معیار کمی تغییر می کند، به خصوص اگر حجم نمونه به اندازه کافی بزرگ باشد. اگر شرط توزیع نرمال به طور جدی نقض شود، باید اعمال شود.

حدس سوم این است یکنواختی پراکندگی- به این معنی است که واریانس های هر جمعیت عمومی با یکدیگر برابر است (یعنی σ 1 2 = σ 2 2 = ... = σ j 2). این فرض به فرد اجازه می‌دهد تا تصمیم بگیرد که آیا واریانس‌های درون گروهی را جدا یا ادغام کند. اگر حجم گروه ها یکسان باشد، شرط همگنی واریانس تأثیر کمی بر نتایج به دست آمده با استفاده از اف-شاخص. با این حال، اگر حجم نمونه یکسان نباشد، نقض شرط برابری واریانس ها می تواند نتایج تحلیل واریانس را به طور جدی مخدوش کند. بنابراین، باید تلاش کرد تا اطمینان حاصل شود که حجم نمونه یکسان است. یکی از روش های بررسی فرض همگن بودن واریانس، معیار است لونیدر زیر شرح داده شده است.

اگر از هر سه شرط، فقط یکنواختی شرایط پراکندگی نقض شود، روشی مشابه با تی-معیار با استفاده از واریانس جداگانه (به جزئیات مراجعه کنید). با این حال، اگر مفروضات توزیع نرمال و همگنی واریانس به طور همزمان نقض شود، لازم است داده ها نرمال سازی شده و اختلاف بین واریانس ها کاهش یابد یا یک روش ناپارامتریک اعمال شود.

معیار لونی برای بررسی همگنی واریانس

با اينكه اف- این معیار در برابر نقض شرط برابری واریانس ها در گروه ها نسبتاً مقاوم است، نقض فاحش این فرض به طور قابل توجهی بر سطح اهمیت و قدرت معیار تأثیر می گذارد. شاید یکی از قدرتمندترین معیارها باشد لونی. برای بررسی برابری واریانس ها باجمعیت های عمومی، فرضیه های زیر را آزمایش می کنیم:

H 0: σ 1 2 = σ 2 2 = ... = σj 2

H 1: نه همه σ j 2همان هستند ( j = 1, 2, …, با)

آزمون لونی اصلاح شده مبتنی بر این ادعا است که اگر تغییرپذیری در گروه ها یکسان باشد، می توان از تحلیل واریانس مقادیر مطلق تفاوت بین مشاهدات و میانه های گروه برای آزمون فرضیه صفر برابری واریانس ها استفاده کرد. بنابراین، ابتدا باید مقادیر مطلق تفاوت بین مشاهدات و میانه ها را در هر گروه محاسبه کنید و سپس یک آنالیز واریانس یک طرفه را بر روی مقادیر مطلق به دست آمده از تفاوت ها انجام دهید. برای نشان دادن معیار لونی، اجازه دهید به سناریویی که در ابتدای یادداشت ذکر شد بازگردیم. با استفاده از داده های ارائه شده در شکل. 6، ما یک تحلیل مشابه را انجام خواهیم داد، اما با توجه به ماژول های تفاوت در داده های اولیه و میانه ها برای هر نمونه به طور جداگانه (شکل 11).

تحلیل واریانس برای چه مواردی استفاده می شود؟ هدف از تحلیل واریانس بررسی وجود یا عدم وجود تأثیر معنادار هر عامل کمی یا کیفی بر تغییرات صفت مؤثر مورد مطالعه است. برای انجام این کار، عاملی که احتمالاً تأثیر قابل توجهی دارد یا ندارد، به کلاس های درجه بندی (به عبارت دیگر گروه ها) تقسیم می شود و با بررسی اهمیت بین میانگین ها مشخص می شود که آیا تأثیر عامل یکسان است یا خیر. مجموعه داده های مربوط به درجه بندی فاکتور. مثال ها: وابستگی سود شرکت به نوع مواد خام مورد استفاده بررسی می شود (سپس کلاس های درجه بندی انواع مواد اولیه هستند)، وابستگی هزینه خروجی یک واحد تولید به اندازه بخش شرکت ( سپس کلاس های درجه بندی ویژگی های اندازه واحد هستند: بزرگ، متوسط، کوچک).

حداقل تعداد کلاس های درجه بندی (گروه) دو کلاس می باشد. کلاس های درجه بندی می تواند کیفی یا کمی باشد.

چرا به آنالیز واریانس آنالیز پراکندگی می گویند؟ تحلیل واریانس نسبت دو واریانس را بررسی می کند. پراکندگی، همانطور که می دانیم، معیاری برای پراکندگی داده ها در اطراف میانگین است. اولین مورد، واریانسی است که با تأثیر عامل توضیح داده می شود، که مشخص کننده گسترش مقادیر بین درجه بندی عامل (گروه ها) حول میانگین همه داده ها است. دومی واریانس غیرقابل توضیح است که پراکندگی داده ها را در درجه بندی ها (گروه ها) حول مقادیر متوسط ​​خود گروه ها مشخص می کند. پراکندگی اول را می توان بین گروهی و دومی را درون گروهی نامید. نسبت این واریانس ها را نسبت فیشر واقعی می نامند و با مقدار بحرانی نسبت فیشر مقایسه می شود. اگر نسبت فیشر واقعی بیشتر از نسبت بحرانی باشد، میانگین کلاس های درجه بندی با یکدیگر متفاوت است و عامل مورد مطالعه به طور قابل توجهی بر تغییر داده ها تأثیر می گذارد. اگر کمتر باشد، میانگین کلاس‌های درجه‌بندی تفاوتی با یکدیگر ندارند و عامل تأثیر قابل‌توجهی ندارد.

فرضیه ها چگونه در تحلیل واریانس فرمول بندی، پذیرفته و رد می شوند؟ در تحلیل واریانس تعیین کنید وزن مخصوصاثر ترکیبی یک یا چند عامل اهمیت تأثیر عامل با آزمون فرضیه ها تعیین می شود:

  • اچ0 : μ 1 = μ 2 = ... = μ آ، جایی که آ- تعداد کلاس های درجه بندی - همه کلاس های درجه بندی یک مقدار متوسط ​​دارند،
  • اچ1 : نه همه μ منبرابر هستند - همه کلاس های درجه بندی دارای مقدار میانگین یکسان نیستند.

اگر تأثیر یک عامل معنی دار نباشد، تفاوت بین کلاس های درجه بندی این عامل نیز ناچیز است و در جریان تحلیل واریانس، فرضیه صفر است. اچ0 رد نمی شود. اگر تأثیر عامل معنی دار باشد، فرضیه صفر است اچ0 رد شد: همه کلاس های درجه بندی دارای میانگین یکسان نیستند، یعنی در بین تفاوت های احتمالی بین کلاس های درجه بندی، یک یا چند کلاس قابل توجه است.

چند مفهوم دیگر از تحلیل واریانس یک مجموعه آماری در تجزیه و تحلیل پراکندگی جدولی از داده های تجربی است. اگر در تمام کلاس های درجه بندی همان تعدادگزینه ها، سپس مجموعه آماری همگن (همگن) نامیده می شود، اگر تعداد گزینه ها متفاوت باشد - ناهمگن (ناهمگن).

بسته به تعداد عوامل برآورد شده، تحلیل واریانس تک عاملی، دو عاملی و چند عاملی متمایز می شود.

تجزیه و تحلیل واریانس یک طرفه: ماهیت روش، فرمول ها، مثال ها

ماهیت روش، فرمول ها

بر اساس این واقعیت است که مجموع انحرافات مجذور مجموعه آماری را می توان به اجزای تقسیم کرد:

اس اس = اس اسیک + اس اسه,

اس اس

اس اسآ آمجموع انحرافات مجذور،

اس اسهمجموع مجذور انحرافات غیر قابل توضیح یا مجموع انحرافات مجذور خطا است.

اگر از طریق nمنتعداد گزینه ها در هر کلاس درجه بندی (گروه) را نشان می دهد و آ - تعداد کلدرجه بندی عامل (گروه ها)، سپس - تعداد کل مشاهدات و می توانید فرمول های زیر را دریافت کنید:

تعداد کل انحرافات مربع: ,

با تأثیر عامل توضیح داده می شود آمجموع انحرافات مجذور: ,

مجموع مجذور انحرافات غیر قابل توضیح یا مجذور انحرافات خطا: ,

- میانگین کل مشاهدات،

(گروهی).

بعلاوه،

پراکندگی درجه بندی عامل (گروه) کجاست.

برای انجام یک تحلیل واریانس یک طرفه بر روی داده های یک مجموعه آماری، باید نسبت فیشر واقعی را پیدا کنید - نسبت واریانس توضیح داده شده با تأثیر عامل (بین گروهی) و واریانس غیرقابل توضیح (درون گروه):

و آن را با ارزش بحرانی فیشر مقایسه کنید.

واریانس ها به صورت زیر محاسبه می شوند:

واریانس توضیح داد،

واریانس غیر قابل توضیح،

va = آ − 1 تعداد درجات آزادی پراکندگی توضیح داده شده است،

ve= nآ تعداد درجات آزادی پراکندگی غیرقابل توضیح است،

v = n

مقدار بحرانی نسبت فیشر با مقادیر معینی از سطح معنی‌داری و درجات آزادی را می‌توان در جداول آماری یافت یا با استفاده از تابع MS Excel F.OBR محاسبه کرد (شکل زیر، برای بزرگ‌نمایی، روی آن کلیک کنید. دکمه سمت چپ ماوس).


تابع از شما می خواهد که داده های زیر را وارد کنید:

احتمال - سطح معنی داری α ,

degrees_of_freedom1 - تعداد درجات آزادی واریانس توضیح داده شده vآ,

درجه_آزادی2 - تعداد درجات آزادی واریانس غیرقابل توضیح vه.

اگر مقدار واقعی نسبت فیشر بیشتر از مقدار بحرانی () باشد، فرضیه صفر با سطح معناداری رد می شود. α . این بدان معنی است که این عامل به طور قابل توجهی بر تغییر داده ها تأثیر می گذارد و داده ها به عامل با احتمال وابسته هستند. پ = 1 − α .

اگر مقدار واقعی نسبت فیشر کمتر از بحرانی () باشد، نمی توان فرضیه صفر را با سطح معنی داری رد کرد. α . این بدان معنی است که این عامل به طور قابل توجهی بر داده ها با احتمال تأثیر نمی گذارد پ = 1 − α .

ANOVA یک طرفه: مثال

مثال 1باید مشخص شود که آیا نوع مواد خام مورد استفاده بر سود شرکت تأثیر می گذارد یا خیر. در شش کلاس درجه بندی (گروه) فاکتور (نوع 1، نوع 2 و غیره)، داده هایی در مورد سود حاصل از تولید 1000 واحد محصول در میلیون ها روبل در طی 4 سال جمع آوری شد.

نوع ماده اولیه2014 2015 2016 2017
17,21 7,55 7,29 7,6
27,89 8,27 7,39 8,18
37,25 7,01 7,37 7,53
47,75 7,41 7,27 7,42
57,7 8,28 8,55 8,6
67,56 8,05 8,07 7,84
میانگین
پراکندگی
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

آ= 6 و در هر کلاس (گروه) nمن = 4مشاهدات تعداد کل مشاهدات n = 24 .

تعداد درجات آزادی:

va = آ − 1 = 6 − 1 = 5 ,

ve= nآ = 24 − 6 = 18 ,

v = n − 1 = 24 − 1 = 23 .

بیایید واریانس ها را محاسبه کنیم:

.

.

از آنجایی که نسبت فیشر واقعی بیشتر از نسبت بحرانی است:

با سطح معنی داری α = 0.05 نتیجه می گیریم که سود شرکت بسته به نوع مواد اولیه مورد استفاده در تولید، به طور قابل توجهی متفاوت است.

یا همان که فرضیه اصلی در مورد برابری میانگین ها در همه طبقات درجه بندی عاملی (گروه ها) را رد می کنیم.

در مثالی که اکنون در نظر گرفته شد، هر کلاس درجه بندی فاکتور تعداد گزینه های یکسانی داشت. اما، همانطور که در قسمت مقدماتی ذکر شد، تعداد گزینه ها می تواند متفاوت باشد. و این به هیچ وجه روند تحلیل واریانس را پیچیده نمی کند. این مثال بعدی است.

مثال 2باید مشخص شود که آیا هزینه واحد خروجی به اندازه واحد سازمانی وابستگی دارد یا خیر. فاکتور (مقدار زیربخش) به سه کلاس درجه بندی (گروه) تقسیم می شود: کوچک، متوسط، بزرگ. داده های مربوط به این گروه ها در مورد هزینه خروجی یک واحد از همان نوع محصول برای یک دوره معین خلاصه می شود.

کم اهمیتوسطبزرگ
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
میانگین58,6 54,0 51,0
پراکندگی128,25 65,00 107,60

تعداد کلاس های درجه بندی عاملی (گروه ها) آ= 3، تعداد مشاهدات در کلاس ها (گروه ها) n1 = 4 , n2 = 7 , n3 = 6 . تعداد کل مشاهدات n = 17 .

تعداد درجات آزادی:

va = آ − 1 = 2 ,

ve= nآ = 17 − 3 = 14 ,

v = n − 1 = 16 .

بیایید مجموع انحرافات مجذور را محاسبه کنیم:

بیایید واریانس ها را محاسبه کنیم:

,

.

بیایید نسبت فیشر واقعی را محاسبه کنیم:

.

مقدار بحرانی نسبت فیشر:

از آنجایی که مقدار واقعی نسبت فیشر کمتر از مقدار بحرانی است: نتیجه می‌گیریم که اندازه واحد سازمانی تأثیر قابل‌توجهی بر هزینه تولید ندارد.

یا همان چیزی است که با احتمال 95 درصد فرضیه اصلی را می پذیریم که میانگین هزینه تولید یک واحد از همان محصول در بخش های کوچک، متوسط ​​و بزرگ بنگاه تفاوت معنی داری ندارد.

ANOVA یک طرفه در MS Excel

تجزیه و تحلیل واریانس یک طرفه را می توان با استفاده از روش MS Excel انجام داد تحلیل واریانس یک طرفه. ما از آن برای تجزیه و تحلیل داده های مربوط به رابطه بین نوع مواد خام مورد استفاده و سود شرکت از مثال 1 استفاده می کنیم.

خدمات / تجزیه و تحلیل داده هاو یک ابزار تحلیل انتخاب کنید تحلیل واریانس یک طرفه.

در پنجره فاصله ورودیناحیه داده را مشخص کنید (در مورد ما $A$2:$E$7 است). ما نشان می دهیم که چگونه فاکتور گروه بندی می شود - توسط ستون یا ردیف (در مورد ما، با ردیف). اگر ستون اول شامل نام کلاس های فاکتور است، کادر را علامت بزنید برچسب ها در ستون اول. در پنجره آلفاسطح معنی داری را نشان می دهد α = 0,05 .

جدول دوم - تجزیه و تحلیل واریانس - حاوی داده هایی در مورد مقادیر فاکتور بین گروه ها و درون گروه ها و کل است. اینها مجموع انحرافات مجذور (SS)، تعداد درجات آزادی (df) و پراکندگی (MS) هستند. در سه ستون آخر - مقدار واقعی نسبت فیشر (F)، سطح p (P-value) و مقدار بحرانی نسبت فیشر (F crit).

ام‌اس اف مقدار p Fcrit
0,58585 6,891119 0,000936 2,77285
0,085017

از آنجایی که مقدار واقعی نسبت فیشر (6.89) از مقدار بحرانی (2.77) بیشتر است، با احتمال 95٪ فرضیه صفر در مورد برابری میانگین بهره وری در هنگام استفاده از انواع مواد خام را رد می کنیم، یعنی ما نتیجه گیری کنید که نوع مواد خام مورد استفاده بر شرکت های سودآور تأثیر می گذارد.

تجزیه و تحلیل واریانس دو طرفه بدون تکرار: ماهیت روش، فرمول ها، مثال

تحلیل واریانس دو طرفه برای بررسی وابستگی احتمالی ویژگی مؤثر به دو عامل استفاده می شود - آو ب. سپس آ- تعداد درجه بندی فاکتور آو ب- تعداد درجه بندی فاکتور ب. در مجموعه آماری مجموع مربعات باقیمانده ها به سه جزء تقسیم می شود:

اس اس = اس اسیک + اس اس b + اس اسه,

مجموع مجذور انحرافات است،

- با تأثیر عامل توضیح داده شده است آمجموع انحرافات مجذور،

- با تأثیر عامل توضیح داده شده است بمجموع انحرافات مجذور،

- میانگین کل مشاهدات،

میانگین مشاهدات در هر درجه بندی عامل آ ,

ب .

آ ,

پراکندگی با تأثیر عامل توضیح داده می شود ب ,

va = آ − 1 آ ,

vb= ب − 1 - تعداد درجات آزادی پراکندگی که با تأثیر عامل توضیح داده می شود ب ,

ve = ( آ − 1)(ب − 1)

v = ab− 1 - تعداد کل درجات آزادی.

اگر عوامل مستقل از یکدیگر باشند، دو فرضیه صفر و فرضیه های جایگزین متناظر برای تعیین اهمیت عوامل مطرح می شود:

برای عامل آ :

اچ0 : μ 1A= μ 2A = ... = μ aA,

اچ1 : نه همه μ iAبرابر هستند؛

برای عامل ب :

اچ0 : μ 1B= μ 2B=...= μ aB,

اچ1 : نه همه μ iBبرابر هستند.

آ

برای تعیین تأثیر یک عامل ب، باید نسبت فیشر واقعی را با نسبت فیشر بحرانی مقایسه کنیم.

α پ = 1 − α .

α پ = 1 − α .

تحلیل واریانس دو طرفه بدون تکرار: یک مثال

مثال 3اطلاعاتی در مورد میانگین مصرف سوخت در هر 100 کیلومتر بر حسب لیتر، بسته به حجم موتور و نوع سوخت داده شده است.

باید بررسی شود که آیا مصرف سوخت به اندازه موتور و نوع سوخت بستگی دارد یا خیر.

تصمیم. برای عامل آتعداد کلاس های درجه بندی آ= 3، برای فاکتور بتعداد کلاس های درجه بندی ب = 3 .

ما مجموع انحرافات مجذور را محاسبه می کنیم:

,

,

,

.

واریانس های مرتبط:

,

,

.

آ . از آنجایی که نسبت فیشر واقعی کمتر از حد بحرانی است، با احتمال 95٪ این فرضیه را می پذیریم که اندازه موتور بر مصرف سوخت تأثیر نمی گذارد. با این حال، اگر سطح معناداری را انتخاب کنیم α = 0.1، سپس مقدار واقعی نسبت فیشر و سپس با احتمال 95% می توانیم بپذیریم که اندازه موتور بر مصرف سوخت تأثیر می گذارد.

نسبت فیشر واقعی برای یک عامل ب ، مقدار بحرانی نسبت فیشر: . از آنجایی که نسبت فیشر واقعی بیشتر از مقدار بحرانی نسبت فیشر است، با احتمال 95 درصد فرض می کنیم که نوع سوخت بر مصرف آن تأثیر می گذارد.

تجزیه و تحلیل واریانس دو طرفه بدون تکرار در MS Excel

تجزیه و تحلیل واریانس دو طرفه بدون تکرار را می توان با استفاده از روش MS Excel انجام داد. ما از آن برای تجزیه و تحلیل داده های مربوط به رابطه بین نوع سوخت و مصرف آن از مثال 3 استفاده می کنیم.

در منوی MS Excel، دستور را اجرا کنید خدمات / تجزیه و تحلیل داده هاو یک ابزار تحلیل انتخاب کنید تحلیل واریانس دو طرفه بدون تکرار.

ما داده ها را به همان روشی که در مورد ANOVA یک طرفه پر می کنیم.


در نتیجه این روش، دو جدول نمایش داده می شود. جدول اول Totals است. این شامل داده هایی در مورد تمام کلاس های درجه بندی عامل است: تعداد مشاهدات، مقدار کل، مقدار میانگین و واریانس.

جدول دوم - تجزیه و تحلیل واریانس - حاوی داده هایی در مورد منابع تغییرات است: پراکندگی بین ردیف ها، پراکندگی بین ستون ها، پراکندگی خطا، پراکندگی کل، مجموع انحرافات مجذور (SS)، تعداد درجات آزادی (df)، واریانس (MS) ). در سه ستون آخر - مقدار واقعی نسبت فیشر (F)، سطح p (P-value) و مقدار بحرانی نسبت فیشر (F crit).

ام‌اس اف مقدار p Fcrit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

عامل آ(اندازه موتور) در ردیف ها گروه بندی می شود. از آنجایی که نسبت فیشر واقعی 5.28 کمتر از 6.94 بحرانی است، با احتمال 95٪ فرض می کنیم که مصرف سوخت به اندازه موتور بستگی ندارد.

عامل ب(نوع سوخت) در ستون ها گروه بندی می شود. نسبت فیشر واقعی 13.56 بیشتر از نسبت بحرانی 6.94 است، بنابراین، با احتمال 95٪، فرض می کنیم که مصرف سوخت به نوع آن بستگی دارد.

تجزیه و تحلیل واریانس دو طرفه با تکرار: ماهیت روش، فرمول ها، مثال

تجزیه و تحلیل واریانس دو طرفه با تکرار برای بررسی نه تنها وابستگی احتمالی ویژگی مؤثر به دو عامل استفاده می شود - آو ب، بلکه تعامل احتمالی عوامل آو ب. سپس آ- تعداد درجه بندی فاکتور آو ب- تعداد درجه بندی فاکتور ب, r- تعداد تکرار در مجموعه آماری مجموع مجذور باقیمانده ها به چهار جزء تقسیم می شود:

اس اس = اس اسیک + اس اس b + اس اس ab + اس اسه,

مجموع مجذور انحرافات است،

- با تأثیر عامل توضیح داده شده است آمجموع انحرافات مجذور،

- با تأثیر عامل توضیح داده شده است بمجموع انحرافات مجذور،

- با تأثیر متقابل عوامل توضیح داده شده است آو بمجموع انحرافات مجذور،

- مجموع مجذور انحرافات غیر قابل توضیح یا مجذور انحرافات خطا،

- میانگین کل مشاهدات،

- میانگین مشاهدات در هر درجه بندی عامل آ ,

- میانگین تعداد مشاهدات در هر درجه بندی عامل ب ,

میانگین تعداد مشاهدات در هر ترکیبی از درجه بندی عوامل آو ب ,

n = Abrتعداد کل مشاهدات است.

واریانس ها به صورت زیر محاسبه می شوند:

پراکندگی با تأثیر عامل توضیح داده می شود آ ,

پراکندگی با تأثیر عامل توضیح داده می شود ب ,

- پراکندگی که با تعامل عوامل توضیح داده می شود آو ب ,

- واریانس غیر قابل توضیح یا واریانس خطا،

va = آ − 1 - تعداد درجات آزادی پراکندگی که با تأثیر عامل توضیح داده می شود آ ,

vb= ب − 1 - تعداد درجات آزادی پراکندگی که با تأثیر عامل توضیح داده می شود ب ,

vab = ( آ − 1)(ب − 1) - تعداد درجات آزادی پراکندگی که با اثر متقابل عوامل توضیح داده می شود آو ب ,

ve= ab(r − 1) تعداد درجات آزادی واریانس غیر قابل توضیح یا خطا است،

v = Abr− 1 - تعداد کل درجات آزادی.

اگر عوامل مستقل از یکدیگر باشند، سه فرضیه صفر و فرضیه های جایگزین متناظر برای تعیین اهمیت عوامل مطرح می شود:

برای عامل آ :

اچ0 : μ 1A= μ 2A = ... = μ aA,

اچ1 : نه همه μ iAبرابر هستند؛

برای عامل ب :

برای تعیین تأثیر متقابل عوامل آو ب، باید نسبت فیشر واقعی را با نسبت فیشر بحرانی مقایسه کنیم.

اگر نسبت فیشر واقعی بزرگتر از نسبت فیشر بحرانی باشد، فرضیه صفر باید با سطح معناداری رد شود. α . این بدان معنی است که این عامل به طور قابل توجهی بر داده ها تأثیر می گذارد: داده ها به عامل با احتمال بستگی دارد پ = 1 − α .

اگر نسبت فیشر واقعی کمتر از نسبت فیشر بحرانی باشد، فرضیه صفر باید با سطح معنی داری پذیرفته شود. α . این بدان معنی است که این عامل به طور قابل توجهی بر داده ها با احتمال تأثیر نمی گذارد پ = 1 − α .

تجزیه و تحلیل واریانس دو طرفه با تکرار: یک مثال

در مورد تأثیر متقابل عوامل آو ب: نسبت فیشر واقعی کمتر از بحرانی است، بنابراین تعامل بین کمپین تبلیغاتی و فروشگاه خاص معنی‌دار نیست.

تجزیه و تحلیل واریانس دو طرفه با تکرار در MS Excel

تجزیه و تحلیل واریانس دو طرفه با تکرار را می توان با استفاده از روش MS Excel انجام داد. ما از آن برای تجزیه و تحلیل داده‌های مربوط به رابطه بین درآمد فروشگاه و انتخاب یک فروشگاه خاص و کمپین تبلیغاتی از مثال 4 استفاده می‌کنیم.

در منوی MS Excel، دستور را اجرا کنید خدمات / تجزیه و تحلیل داده هاو یک ابزار تحلیل انتخاب کنید تحلیل واریانس دو طرفه با تکرار.

داده ها را به همان روشی که در مورد ANOVA دو طرفه بدون تکرار وجود دارد پر می کنیم، با اضافه شدن این که در تعداد ردیف های جعبه نمونه، باید تعداد تکرارها را وارد کنید.

در نتیجه این روش، دو جدول نمایش داده می شود. جدول اول از سه بخش تشکیل شده است: دو قسمت اول مربوط به هر یک از دو کمپین تبلیغاتی است، جدول سوم حاوی داده های مربوط به هر دو کمپین تبلیغاتی است. ستون های جدول حاوی اطلاعاتی در مورد تمام کلاس های درجه بندی عامل دوم - ذخیره: تعداد مشاهدات، مقدار کل، مقدار میانگین و واریانس است.

در جدول دوم - داده های مجموع انحرافات مجذور (SS)، تعداد درجات آزادی (df)، پراکندگی (MS)، مقدار واقعی نسبت فیشر (F)، سطح p (P-value) و مقدار بحرانی نسبت فیشر (F crit) برای منابع مختلف تغییرات: دو عامل در ردیف‌ها (نمونه) و ستون‌ها، برهمکنش‌های عامل، خطاها (داخل) و کل (کل).

ام‌اس اف مقدار p Fcrit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

برای عامل بنسبت فیشر واقعی بیشتر از نسبت بحرانی است، بنابراین، با احتمال 95٪، درآمدها بین فروشگاه ها به طور قابل توجهی متفاوت است.

برای تعامل عوامل آو بنسبت واقعی فیشر کمتر از بحرانی است، بنابراین، با احتمال 95٪، تعامل بین کمپین تبلیغاتی و یک فروشگاه خاص قابل توجه نیست.

همه چیز درباره "آمار ریاضی"