분산 분석으로 해결할 수 있는 질문은 무엇입니까? 교과 과정: 분산 분석. 인플루엔자는 히스타민 생산을 증가시킵니다.

분산 분석에서 추출한 두 샘플에 대한 두 평균을 비교하는 절차를 일반화할 수 있는 개념 및 기술 시스템입니다. 인구표본 수가 많은 경우 정규 분포를 따릅니다.

서비스 할당. 이 온라인 계산기로 다음을 수행할 수 있습니다.

  • 단방향 분산 분석을 수행합니다.
  • 질문에 답하십시오 - 실험의 평균값이 일치하는지 여부;
  • 선택한 유의 수준에서 그룹 평균의 동등성에 대한 귀무 가설 H 0을 확인하거나 반박합니다.

지침. 차원 수(행 수) q, 요인 p의 수준 수를 지정하고 다음을 클릭합니다. 결과 솔루션은 Word 파일에 저장됩니다. 이 절차는 일반적으로 다중 회귀 방정식을 작성하기 위한 중요한 요인을 선택하는 데 사용됩니다.

예. 신뢰성 시험을 위한 철도 운송의 제품은 p단계의 작동 시간 Tj, j=1,..., p에서 q번, i=1,...q로 작동됩니다. 각 테스트에서 실패 횟수 n ij가 계산됩니다. 유의 수준 α = 0.05에서 제품 작동 시간이 고장 횟수에 미치는 영향을 q=4, p=4에서 일원 분산 분석 방법으로 조사합니다. 테스트 결과 n ij는 표에 나와 있습니다.
해결책.
일원 분산 분석 절차. 그룹 평균 찾기:

N피 1피 2P 34면
1 145 210 195 155
2 140 200 190 150
3 150 190 240 180
4 190 195 210 175
엑스156.25 198.75 208.75 165

p - 요인의 수준 수(p=4)를 나타냅니다. 각 수준에서 측정 횟수는 동일하며 q=4와 같습니다.


(1)



R 합계 = ∑∑(x ij -x) (2)

R f \u003d q (x ij -x)


R 나머지 \u003d R 합계-R f












f obl > f cr이면 요인이 상당한 영향을 미치므로 고려해야 하며, 그렇지 않으면 무시할 수 있는 미미한 영향을 미칩니다.

(4)


N피 2 1피 2 2피 2 3피 2 4
1 21025 44100 38025 24025
2 19600 40000 36100 22500
3 22500 36100 57600 32400
4 36100 38025 44100 30625
99225 158225 175825 109550



Rtot = 99225 + 158225 + 175825 + 109550 - 44 182.19 2 = 11748.44
공식 (5)에 따라 R f를 찾습니다.
R f \u003d 4 (156.25 2 + 198.75 2 + 208.75 2 + 165 2)-4 182.19 2 \u003d 7792.19
우리는 R 나머지를 얻습니다. R 나머지 \u003d R 합계-R f \u003d 11748.44-7792.19 \u003d 3956.25
계승 및 잔차 분산을 결정합니다.



요인 분산의 추정치가 잔차 분산의 추정치보다 크므로 동등하다는 귀무 가설이 참이 아니라고 즉시 주장할 수 있습니다. 수학적 기대치샘플 레이어별.
즉, 이 예에서 요인 Ф는 확률 변수에 상당한 영향을 미칩니다.

f obl 찾기

유의 수준 α=0.05, 자유도 3 및 12의 경우 Fisher-Snedekor 분포표에서 f cr을 찾습니다.
f cr(0.05; 3; 12) = 3.49
f obl > f cr이라는 사실 때문에 우리는 요인이 실험 결과에 미치는 중요한 영향에 대한 귀무 가설을 받아들입니다.

예 #2. 1학년 학생들을 대상으로 여가 시간을 할애하는 활동을 파악하기 위해 설문 조사를 실시했습니다. 학생들의 언어적 선호도와 비언어적 선호도의 분포가 다른지 확인합니다.
그룹 평균 찾기:

N피 1피 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
엑스15.6 17
p - 요인의 수준 수(p=2)를 나타냅니다. 각 수준에서 측정 횟수는 동일하며 q=5와 같습니다.
마지막 행에는 요인의 각 수준에 대한 그룹 평균이 포함됩니다.
전체 평균은 그룹 평균의 산술 평균으로 얻을 수 있습니다.
(1)
전체 평균에 대한 실패율의 그룹 평균의 확산은 고려 요인 수준과 무작위 요인의 변화 모두에 의해 영향을 받습니다.
이 요인의 영향을 고려하기 위해 전체 표본 분산은 두 부분으로 나뉘는데, 첫 번째 부분은 계승 S 2 f라고 하고 두 번째 부분은 잔차 S 2 나머지라고 합니다.
이러한 구성 요소를 고려하기 위해 총 평균에서 변형의 제곱 편차의 총합이 먼저 계산됩니다.
R 합계 \u003d ∑ ∑ (x ij -x)
그리고 이 요인의 영향을 특징짓는 전체 평균에서 그룹 평균의 제곱 편차의 요인 합계:
R f \u003d q∑ (x ij -x)
마지막 식은 Rtot 식의 각 변형을 주어진 요인에 대한 그룹 평균으로 대체하여 얻습니다.
편차 제곱의 잔차 합은 다음과 같이 구합니다.
R 나머지 \u003d R 합계-R f
전체 표본 분산을 결정하려면 Rtotal을 측정 횟수 pq로 나누어야 합니다.

편향되지 않은 총 표본 분산을 얻으려면 이 식에 pq/(pq-1)을 곱해야 합니다.

따라서 편향되지 않은 요인 표본 분산의 경우:

여기서 p-1은 편향되지 않은 계승 표본 분산의 자유도입니다.
고려 중인 매개변수의 변화에 ​​대한 요인의 영향을 평가하기 위해 값이 계산됩니다.

두 표본 분산 S 2 f 및 S 2 rem의 비율은 Fisher-Snedekor 법칙에 따라 분포되므로 결과 값 f obs는 분포 함수의 값과 비교됩니다.

임계점 f cr에서 선택한 유의 수준 a에 해당합니다.
f obl > f cr이면 요인이 상당한 영향을 미치므로 고려해야 하며, 그렇지 않으면 무시할 수 있는 미미한 영향을 미칩니다.
다음 공식을 사용하여 Robs 및 Rf를 계산할 수도 있습니다.
R 합계 \u003d x ij ²-x ², (4)
R f \u003d q∑x j²-x², (5)
공식 (1)로 전체 평균을 찾습니다.
공식 (4)를 사용하여 Rtot를 계산하기 위해 2제곱 옵션 테이블을 컴파일합니다.
N피 2 1피 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

전체 평균은 공식 (1)로 계산됩니다.

Rtot = 1322 + 1613 - 5 2 16.3 2 = 278.1
공식 (5)에 따라 R f를 찾습니다.
R f \u003d 5 (15.6 2 + 17 2)-2 16.3 2 \u003d 4.9
우리는 R 나머지를 얻습니다. R 나머지 \u003d R 합계-R f \u003d 278.1-4.9 \u003d 273.2
계승 및 잔차 분산을 결정합니다.


개별 샘플에 대해 계산된 무작위 변수의 평균값이 동일한 경우 계승 및 잔차 분산의 추정치는 일반 분산의 편향되지 않은 추정치이며 크게 다릅니다.
그런 다음 피셔 기준에 따라 이러한 분산의 추정치를 비교하면 계승 분산과 잔차 분산의 동일성에 대한 귀무 가설을 기각할 이유가 없음을 보여야 합니다.
요인 분산의 추정치가 잔차 분산의 추정치보다 작으므로 샘플 계층에 대한 수학적 기대치가 동일하다는 귀무 가설의 유효성을 즉시 주장할 수 있습니다.
즉, 이 예에서 요인 Ф는 확률 변수에 큰 영향을 미치지 않습니다.
귀무가설 H 0: x의 평균값이 같은지 확인해 봅시다.
f obl 찾기

유의 수준 α=0.05, 자유도 1 및 8의 경우 Fisher-Snedekor 분포표에서 f cr을 찾습니다.
f cr(0.05; 1; 8) = 5.32
f obs라는 사실 때문에< f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
즉, 학생들의 언어적 및 비언어적 선호의 분포가 다릅니다.

운동. 이 공장에는 외장 타일 생산을 위한 4개의 라인이 있습니다. 이동하는 동안 각 라인에서 10개의 타일을 무작위로 선택하여 두께(mm)를 측정했습니다. 공칭 크기와의 편차는 표에 나와 있습니다. 생산 라인에 대한 고품질 타일 생산의 의존성을 설정하려면 유의 수준 a = 0.05에서 필요합니다(요인 A).

운동. 유의 수준 a = 0.05에서 코팅의 수명에 대한 페인트 색상의 영향을 조사합니다.

예 #1. 13개의 테스트가 수행되었으며, 그 중 4개는 요인의 첫 번째 수준에, 4개는 두 번째 수준에, 3개는 세 번째 수준에, 2개는 네 번째 수준에 있었습니다. 유의 수준 0.05에서 분산 분석 방법을 사용하여 그룹 평균의 동일성에 대한 귀무 가설을 확인합니다. 표본은 분산이 동일한 정규 모집단에서 추출되었다고 가정합니다. 테스트 결과는 표에 나와 있습니다.

해결책:
그룹 평균 찾기:

N피 1피 2P 34면
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
엑스1.4 1.43 1.33 1.32
p - 요인의 수준 수(p=4)를 나타냅니다. 각 수준의 측정 수는 4,4,3,2입니다.
마지막 행에는 요인의 각 수준에 대한 그룹 평균이 포함됩니다.
전체 평균은 다음 공식으로 계산됩니다.

공식 (4)를 사용하여 Stotal을 계산하기 위해 2제곱 옵션 테이블을 컴파일합니다.
N피 2 1피 2 2피 2 3피 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49
제곱 편차의 총합은 다음 공식으로 구합니다.

다음 공식으로 S f를 찾습니다.


우리는 S 나머지를 얻습니다 : S 나머지 \u003d S 총계-S f \u003d 0.0293-0.0263 \u003d 0.003
요인 분산을 결정합니다.

잔차 분산:

개별 샘플에 대해 계산된 무작위 변수의 평균값이 동일한 경우 계승 및 잔차 분산의 추정치는 일반 분산의 편향되지 않은 추정치이며 크게 다릅니다.
그런 다음 피셔 기준에 따라 이러한 분산의 추정치를 비교하면 계승 분산과 잔차 분산의 동일성에 대한 귀무 가설을 기각할 이유가 없음을 보여야 합니다.
요인 분산의 추정치가 잔차 분산의 추정치보다 크므로 샘플 레이어에 대한 수학적 기대치가 동일하다는 귀무 가설이 사실이 아니라고 즉시 주장할 수 있습니다.
즉, 이 예에서 요인 Ф는 확률 변수에 상당한 영향을 미칩니다.
귀무가설 H 0: x의 평균값이 같은지 확인해 봅시다.
f obl 찾기

유의 수준 α=0.05, 자유도 3 및 12의 경우 Fisher-Snedekor 분포표에서 f cr을 찾습니다.
f cr(0.05; 3; 12) = 3.49
fobs > fcr이라는 사실로 인해 요인이 실험 결과에 미치는 유의미한 영향에 대한 귀무가설을 수락합니다(그룹 평균의 동일성에 대한 귀무가설을 기각함). 즉, 그룹의 의미는 전체적으로 크게 다릅니다.

예 #2. 학교에는 5개의 6학년이 있습니다. 심리학자는 학급에서 상황 불안의 평균 수준이 동일한지 여부를 결정해야 합니다. 이를 위해 표에 나와 있습니다. 유의수준 α=0.05, 학급 내 평균 상황불안이 다르지 않다는 가정을 확인한다.

예 #3. X의 값을 연구하기 위해 요인 F의 5개 수준에서 각각 4개의 테스트를 수행했습니다. 테스트 결과는 표에 나와 있습니다. X 값에 대한 요인 F의 영향이 중요한지 알아보십시오. α = 0.05로 가정합니다. 표본은 분산이 동일한 정규 모집단에서 추출되었다고 가정합니다.

예 #4. 각각 10명씩 세 그룹의 학생이 교육 실험에 참여했다고 가정합니다. 그룹에서 다른 교육 방법이 사용되었습니다. 첫 번째 - 전통적 (F 1), 두 번째 - 컴퓨터 기술 기반 (F 2), 세 번째 - 작업을 널리 사용하는 방법 독립적 인 일(F3). 지식은 10점 시스템으로 평가되었습니다.
얻어진 시험자료를 처리하여 교수법의 영향이 유의한지 α=0.05를 유의수준으로 하여 결론을 내리는 것이 필요하다.
시험 결과는 표에 나와 있습니다. F j - 요인의 수준 x ij - 방법에 따른 학생의 i 번째 학생 평가 F j .

1 2 3 4 5 6 7 8 9 10
요인 F j의 수준 F1 7 5 6 4 6 7 8 6 5 7
F2 9 8 10 8 7 10 10 9 7 6
F3 6 7 6 6 9 5 7 8 7 8

예제 번호 5. 작물의 경쟁적 품종 테스트 결과가 표시됩니다(c.d. ha 단위 수율). 각 품종은 4개의 플롯에서 테스트되었습니다. 품종이 수확량에 미치는 영향을 연구하기 위해 분산 분석 방법을 사용합니다. 요인의 영향의 중요성(전체 변동에서 그룹 간 변동의 비율)과 실험 결과의 중요성을 0.05의 유의 수준으로 설정합니다.
다양한 테스트 플롯의 수율

다양성 반복에 대한 생산성 c. 하에서
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6

5.1. 분산 분석이란 무엇입니까?

분산 분석은 1920년대 영국의 수학자이자 유전학자인 Ronald Fisher에 의해 개발되었습니다. 20세기의 생물학에 가장 큰 영향을 미친 과학자들을 대상으로 한 설문 조사에 따르면 챔피언십에서 우승한 사람은 피셔 경이었습니다. 이런 점에서 피셔는 19세기 생물학에 가장 큰 영향을 미친 찰스 다윈과 견줄 만하다.

분산 분석(분산 분석)은 이제 개별 산업통계. 피셔가 발견한 사실에 근거하여 연구 중인 양의 가변성 측정은 이 양과 무작위 편차에 영향을 미치는 요인에 해당하는 부분으로 분해될 수 있습니다.

분산 분석의 본질을 이해하기 위해 동일한 유형의 계산을 두 번 수행합니다. "수동"(계산기 사용) 및 사용 통계 프로그램. 작업을 단순화하기 위해 녹색 개구리의 다양성에 대한 실제 설명의 결과로 작업하지 않고 인간의 여성과 남성을 비교하는 가상의 예를 사용합니다.성인 12명(여성 7명, 남성 5명)의 키 다양성을 고려하십시오.

표 5.1.1. 일원 분산 분석 예: 12명의 성별 및 키 데이터

일원 분산 분석을 수행해 보겠습니다. 키 측면에서 특성화된 그룹에서 남성과 여성이 통계적으로 유의하게 다른지 여부를 비교해 봅시다.

5.2. 정규 분포 테스트

추가 추론은 고려된 표본의 분포가 정규이거나 정규에 가깝다는 사실에 근거합니다. 분포가 정규와 거리가 먼 경우 분산(분산)은 분산의 적절한 척도가 아닙니다. 그러나 분산 분석은 분포의 정규성 편차에 상대적으로 저항력이 있습니다.

이 데이터는 두 가지 방법으로 정규성을 테스트할 수 있습니다. 다른 방법들. 첫째: 통계/기초통계/표/기술통계/정규성 탭. 탭에서정상성 사용할 정규 분포 테스트를 선택할 수 있습니다. 빈도표 버튼을 클릭하면 빈도표가 나타나고 히스토그램 버튼 - 히스토그램이 나타납니다. 표와 막대 그래프는 다양한 테스트 결과를 보여줍니다.

두 번째 방법은 히스토그램을 구성할 때 적절한 가능성을 사용하는 것과 관련이 있습니다. 히스토그램 구성 대화 상자(Grafs / Histograms...)에서 고급 탭을 선택합니다. 하단에는 통계 블록이 있습니다. 참고 사항 Shapiro-Wilk티 그림과 같이 est 및 Kolmogorov-Smirnov 테스트입니다.

쌀. 5.2.1. 히스토그램 구성 대화 상자의 정규 분포에 대한 통계 테스트

히스토그램에서 볼 수 있듯이 샘플의 성장 분포는 정상 분포와 다릅니다(중간 - "실패").


쌀. 5.2.2. 이전 그림에 지정된 매개변수로 플로팅된 히스토그램

그래프 제목의 세 번째 줄은 관찰된 분포에 가장 가까운 정규 분포의 모수를 나타냅니다. 일반 평균은 173이고 일반 표준 편차는 10.4입니다. 그래프 하단의 삽입은 정규성 테스트 결과를 보여줍니다. D는 Kolmogorov-Smirnov 테스트이고 SW-W는 Shapiro-Wilk 테스트입니다. 보시다시피, 사용된 모든 테스트에서 정규 분포와 성장 분포의 차이는 통계적으로 유의하지 않은 것으로 나타났습니다( 모든 경우에 0.05보다 큼).

따라서 공식적으로 말하자면 정규 분포에 대한 적합성에 대한 테스트는 정규 분포. 이미 언급했듯이 분산 분석은 정규성 편차에 상대적으로 저항력이 있으므로 여전히 사용합니다.

5.3. 일원 분산 분석: 수동 계산

위의 예에서 사람들의 키 변동성을 특성화하기 위해 제곱 편차의 합을 계산합니다(영어로는 다음과 같이 표시됨). 봄 여름 시즌 , 제곱합 또는 ) 평균의 개별 값: . 위 예에서 키의 평균 값은 173cm입니다. 이를 바탕으로,

봄 여름 시즌 = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

봄 여름 시즌 = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

봄 여름 시즌 = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

결과 값(1192)은 전체 데이터 세트의 가변성을 측정한 것입니다. 그러나 두 그룹으로 구성되며 각 그룹에 자체 평균을 할당할 수 있습니다. 주어진 데이터에서 여성의 평균 키는 168cm이고 남성은 180cm입니다.

여성에 대한 제곱 편차의 합을 계산합니다.

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

또한 남성에 대한 제곱 편차의 합도 계산합니다.

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

연구 대상 값은 분산 분석의 논리에 따라 무엇에 의존합니까?

두 개의 계산된 수량, SS f 그리고 SS m , 분산 분석에서 일반적으로 "오류"라고 하는 그룹 내 분산을 특성화합니다. 이 이름의 유래는 다음과 같은 논리로 연결됩니다.

이 예에서 사람의 키를 결정하는 것은 무엇입니까? 우선, 성별에 관계없이 일반적인 사람들의 평균 키에서. 둘째, 바닥에서. 한 성(남성)의 사람들이 다른 성(여성)보다 키가 더 크다면, 이것은 어떤 값의 "보편적" 평균에 더해지는 것, 즉 성의 영향으로 표현될 수 있습니다. 마지막으로, 같은 성별의 사람들은 개인차로 인해 키가 다릅니다. 키를 인간 평균과 성별 조정의 합으로 설명하는 모델 내에서 개인차는 설명할 수 없으며 "실수"로 볼 수 있습니다.

따라서 분산 분석 논리에 따라 연구 대상 값은 다음과 같이 결정됩니다. , 어디 xij - 연구된 요소의 j번째 값에서 연구된 양의 i번째 값; - 일반 평균; Fj - 연구된 요인의 j번째 값의 영향 - "오류", 값이 참조하는 대상 개체의 기여도xij .

그룹 간 제곱합

그래서, 봄 여름 시즌 실수 = SS f + SS m = 212 + 560 = 772. 이 값으로 그룹 내 가변성을 설명했습니다(그룹을 성별로 구분할 때). 그러나 가변성의 두 번째 부분인 그룹 간(intergroup)도 있습니다.SS 효과 (고려 중인 개체 집합을 여성과 남성으로 나누는 효과에 대해 이야기하고 있기 때문입니다).

각 그룹의 평균은 전체 평균과 다릅니다. 전체 변동성 측정에 대한 이 차이의 기여도를 계산할 때 그룹과 총 평균 간의 차이에 각 그룹의 개체 수를 곱해야 합니다.

SS 효과 = = 7x(168-173) 2 + 5x(180-173) 2 = 7x52 + 5x72 = 7x25 + 5x49 = 175 + 245 = 420.

여기에서 Fisher가 발견한 제곱합의 불변성 원리가 나타났습니다. SS = SS 효과 + SS 오류 , 즉. 이 예에서는 1192 = 440 + 722입니다.

중간 사각형

우리의 예에서 그룹 간 및 그룹 내 제곱합을 비교하면 첫 번째는 두 그룹의 변동과 관련이 있고 두 번째는 두 그룹의 12 값과 관련되어 있음을 알 수 있습니다. 자유도 수( df ) 일부 매개변수의 경우 그룹의 개체 수와 이러한 값을 연결하는 종속성(방정식) 수 간의 차이로 정의할 수 있습니다.

우리의 예에서 df 효과 = 2–1 = 1, ㅏ df 오류 = 12–2 = 10.

제곱합을 자유도 수로 나누어 평균 제곱( 석사 , 제곱의 의미). 이 작업을 수행하면 다음을 설정할 수 있습니다. 석사 - 분산에 지나지 않습니다("분산", 제곱합을 자유도로 나눈 결과). 이 발견 후 ANOVA 테이블의 구조를 이해할 수 있습니다. 이 예에서는 다음과 같이 표시됩니다.

효과

오류

MS 효과 그리고 MS 오류 그룹 간 및 그룹 내 분산의 추정치이므로 기준에 따라 비교할 수 있습니다.에프 (Fischer의 이름을 딴 Snedecor의 기준), 변형을 비교하도록 설계되었습니다. 이 기준은 단순히 더 큰 분산을 더 작은 분산으로 나눈 몫입니다. 우리의 경우 이것은 420 / 77.2 = 5.440입니다.

표에 따른 Fisher 테스트의 통계적 유의성 결정

효과의 통계적 유의성을 수동으로 결정하려면 테이블을 사용하여 얻은 기준 값을 비교해야 합니다. 에프 중요한 대응 특정 수준주어진 자유도에 대한 통계적 유의성.


쌀. 5.3.1. 기준의 임계 값이 있는 테이블 조각 에프

보시다시피 통계적 유의 수준 p=0.05의 경우 기준의 임계값에프 4.96입니다. 이것은 우리의 예에서 연구된 성별의 효과가 0.05의 통계적 유의 수준으로 기록되었음을 의미합니다.

얻은 결과는 다음과 같이 해석할 수 있습니다. 여성과 남성의 평균 키가 같고 키의 등록된 차이가 표본 구성의 무작위성 때문이라는 귀무 가설의 확률은 5% 미만입니다. 이것은 우리가 여성과 남성의 평균키가 다르다는 대립가설을 선택해야 한다는 것을 의미합니다.

5.4. 단방향 분산 분석( Statistica 패키지의 ANOVA)

수동으로 계산하지 않고 적절한 프로그램(예: Statistica 패키지)을 사용하여 계산하는 경우 값 자동으로 결정됩니다. 임계치보다 다소 높은 것을 알 수 있다.

분산 분석의 가장 간단한 버전을 사용하여 논의 중인 예제를 분석하려면 해당 데이터가 있는 파일에 대해 통계/ANOVA 절차를 실행하고 유형에서 일원 분산 분석 옵션(일원 분산 분석)을 선택해야 합니다. 분석 창 및 사양 방법 창의 빠른 사양 대화 상자 옵션.


쌀. 5.4.1. 대화 일반 ANOVA/MANOVA(ANOVA)

열리는 빠른 대화 상자 창의 변수 필드에서 가변성을 연구하는 데이터가 포함된 열(종속 변수 목록, 이 경우 성장 열)과 값이 포함된 열을 지정해야 합니다. 연구 중인 값을 그룹으로 나눕니다(범주형 예측 변수(요인), 이 경우에는 Sex 열). 이 버전의 분석에서는 다변량 분석과 달리 하나의 요인만 고려할 수 있습니다.


쌀. 5.4.2. 단방향 ANOVA 대화 상자(단방향 분산 분석)

요인 코드 창에서 이 분석 중에 처리해야 하는 고려 중인 요인 값을 지정해야 합니다. 사용 가능한 모든 값은 줌 버튼을 사용하여 볼 수 있습니다. 이 예에서와 같이 모든 요인 값을 고려해야 하는 경우(이 예에서는 성별의 경우 두 개만 있는 경우) 모두 버튼을 클릭할 수 있습니다. 처리 열과 요인 코드가 설정되면 확인 버튼을 클릭하고 빠른 탭에서 ANOVA 결과 1 결과에 대한 빠른 분석 창으로 이동할 수 있습니다.

쌀. 5.4.3. ANOVA 결과 창의 빠른 탭

모든 효과/그래프 버튼을 사용하면 두 그룹의 평균을 비교하는 방법을 볼 수 있습니다. 그래프 위에는 고려 중인 요소에 대한 F 및 p 값뿐만 아니라 자유도가 표시됩니다.


쌀. 5.4.4. 분산 분석 결과의 그래픽 표시

모든 효과 버튼을 사용하면 위에서 설명한 것과 유사한 ANOVA 테이블을 얻을 수 있습니다(일부 중요한 차이점 있음).


쌀. 5.4.5. 분산 분석 결과 표("수동"으로 얻은 유사한 표와 비교)

표의 맨 아래 줄에는 제곱합, 자유도 수 및 오차의 평균 제곱(그룹 내 변동성)이 표시됩니다. 위 줄에서 - 연구된 요소(이 경우 성별 기호)와 기준에 대한 유사한 지표 에프 (오차의 평균 제곱에 대한 효과의 평균 제곱의 비율) 및 통계적 유의 수준. 고려 중인 요인의 효과가 통계적으로 유의미한 것으로 판명되었다는 사실은 빨간색 강조 표시로 표시됩니다.

첫 번째 줄에는 "Intercept" 표시기에 대한 데이터가 표시됩니다. 이것 테이블 행은 6번째 또는 이후 버전에서 Statistica 패키지에 가입하는 사용자에게 수수께끼입니다. Intercept 값은 아마도 모든 데이터 값의 제곱합의 확장과 관련이 있습니다(즉, 1862 + 1692 … = 360340). 그것에 대해 표시된 기준 F의 값은 나누어서 얻습니다. MS 가로채기/MS 오류 = 353220 / 77.2 = 4575.389이며 자연스럽게 매우 낮은 값을 제공합니다. . 흥미롭게도 Statistica-5에서는 이 값이 전혀 계산되지 않았으며 패키지의 이후 버전을 사용하기 위한 설명서에는 어떤 식으로든 도입에 대해 설명하지 않습니다. 아마도 Statistica-6 이후의 생물학자가 할 수 있는 최선의 방법은 ANOVA 테이블의 Intercept 행을 단순히 무시하는 것입니다.

5.5. ANOVA와 스튜던트 및 피셔의 기준: 어느 것이 더 낫습니까?

보시다시피 단방향 분산 분석을 사용하여 비교한 데이터는 스튜던트 테스트와 피셔 테스트를 사용하여 검사할 수도 있습니다. 이 두 가지 방법을 비교해 봅시다. 이를 위해 이러한 기준을 사용하여 남성과 여성의 키 차이를 계산합니다. 이렇게하려면 그룹별로 독립된 통계 / 기본 통계 / t- 검정 경로를 따라야합니다. 당연히 종속변수는 Growth 변수이고 Grouping 변수는 Sex 변수입니다.


쌀. 5.5.1. Student's와 Fisher's 기준에 따라 ANOVA를 사용하여 처리된 데이터 비교

보시다시피 결과는 ANOVA를 사용할 때와 동일합니다. = 0.041874, 그림과 같이 두 경우 모두. 5.4.5 그리고 Fig. 5.5.2(직접 확인하십시오!).


쌀. 5.5.2. 분석 결과(결과 표에 대한 자세한 해석 - 학생 기준 단락)

학생 및 피셔 기준에 따라 고려 중인 분석에서 수학적 관점에서 기준 F는 ANOVA에서와 동일하지만(분산 비율을 나타냄), 파이널 테이블이 나타내는 분석은 완전히 다릅니다. 스튜던트 테스트와 피셔 테스트로 비교할 때 샘플의 평균값 비교는 스튜던트 기준으로, 변동성 비교는 피셔 기준으로 수행됩니다. 분석 결과에 나타난 것은 분산 자체가 아니라 그 제곱근- 표준 편차.

대조적으로 분산 분석에서 Fisher의 테스트는 서로 다른 샘플의 평균을 비교하는 데 사용됩니다(우리가 논의한 것처럼 이것은 제곱합을 부분으로 나누고 내부 및 내부에 해당하는 평균 제곱합을 비교하여 수행됩니다. 그룹 변동성).

그러나 위의 차이점은 통계 연구의 본질보다는 결과의 제시에 관한 것입니다. 예를 들어, Glantz(1999, p. 99)가 지적한 바와 같이, 스튜던트 테스트에 의한 그룹 비교는 두 샘플에 대한 분산 분석의 특수한 경우로 간주될 수 있습니다.

따라서 스튜던트 테스트와 피셔 테스트에 따른 샘플 비교는 분산 분석보다 한 가지 중요한 이점이 있습니다. 즉, 샘플을 가변성 측면에서 비교할 수 있습니다. 그러나 ANOVA의 장점은 여전히 ​​중요합니다. 예를 들어 그 중에는 여러 샘플을 동시에 비교할 수 있는 가능성이 있습니다.

생물 의학, 사회 학적 및 실험적 연구를 수행하는 의사의 실습에서 전문 활동 및 혁신의 효과를 평가할 때 인구의 건강 상태 연구 결과에 대한 요인의 영향을 확립해야합니다.

일반 또는 표본 모집단의 결과에 대한 요인의 강도, 방향, 영향 패턴을 결정할 수 있는 여러 가지 통계 방법이 있습니다(기준 I 계산, 상관 분석, 회귀, Χ 2 - (Pearson의 동의 기준, 등) 분산 분석은 1920년대에 영국의 과학자, 수학자, 유전학자인 Ronald Fisher에 의해 개발되고 제안되었습니다.

분산 분석은 결과 특성에 대한 하나 이상의 요인의 영향을 연구하기 위해 공중 보건 및 건강 관리에 대한 과학적이고 실용적인 연구에서 더 자주 사용됩니다. "결과 속성의 값의 다양성에 요인(들)의 값의 다양성을 반영한다"는 원칙을 기반으로 하며 표본 모집단에서 요인(들)의 영향력의 강도를 설정합니다. .

분산 분석 방법의 본질은 개별 분산(전체, 요인, 잔차)을 측정하고 연구 중인 요인의 영향의 강도(몫)를 결정하는 것입니다(각 요인의 역할 평가 또는 결과 속성에 대한 공동 영향).

분산 분석- 이것은 특성 값의 차이(다양성) 결정을 기반으로 무작위로 선택된 여러 그룹의 요인과 성능 특성 간의 관계를 평가하기 위한 통계적 방법입니다. 분산 분석은 산술 평균에서 연구 모집단의 모든 단위 편차 분석을 기반으로 합니다. 편차의 척도로 편차의 평균 제곱인 분산(B)이 사용됩니다. 요인 속성(요인)의 영향으로 인한 편차를 무작위 상황으로 인한 편차의 크기와 비교합니다. 요인 특성으로 인한 편차가 무작위 편차보다 더 중요한 경우 요인이 결과 특성에 상당한 영향을 미치는 것으로 간주됩니다.

각 옵션의 편차 값의 분산을 계산하기 위해 (등록 된 각 수치부호) 산술 평균에서 제곱됩니다. 이것은 부정적인 신호를 제거합니다. 그런 다음 이러한 편차(차이)를 합산하여 관찰 횟수로 나눕니다. 평균 편차. 따라서 분산 값을 얻습니다.

분산 분석 적용을 위한 중요한 방법론적 가치는 샘플의 올바른 구성입니다. 목표와 목표에 따라 선택 그룹은 서로 독립적으로 무작위로 형성될 수 있습니다(일부 지표, 예를 들어 고혈압이 뇌졸중 발병에 미치는 영향을 연구하기 위한 대조군 및 실험 그룹). 이러한 샘플을 독립 샘플이라고 합니다.

종종 요인에 대한 노출 결과는 동일한 샘플 그룹(예: 동일한 환자)에서 노출 전후(치료, 예방, 재활 조치)에 연구되며, 이러한 샘플을 의존적이라고 합니다.

한 요인의 영향을 확인하는 분산 분석을 단일 요인 분석(일변량 분석)이라고 합니다. 하나 이상의 요인의 영향을 연구할 때 분산의 다변량 분석(다변량 분석)이 사용됩니다.

요인 징후는 연구 중인 현상에 영향을 미치는 징후입니다.
효과적인 징후는 요인 징후의 영향으로 변경되는 징후입니다.

질적(성별, 직업) 및 양적 특성(주사 횟수, 병동 내 환자, 침상 일수) 모두 분산 분석을 수행하는 데 사용할 수 있습니다.

분산 분석 방법:

  1. Fisher (Fisher)에 따른 방법 - 기준 F (F 값, 부록 1 참조);
    이 방법은 관측된 모든 값의 전체 분산을 개별 그룹 내 분산과 그룹 간 분산으로 분해할 때 일원 분산 분석에 사용됩니다.
  2. "일반 선형 모델"의 방법.
    다변량 분석에 사용되는 상관 또는 회귀 분석을 기반으로 합니다.

일반적으로 생의학 연구에서는 1인자, 최대 2인자 분산 복합체만 사용됩니다. 다인자 복합체는 관찰된 전체 모집단에서 분리된 1인자 또는 2인자 복합체를 순차적으로 분석하여 조사할 수 있습니다.

분산 분석 사용 조건:

  1. 연구의 과제는 결과에 대한 하나(최대 3개) 요인의 영향 강도를 결정하거나 다양한 요인(성별 및 연령, 신체 활동 및 영양 등)의 결합된 영향 강도를 결정하는 것입니다.
  2. 연구된 요인은 서로 독립적(비관련성)이어야 합니다. 예를 들어, 직장 경험과 연령, 자녀의 키와 몸무게 등의 결합 효과를 연구할 수 없습니다. 인구의 발생에.
  3. 연구를 위한 그룹 선택은 무작위로 수행됩니다(무작위 선택). 옵션의 무작위 선택 원칙을 구현하는 분산 콤플렉스의 구성을 무작위 화 (영어-무작위로 번역)라고합니다. 무작위로 선택됩니다.
  4. 양적 및 질적(속성) 기능을 모두 사용할 수 있습니다.

단방향 분산 분석을 수행할 때 다음을 권장합니다(적용에 필요한 조건).

  1. 분석된 그룹 분포의 정규성 또는 샘플 그룹이 일반 모집단과 일치하는 정규 분포입니다.
  2. 그룹 내 관찰 분포의 독립성(비연결성).
  3. 관찰 빈도(반복)의 존재.

분포의 정규성은 y \u003d f(x) 함수로 설명할 수 있는 Gauss(De Mavour) 곡선에 의해 결정됩니다. 본질적으로 확률 적입니다. 생물 의학 연구의 주제는 확률론적 특성의 현상이며, 그러한 연구에서 정규 분포는 매우 일반적입니다.

분산 분석 방법의 적용 원리

첫째, 귀무 가설이 공식화됩니다. 즉, 연구중인 요인이 결과 속성 값에 영향을 미치지 않으며 결과 차이가 무작위라고 가정합니다.

그런 다음 귀무 가설이 참인 경우 관찰된(또는 더 강한) 차이를 얻을 확률을 결정합니다.

이 확률이 작다면* 귀무가설을 기각하고 연구 결과가 통계적으로 유의하다는 결론을 내립니다. 이것은 아직 연구된 요인의 효과가 입증되었다는 것을 의미하지는 않지만(이것은 주로 연구 계획의 문제입니다) 결과가 우연에 의한 것 같지는 않습니다.
__________________________________
* 참 귀무가설을 기각할 수 있는 최대 허용 확률을 유의 수준이라고 하며 α = 0.05로 표시됩니다.

분산 분석을 적용하기 위한 모든 조건이 충족되면 전체 분산의 분해는 수학적으로 다음과 같습니다.

디젠. = D 팩트 + D 나머지. ,

디젠. - 총 평균에서 변형의 확산을 특징으로 하는 관찰된 값(변형)의 총 분산. 이 변이를 유발한 모든 요인의 영향을 받는 전체 모집단의 특성 변이를 측정합니다. 전반적인 다양성은 그룹 간 및 그룹 내로 구성됩니다.

D 팩트 - 각 그룹의 평균 차이를 특징으로 하는 요인(그룹 간) 분산이며 각 그룹을 차별화하는 연구 요인의 영향에 따라 달라집니다. 예를 들어, 폐렴 임상 과정의 병인 요인이 다른 그룹에서 평균 취침 시간 수준은 동일하지 않습니다. 그룹 간 다양성이 관찰됩니다.

쉬다. - 잔류(그룹 내) 분산, 그룹 내 변형의 분산을 특징짓는다. 무작위 변동을 반영합니다. 불특정 요인의 영향으로 발생하고 특성에 의존하지 않는 변이의 일부 - 그룹화의 기본 요인. 연구 중인 특성의 변화는 조직화된(연구원이 제공한) 요인과 무작위(알려지지 않은) 요인 모두에 대한 설명되지 않은 일부 무작위 요인의 영향 강도에 따라 달라집니다.

따라서 전체 변동(분산)은 요인 변동이라고 하는 조직화된(주어진) 요인과 비조직화된 요인, 즉 잔차 변동(무작위, 알 수 없음).

분산의 고전적 분석은 다음 단계로 수행됩니다.

  1. 분산 단지의 건설.
  2. 편차의 평균 제곱 계산.
  3. 분산 계산.
  4. 요인 및 잔차 분산의 비교.
  5. Fisher-Snedekor 분포의 이론적 값을 사용한 결과 평가(부록 N 1).

단순화된 변수에 따라 ANOVANE 분석을 수행하기 위한 알고리즘

단순화된 방법을 사용하여 분산 분석을 수행하는 알고리즘을 사용하면 동일한 결과를 얻을 수 있지만 계산은 훨씬 간단합니다.

나는 무대. 분산 단지 구축

분산 콤플렉스의 구성은 각 그룹의 요인, 유효 징후 및 관찰(환자)의 선택이 명확하게 구분되는 테이블의 구성을 의미합니다.

단일 요인 콤플렉스는 한 요인(A)의 여러 등급으로 구성됩니다. 그라데이션은 다른 일반 모집단(A1, A2, AZ)의 샘플입니다.

2 요인 복합물 - 서로 조합 된 두 요인의 여러 단계로 구성됩니다. 폐렴 발생의 병인학적인 요인은 폐렴의 임상 과정의 다른 형태(H1 - 급성, H2 - 만성)와 함께 동일합니다(A1, A2, AZ).

결과 기호(평균 취침 일수) 폐렴 발병의 병인학 적 요인
A1 A2 A3
H1 H2 H1 H2 H1 H2
엠 = 14일

II 단계. 전체 평균 계산(M obsh)

요인의 각 등급에 대한 옵션의 합계 계산: Σ Vj = V 1 + V 2 + V 3

요인 속성의 모든 계조에 대한 변수의 총합(Σ V total) 계산: Σ V total = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

평균 그룹 계산(M gr.) 인수 부호: M gr. = Σ Vj / N,
여기서 N은 요인 I 기능의 모든 그라데이션에 대한 관측치 수의 합계입니다(그룹별 Σn).

III 단계. 분산 계산:

분산 분석을 적용하기 위한 모든 조건에 따라 수학 공식은 다음과 같습니다.

디젠. = D 팩트 + D 나머지.

디젠. - 일반 평균에서 변형(관찰된 값)의 확산으로 특징지어지는 총 분산
디 사실. - 요인(그룹 간) 분산은 일반 평균에서 그룹 평균의 확산을 나타냅니다.
쉬다. - 잔차(그룹 내) 분산은 그룹 내 변형의 분산을 특징짓습니다.

  1. 요인 분산 계산(D 사실):디 사실. = Σh - H
  2. 계산 h는 다음 공식에 따라 수행됩니다. h = (Σ Vj) / N
  3. H의 계산은 다음 공식에 따라 수행됩니다. H = (Σ V) 2 / N
  4. 잔차 분산 계산:쉬다. = (Σ V) 2 - Σ h
  5. 총 분산 계산:디젠. = (Σ V) 2 - Σ H

IV 단계. 연구중인 요인의 영향 강도에 대한 주요 지표 계산결과에 대한 요인 속성의 영향 강도(η 2) 지표는 전체 분산(D 일반), η 2(이)에서 요인 분산(D 사실)의 비율에 의해 결정됩니다. 연구 중인 요인의 영향은 다른 모든 요인 중에서 차지하며 공식에 의해 결정됩니다.

V 스테이지. Fisher 방법에 의한 연구 결과의 신뢰성 결정은 다음 공식에 따라 수행됩니다.


F - 피셔 기준;
처음. - 표 값(부록 1 참조).
σ 2 사실, σ 2 나머지. - 요인 및 잔차 편차(lat. de - from, via - road) - 다음 공식에 의해 결정되는 중간선으로부터의 편차:


r은 요인 속성의 등급 수입니다.

피셔 기준(F)과 표준(표 형식) F의 비교는 자유도를 고려하여 표의 열에 따라 수행됩니다.

v 1 \u003d n-1
v 2 \u003d N-1

수평으로, v 1은 수직으로 결정됩니다 - v 2 , 교차점에서 표 값 F가 결정됩니다. 여기서 상위 표 값은 p ≥ 0.05이고 하위 값은 p > 0.01에 해당하며 계산된 기준 F와 비교됩니다. 계산된 기준 F의 값이 표보다 크거나 같으면 결과가 신뢰할 수 있고 H 0이 거부되지 않습니다.

작업:

N. 의 기업에서는 의사가 개별 요인에 대한 연구를 수행하는 것과 관련하여 부상 수준이 증가했으며 그중 상점 근로자의 업무 경험이 연구되었습니다. 유사한 조건과 작업의 성격을 가진 4개의 상점에서 N. 기업에서 샘플을 채취했습니다. 재해율은 지난 1년간 직원 100명당 계산됩니다.

업무 경험 요인에 대한 연구에서 다음과 같은 데이터를 얻었습니다.

연구 데이터를 바탕으로 A사 직원의 부상 수준에 대한 업무 경험의 영향에 대해 귀무가설(H 0)을 제시했습니다.

운동
일원 분산 분석을 사용하여 귀무 가설을 확인하거나 반박합니다.

  1. 영향력의 강도를 결정합니다.
  2. 요인 영향의 신뢰성을 평가합니다.

분산 분석 적용 단계
결과(재해율)에 대한 요인(업무 경험)의 영향을 결정하기 위해

결론.샘플 컴플렉스에서 업무 경험이 부상 수준에 미치는 영향은 다른 요인의 총 수에서 80%인 것으로 나타났습니다. 공장의 모든 작업장에서 작업 경험이 부상 수준에 영향을 미친다는 확률은 99.7%(13.3 > 8.7)라고 말할 수 있습니다.

따라서 귀무 가설(Н 0)은 기각되지 않으며 공장 A의 작업장에서 부상 수준에 대한 작업 경험의 영향이 입증된 것으로 간주됩니다.

p ≥ 0.01(하한 값)에서 p ≥ 0.05(상한 값)에서 F 값(피셔 테스트) 표준

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. 블라소프 V.V. 역학. - M.: GEOTAR-MED, 2004. 464p.
  2. Arkhipova G.L., Lavrova I.G., Troshina I.M. 일부 현대적인 방법의학의 통계 분석. - M.: Metrosnab, 1971. - 75p.
  3. Zaitsev V.M., Liflyandsky V.G., Marinkin V.I. 응용 의료 통계. - 상트페테르부르크: LLC "FOLIANT Publishing House", 2003. - 432쪽.
  4. Platonov A.E. 의학 및 생물학의 통계 분석: 작업, 용어, 논리, 컴퓨터 방법. -M.: 러시아 의학 아카데미 출판사, 2000. - 52p.
  5. Plokhinsky N.A. 생체 인식. - 소련 과학 아카데미 노보시비르스크 시베리아 지부 출판사. - 1961. - 364p.

이 노트의 통계 사용은 교차 예와 함께 표시됩니다. 당신이 Perfect Parachute의 생산 관리자라고 가정해 봅시다. 낙하산은 4개의 다른 공급업체에서 공급하는 합성 섬유로 만들어집니다. 낙하산의 주요 특징 중 하나는 강도입니다. 제공된 모든 섬유의 강도가 동일한지 확인해야 합니다. 이 질문에 답하려면 서로 다른 공급업체의 합성 섬유로 직조된 낙하산의 강도를 측정하는 실험을 설계해야 합니다. 이 실험 중에 얻은 정보는 가장 내구성이 뛰어난 낙하산을 제공하는 공급자를 결정합니다.

많은 응용 프로그램이 한 요인의 여러 그룹 또는 수준을 고려하는 실험과 관련됩니다. 세라믹 소성 온도와 같은 일부 요인은 여러 수치 수준(예: 300°, 350°, 400° 및 450°)을 가질 수 있습니다. 슈퍼마켓에 있는 상품의 위치와 같은 다른 요소는 범주 수준(예: 첫 번째 공급업체, 두 번째 공급업체, 세 번째 공급업체, 네 번째 공급업체)을 가질 수 있습니다. 실험 단위가 그룹 또는 요인 수준에 무작위로 할당되는 단일 요인 실험을 완전 무작위 실험이라고 합니다.

용법에프-여러 수학적 기대 사이의 차이를 평가하기 위한 기준

그룹 내 요인의 수치 측정이 연속적이고 일부 추가 조건이 충족되면 분산 분석(ANOVA - 분석 영형에프 버지니아라이앙스). 완전 무작위 설계를 사용한 분산 분석을 일원 분산 분석이라고 합니다. 어떤 의미에서 분산 분석이라는 용어는 분산 간의 차이가 아니라 그룹의 평균값 간의 차이를 비교하기 때문에 오해의 소지가 있습니다. 그러나 수학적 기대치의 비교는 데이터 변동 분석을 기반으로 정확하게 수행됩니다. ANOVA 절차에서 측정 결과의 전체 변동은 그룹 간과 그룹 내로 나뉩니다(그림 1). 그룹 내 변동은 실험 오차로 설명되고 그룹 간 변동은 실험 조건의 영향으로 설명됩니다. 상징 와 함께그룹의 수를 나타냅니다.

쌀. 1. 완전 무작위 실험에서 변이의 분리

노트 또는 형식 다운로드, 형식의 예

그런 척하자 와 함께그룹은 정규 분포와 동일한 분산을 갖는 독립 모집단에서 추출됩니다. 귀무 가설은 모집단의 수학적 기대치가 동일하다는 것입니다. H 0: μ1 = μ2 = ... = μs. 대립 가설은 모든 수학적 기대치가 동일하지 않다는 것을 나타냅니다. H1: μj가 모두 같지는 않다 제이= 1, 2, …, s).

무화과. 그림 2는 일반 모집단이 정규 분포와 동일한 분산을 갖는다는 가정 하에 5개 비교 그룹의 수학적 기대치에 대한 진정한 귀무 가설을 제시합니다. 5개 집단과 관련된 다른 수준요인은 동일합니다. 따라서 동일한 수학적 기대, 변형 및 형식을 가지면서 서로 중첩됩니다.

쌀. 2. 5개의 모집단이 동일한 수학적 기대값을 갖습니다. μ1 = μ2 = μ3 = μ4 = μ5

반면에 실제로 귀무가설이 거짓이고 네 번째 수준의 수학적 기대치가 가장 크고 첫 번째 수준의 수학적 기대치가 약간 더 낮으며 나머지 수준의 수학적 기대치가 같거나 더 작다고 가정합니다(그림 1). 삼). 평균값을 제외하고 5개의 모집단이 모두 동일합니다(즉, 변동성과 모양이 동일함).

쌀. 3. 실험 조건의 영향이 관찰됩니다. μ4 > μ1 > μ2 = μ3 = μ5

여러 일반 모집단의 수학적 기대치가 동일하다는 가설을 테스트할 때 총 변동은 그룹 간 차이로 인한 그룹 간 변동과 동일한 그룹에 속하는 요소 간의 차이로 인한 그룹 내 변동의 두 부분으로 나뉩니다. 총 변동은 총 제곱합(SST - 총 제곱합)으로 표현됩니다. 귀무가설은 모든 사람들의 기대가 와 함께그룹이 서로 같으면 총 변동은 개별 관측치 간의 차이 제곱과 모든 샘플에 대해 계산된 총 평균(평균의 평균)의 합과 같습니다. 전체 변형:

어디 - 전체 평균, 시지 - -e 감시 제이-번째 그룹 또는 레벨, 엔제이- 관찰 횟수 제이-번째 그룹, N- 모든 그룹의 총 관찰 수(즉, N = N 1 + 엔 2 + … + 체크 안함), 와 함께- 연구 그룹 또는 수준의 수.

그룹 간 변동일반적으로 그룹 간 제곱합(SSA)이라고 하는 는 각 그룹의 표본 평균 간의 차이 제곱합과 같습니다. 제이전체 평균 해당 그룹의 볼륨을 곱한 값 엔제이:

어디 와 함께- 연구한 그룹 또는 수준의 수, 엔제이- 관찰 횟수 제이-번째 그룹, 제이- 평균값 제이-번째 그룹, - 일반 평균.

그룹 내 변이일반적으로 그룹 내 제곱합(SSW)이라고 하는 는 각 그룹의 요소와 이 그룹의 표본 평균 간의 차이 제곱의 합과 같습니다. 제이:

어디 엑스ij - -번째 요소 제이-번째 그룹, 제이- 평균값 제이-번째 그룹.

비교되기 때문에 와 함께요인 수준에서 그룹 간 제곱합은 에스 - 1자유도. 각 와 함께레벨은 엔제이 – 1 자유도이므로 그룹 내 제곱합은 다음과 같습니다. N- 와 함께자유도

또한 총 제곱합은 N – 1 자유도, 각 ​​관찰 이후 엑스ij전체에 걸쳐 계산된 전체 평균과 비교하여 N관찰. 이러한 각 합계를 해당 자유도로 나누면 세 가지 종류의 분산이 발생합니다. 그룹간(-MSA 중 평균 제곱), 그룹 내(평균 제곱 이내 - MSW) 및 완벽한(평균 제곱합 - MST):

분산 분석의 주요 목적이 수학적 기대치를 비교하는 것이라는 사실에도 불구하고 와 함께실험 조건의 효과를 밝히기 위한 그룹, 그 이름은 주요 도구가 분산 분석이라는 사실 때문입니다. 다른 유형. 귀무가설이 참이면 기대값 사이 와 함께큰 차이가 없는 그룹, 세 가지 분산(MSA, MSW 및 MST)은 모두 분산의 추정치입니다. σ2분석된 데이터에 내재되어 있습니다. 그래서 귀무가설을 검증하기 위해 H 0: μ1 = μ2 = ... = μs및 대립 가설 H1: μj가 모두 같지는 않다 제이 = 1, 2, …, 와 함께), 통계를 계산하는 데 필요합니다. 에프-기준은 MSA와 MSW의 두 분산 비율입니다. 시험 에프-분산의 단변량 분석 통계

통계 에프-기준 준수 에프- 배포 에스 - 1분자의 자유도 MSA그리고 엔 - 함께분모의 자유도 MSW. 주어진 유의 수준 α에 대해 다음이 계산되면 귀무 가설이 기각됩니다. 에프 에프내재적 에프- 배포 에스 - 1 엔 - 함께분모의 자유도. 따라서 그림과 같이. 4, 결정 규칙은 다음과 같이 공식화됩니다. 귀무 가설 시간 0거부된 경우 에프 > 에프; 그렇지 않으면 거부되지 않습니다.

쌀. 4. 가설 검정 시 분산 분석의 중요한 영역 시간 0

만약 귀무가설 시간 0사실, 계산 에프-통계는 분자와 분모가 동일한 값(분석된 데이터에 내재된 분산 σ 2)의 추정치이므로 1에 가깝습니다. 만약 귀무가설 시간 0거짓(다른 그룹의 기대값 간에 상당한 차이가 있음), 계산됨 에프-통계량은 1보다 훨씬 클 것입니다. 분자 MSA는 데이터의 자연적 변동성 외에도 실험 조건의 효과 또는 그룹 간의 차이를 추정하는 반면 분모 MSW는 데이터의 자연적 변동성만 추정하기 때문입니다. 따라서 ANOVA 절차는 에프주어진 유의 수준 α에서 다음이 계산되면 귀무 가설이 기각되는 테스트입니다. 에프- 통계가 상한 임계 값보다 큽니다. 에프내재적 에프- 배포 에스 - 1분자의 자유도 및 엔 - 함께그림에서와 같이 분모의 자유도. 4.

단방향 분산 분석을 설명하기 위해 노트 시작 부분에 설명된 시나리오로 돌아가 보겠습니다. 실험의 목적은 서로 다른 공급자로부터 얻은 합성 섬유로 직조된 낙하산이 동일한 강도를 갖는지 여부를 결정하는 것입니다. 각 그룹에는 5개의 낙하산이 짜여져 있습니다. 그룹은 공급업체(공급업체 1, 공급업체 2, 공급업체 3 및 공급업체 4)별로 나뉩니다. 낙하산의 강도는 직물의 양면 찢어짐을 테스트하는 특수 장치를 사용하여 측정됩니다. 낙하산을 부수는 데 필요한 힘은 특수 저울로 측정됩니다. 파단력이 높을수록 낙하산이 강해집니다. Excel에서 분석 가능 에프- 한 번의 클릭으로 통계. 메뉴 살펴보기 데이터데이터 분석, 그리고 라인을 선택 단방향 분산 분석, 열린 창을 채웁니다(그림 5). 실험 결과(Gap Strength), 일부 기술통계, 일원분산 분석 결과를 Fig. 6.

쌀. 5. 창 단방향 ANOVA 분석 패키지뛰어나다

쌀. 그림 6. 서로 다른 공급자로부터 얻은 합성 섬유로 직조된 낙하산의 강도 지표, 기술 통계 및 편도 분산 분석 결과

그림 6의 분석은 표본 평균 사이에 약간의 차이가 있음을 보여줍니다. 첫 번째 공급 업체에서 얻은 섬유의 평균 강도는 19.52, 두 번째는 24.26, 세 번째는 22.84, 네 번째는 21.16입니다. 이 차이가 통계적으로 유의미합니까? 파단력 분포는 산포도(그림 7)에 나와 있습니다. 그룹과 그룹 내에서 차이점을 명확하게 보여줍니다. 각 그룹의 부피가 크면 줄기와 잎 그림, 상자 그림 또는 정규 분포 그림을 사용하여 분석할 수 있습니다.

쌀. 7. 4개 공급업체에서 얻은 합성 섬유로 직조한 낙하산의 강도 퍼짐 다이어그램

귀무 가설은 평균 강도 값 간에 유의한 차이가 없다는 것입니다. H 0: μ1 = μ2 = μ3 = μ4. 또 다른 가설은 평균 섬유 강도가 다른 공급업체와 다른 공급업체가 적어도 하나 있다는 것입니다. H1: μj가 모두 같지는 않다( 제이 = 1, 2, …, 와 함께).

전체 평균(그림 6 참조) = AVERAGE(D12:D15) = 21.945; 결정을 위해 20개의 원래 숫자를 모두 평균화할 수도 있습니다: \u003d AVERAGE (A3: D7). 분산 값이 계산됩니다. 분석 패키지표에 반영됩니다. 분산 분석(그림 6 참조): SSA = 63.286, SSW = 97.504, SST = 160.790(열 참조) 봄 여름 시즌테이블 분산 분석그림 6). 평균은 이러한 제곱합을 적절한 자유도로 나누어 계산합니다. 때문에 와 함께= 4, 그리고 N= 20, 다음과 같은 자유도 값을 얻습니다. SSA: 에스 - 1= 3; SSW의 경우: 체크 안함= 16; SST: n-1= 19(열 참조 df). 따라서: MSA = SSA / ( 다-1)= 21.095; MSW=SSW/( 체크 안함) = 6.094; MST = SST / ( n-1) = 8.463(열 참조 석사). 에프-통계 = MSA / MSW = 3.462(열 참조) 에프).

상한 임계값 에프, 특징 에프-분포는 식 = F에 의해 결정됩니다. OBR(0.95; 3; 16) = 3.239. 함수 매개변수 =F.OBR(): α = 0.05, 분자의 자유도는 3이고 분모는 16입니다. 따라서 계산된 에프-3.462에 해당하는 통계가 상한 임계 값을 초과합니다. 에프= 3.239이면 귀무가설이 기각됩니다(그림 8).

쌀. 8. 분자의 자유도가 3이고 분모가 -16인 경우 유의 수준 0.05에서 분산 분석의 임계 영역

아르 자형-값, 즉 진정한 귀무 가설 하에서 에프- 3.46 이상, 0.041 또는 4.1%에 해당하는 통계(열 참조) p-값테이블 분산 분석그림 6). 이 값은 유의 수준 α = 5%를 초과하지 않으므로 귀무 가설을 기각합니다. 게다가, 아르 자형-값은 일반 모집단의 수학적 기대치 사이에서 그러한 차이 또는 큰 차이를 발견할 확률이 실제로 동일한 경우 4.1%임을 나타냅니다.

그래서. 네 가지 표본 평균 사이에는 차이가 있습니다. 귀무 가설은 네 모집단의 모든 수학적 기대치가 같다는 것입니다. 이러한 조건에서 모든 낙하산 강도의 총 변동성(즉, 총 SST 변동) 측정은 각 관측치 간의 차이 제곱을 합산하여 계산됩니다. 시지전체 평균 . 그런 다음 전체 변동을 두 가지 구성 요소로 나누었습니다(그림 1 참조). 첫 번째 구성 요소는 SSA의 그룹 간 변이이고 두 번째 구성 요소는 SSW의 그룹 내 변이입니다.

데이터의 변동성을 설명하는 것은 무엇입니까? 다시 말해, 왜 모든 관찰이 동일하지 않습니까? 그 이유 중 하나는 회사마다 강도가 다른 섬유를 공급하기 때문입니다. 이것은 그룹의 기대값이 다른 이유를 부분적으로 설명합니다. 실험 조건의 효과가 강할수록 그룹의 평균값 차이가 커집니다. 데이터 가변성의 또 다른 이유는 모든 프로세스(이 경우 낙하산 생산)의 자연적 가변성입니다. 모든 섬유가 동일한 공급업체에서 구매되더라도 강도는 동일하지 않으며 다른 모든 조건은 동일합니다. 이 효과는 각 그룹에서 나타나므로 그룹 내 변이라고 합니다.

표본 평균 간의 차이를 SSA의 그룹 간 변동이라고 합니다. 이미 언급한 바와 같이 그룹 내 변동의 일부는 데이터가 다른 그룹에 속한다는 사실로 설명됩니다. 그러나 그룹이 정확히 동일하더라도(즉, 귀무 가설이 참일 경우) 여전히 그룹 간 변동이 있을 수 있습니다. 그 이유는 낙하산 제조 공정의 자연적 변동성에 있습니다. 표본이 다르기 때문에 표본 평균도 서로 다릅니다. 따라서 귀무 가설이 참이면 그룹 간 변동성과 그룹 내 변동성은 모두 모집단 변동성의 추정치입니다. 귀무 가설이 거짓이면 그룹 간 가설이 더 커집니다. 이런 사실이 깔려있다 에프-여러 그룹의 수학적 기대치 간의 차이를 비교하기 위한 기준.

단방향 ANOVA를 수행하고 기업 간에 유의한 차이를 찾은 후에는 어떤 공급업체가 다른 공급업체와 크게 다른지 알 수 없습니다. 모집단의 수학적 기대치가 같지 않다는 것만 알 수 있습니다. 즉, 수학적 기대치 중 적어도 하나는 다른 기대치와 크게 다릅니다. 어떤 공급자가 다른 공급자와 다른지 확인하려면 다음을 사용할 수 있습니다. 투키 절차, 공급자 간의 쌍별 비교를 사용합니다. 이 절차는 John Tukey가 개발했습니다. 그 후 그와 C. Cramer는 샘플 크기가 서로 다른 상황에 대해 이 절차를 독립적으로 수정했습니다.

다중 비교: Tukey-Kramer 절차

우리 시나리오에서는 일원 분산 분석을 사용하여 낙하산의 강도를 비교했습니다. 네 그룹의 수학적 기대치 사이에 상당한 차이가 있음을 발견했으므로 어떤 그룹이 서로 다른지 결정해야 합니다. 이 문제를 해결하는 방법에는 여러 가지가 있지만 Tukey-Kramer 다중 비교 절차만 설명합니다. 이 방법은 검증할 가설이 데이터 분석 후에 공식화되기 때문에 사후 비교 절차의 한 예입니다. Tukey-Kramer 절차를 사용하면 모든 그룹 쌍을 동시에 비교할 수 있습니다. 첫 번째 단계에서 차이가 계산됩니다. 엑스제이 – 엑스제이, 어디 j ≠제이, 수학적 기대 사이 s(s – 1)/2여러 떼. 임계 스팬 Tukey-Kramer 절차는 다음 공식으로 계산됩니다.

어디 큐유- 스튜던트화 범위 분포의 상위 임계값 와 함께분자의 자유도 및 N - 와 함께분모의 자유도.

샘플 크기가 동일하지 않은 경우 임계 범위는 각 수학적 기대치 쌍에 대해 개별적으로 계산됩니다. 마지막 단계에서는 각 s(s – 1)/2쌍의 수학적 기대치를 해당 임계 범위와 비교합니다. 차이 계수 | Xj – 엑스제이| 그들 사이는 임계 범위를 초과합니다.

낙하산의 강도 문제에 Tukey-Cramer 절차를 적용해 보겠습니다. 낙하산 회사에는 4개의 공급업체가 있으므로 4(4 – 1)/2 = 6쌍의 공급업체를 테스트해야 합니다(그림 9).

쌀. 9. 표본 평균의 쌍대 비교

모든 그룹이 동일한 볼륨을 갖기 때문에(즉, 모든 엔제이 = 엔제이), 하나의 임계 범위만 계산하는 것으로 충분합니다. 이렇게하려면 표에 따라 분산 분석(그림 6) 우리는 MSW = 6.094의 값을 결정합니다. 그런 다음 값을 찾습니다. 큐유α = 0.05에서, 와 함께= 4(분자의 자유도 수) 및 N- 와 함께= 20 – 4 = 16(분모의 자유도 수). 아쉽게도 Excel에서 해당 함수를 찾지 못해서 표(그림 10)를 사용했습니다.

쌀. 10. 스튜던트화 범위의 임계값 큐유

우리는 다음을 얻습니다.

4.74 > 4.47(그림 9의 하단 표 참조)만 있기 때문에 첫 번째 공급업체와 두 번째 공급업체 간에 통계적으로 유의미한 차이가 존재합니다. 다른 모든 쌍에는 샘플 평균이 있으므로 차이에 대해 이야기할 수 없습니다. 결과적으로 첫 번째 공급업체에서 구입한 섬유로 직조된 낙하산의 평균 강도는 두 번째 공급업체보다 훨씬 적습니다.

일원 분산 분석에 필요한 조건

낙하산의 강도 문제를 풀 때 원팩터를 사용할 수 있는 조건을 만족하는지 확인하지 않았다. 에프-표준. 단일 요소를 적용할 수 있는지 어떻게 알 수 있습니까? 에프-특정 실험 데이터 분석 기준은? 단일 요인 에프테스트는 세 가지 기본 가정이 충족되는 경우에만 적용할 수 있습니다. 실험 데이터는 무작위적이고 독립적이어야 하며 정규 분포를 가져야 하며 분산이 동일해야 합니다.

첫 번째 추측은 무작위성과 데이터 독립성- 모든 실험의 정확성은 선택의 무작위성 및/또는 무작위화 프로세스에 따라 달라지므로 항상 수행되어야 합니다. 결과가 왜곡되지 않도록 하려면 데이터를 다음에서 추출해야 합니다. 와 함께무작위로 그리고 서로 독립적으로 모집단. 마찬가지로 데이터는 무작위로 분산되어야 합니다. 와 함께관심 요인의 수준(실험 그룹). 이러한 조건을 위반하면 분산 분석 결과가 심각하게 왜곡될 수 있습니다.

두 번째 추측은 정상성- 데이터가 정규 분포 모집단에서 추출되었음을 의미합니다. 에 관해서는 -기준, 에 기반한 분산의 단방향 분석 에프-기준은 이 조건의 위반에 상대적으로 둔감합니다. 분포가 정규 분포에서 너무 멀지 않은 경우 유의 수준은 에프- 특히 샘플 크기가 충분히 큰 경우 기준이 거의 변경되지 않습니다. 정규분포의 조건을 심각하게 위반하는 경우 이를 적용하여야 한다.

세 번째 추측은 분산의 균일성- 각 일반 모집단의 분산이 서로 같다는 것을 의미합니다(즉, σ 1 2 = σ 2 2 = … = σ j 2). 이 가정을 통해 그룹 내 분산을 분리할지 또는 통합할지 여부를 결정할 수 있습니다. 그룹의 부피가 동일하면 분산의 동질성 조건은 다음을 사용하여 얻은 결론에 거의 영향을 미치지 않습니다. 에프-기준. 그러나 표본 크기가 같지 않은 경우 등분산 조건을 위반하면 분산 분석 결과가 심각하게 왜곡될 수 있습니다. 따라서 샘플 크기가 동일하도록 노력해야 합니다. 분산의 동질성에 대한 가정을 확인하는 방법 중 하나는 기준입니다. Levenay아래에서 묘사 되어진.

세 가지 조건 중 분산 조건의 균일성만 위반하는 경우 다음과 유사한 절차를 수행합니다. - 별도의 분산을 사용하는 기준(세부 사항 참조). 그러나 정규분포의 가정과 분산의 동질성 가정을 동시에 위반하는 경우 데이터를 정규화하여 분산 간의 차이를 줄이거나 비모수적 절차를 적용해야 합니다.

분산의 동질성을 확인하기 위한 Leveney의 기준

하지만 에프- 기준은 그룹의 분산 평등 조건 위반에 상대적으로 저항력이 있으며, 이 가정을 크게 위반하면 기준의 중요성과 힘에 상당한 영향을 미칩니다. 아마도 가장 강력한 것 중 하나는 기준입니다. Levenay. 분산의 평등을 확인하려면 와 함께일반 인구를 대상으로 다음 가설을 테스트합니다.

H 0: σ 1 2 = σ 2 2 = ... = σ제이 2

H1: 전부는 아님 σ j 2동일합니다( 제이 = 1, 2, …, 와 함께)

수정된 레베니 검정은 그룹의 변동성이 동일한 경우 관측값과 그룹 중앙값 간의 차이의 절대값 분산 분석을 적용하여 분산 동일성에 대한 귀무 가설을 테스트할 수 있다는 주장을 기반으로 합니다. 따라서 먼저 각 그룹의 관측값과 중앙값 간의 차이의 절대값을 계산한 다음 얻은 차이의 절대값에 대해 일원 분산 분석을 수행해야 합니다. Levenay 기준을 설명하기 위해 노트 시작 부분에 설명된 시나리오로 돌아가 보겠습니다. 그림에 제시된 데이터를 사용하여 도 6에서, 우리는 유사한 분석을 수행할 것이지만, 각각의 샘플에 대한 초기 데이터 및 중앙값의 차이의 모듈에 대하여 개별적으로 수행할 것이다(도 11).

분산 분석은 무엇을 위해 사용됩니까? 분산 분석의 목적은 연구된 유효 특성의 변화에 ​​대한 정성적 또는 양적 요인의 중요한 영향의 유무를 연구하는 것입니다. 이를 위해 유의미한 영향을 미치거나 미미하다고 추정되는 요인을 단계적 등급(즉, 그룹)으로 나누고, 각 요인의 평균 사이의 유의성을 살펴봄으로써 요인의 영향력이 같은지 여부를 알아본다. 요인의 계조에 해당하는 데이터 세트. 예 : 사용 된 원자재 유형에 대한 기업 이익의 의존성 조사 (그런 다음 그라데이션 클래스는 원자재 유형 임), 기업 부문 규모에 대한 생산 단위의 출력 비용 의존성 ( 그런 다음 그라데이션 클래스는 단위 크기의 특성입니다: 대, 중, 소).

그라데이션 수업(그룹)의 최소 수는 2개입니다. 채점 클래스는 질적이거나 양적일 수 있습니다.

분산 분석을 분산 분석이라고 하는 이유는 무엇입니까? 분산 분석은 두 분산의 비율을 검사합니다. 분산은 알다시피 평균 주변의 데이터 분산을 측정한 것입니다. 첫 번째는 요인의 영향으로 설명되는 분산으로, 모든 데이터의 평균을 중심으로 요인(그룹)의 그라데이션 사이의 값 확산을 특징으로 합니다. 두 번째는 그룹 자체의 평균값 주변의 계조(그룹) 내에서 데이터의 분산을 특징짓는 설명되지 않은 분산입니다. 첫 번째 분산은 그룹 간, 두 번째 분산은 그룹 내라고 할 수 있습니다. 이러한 분산의 비율을 실제 피셔 비율이라고 하며 피셔 비율의 임계값과 비교합니다. 실제 피셔 비율이 임계값보다 크면 평균 계조 등급이 서로 다르고 연구 중인 요인이 데이터의 변화에 ​​큰 영향을 미칩니다. 적으면 평균 계조 등급이 서로 다르지 않고 요인이 큰 영향을 미치지 않습니다.

분산 분석에서 가설은 어떻게 공식화, 수용 및 거부됩니까? 분산 분석에서 다음을 결정합니다. 비중하나 이상의 요인이 결합된 효과. 요인 영향의 중요성은 가설을 테스트하여 결정됩니다.

  • 시간0 : μ 1 = μ 2 = ... = μ , 어디 - 그라데이션 클래스 수 - 모든 그라데이션 클래스는 하나의 평균 값을 가집니다.
  • 시간1 : 전부는 아님 μ 같음 - 모든 그라데이션 클래스가 동일한 평균값을 갖는 것은 아닙니다.

어떤 요인의 영향력이 크지 않다면 이 요인의 등급 간 차이도 미미하며, 분산분석 과정에서 귀무가설 시간0 거부되지 않습니다. 요인의 영향이 중요하면 귀무 가설 시간0 거부됨: 모든 그라데이션 클래스가 동일한 평균을 갖는 것은 아닙니다. 즉, 그라데이션 클래스 간의 가능한 차이점 중 하나 이상이 중요합니다.

분산 분석의 개념이 더 있습니다. 분산 분석의 통계적 복합물은 경험적 데이터의 표입니다. 모든 그라데이션 클래스의 경우 같은 번호옵션, 옵션 수가 다른 경우 통계적 복합물을 동종 (동종)이라고합니다-이종 (이종).

추정된 요인의 수에 따라 분산의 1요인, 2요인 및 다요인 분석이 구분됩니다.

단방향 분산 분석: 방법의 본질, 공식, 예제

방법의 본질, 공식

통계 복합물의 편차 제곱합을 다음과 같은 구성 요소로 나눌 수 있다는 사실을 기반으로 합니다.

봄 여름 시즌 = 봄 여름 시즌+ 봄 여름 시즌이자형,

봄 여름 시즌

봄 여름 시즌 제곱 편차의 합,

봄 여름 시즌이자형설명할 수 없는 편차 제곱합 또는 오류의 편차 제곱합입니다.

통해 경우 N각 그라데이션 클래스(그룹)의 옵션 수를 표시하고 - 총 수요인(그룹)의 그라데이션 - 총 관찰 수이며 다음 공식을 얻을 수 있습니다.

제곱 편차의 총 수: ,

요인의 영향으로 설명 제곱 편차의 합: ,

설명할 수 없는 편차 제곱합 또는 오차 편차 제곱합: ,

- 관측치의 총 평균,

(그룹).

게다가,

여기서 요인(그룹)의 계조 분산입니다.

통계적 복합 데이터에 대한 단방향 분산 분석을 수행하려면 요인(그룹 간) 및 설명되지 않은 분산(그룹 내)의 영향으로 설명되는 분산의 비율인 실제 피셔 비율을 찾아야 합니다.

피셔의 임계값과 비교합니다.

분산은 다음과 같이 계산됩니다.

분산 설명,

설명할 수 없는 편차,

V= − 1 설명된 분산의 자유도 수입니다.

Ve= N 설명할 수 없는 분산의 자유도 수입니다.

V = N

유의 수준 및 자유도의 특정 값을 갖는 피셔 비율의 임계 값은 통계표에서 찾거나 MS Excel F.OBR 기능을 사용하여 계산할 수 있습니다 (아래 그림을 확대하려면 마우스 왼쪽 버튼).


이 기능을 사용하려면 다음 데이터를 입력해야 합니다.

확률 - 유의 수준 α ,

degrees_of_freedom1 - 설명된 분산의 자유도 수 V,

degrees_of_freedom2 - 설명할 수 없는 분산의 자유도 수 V이자형.

피셔 비율의 실제 값이 임계값()보다 크면 유의 수준으로 귀무 가설을 기각합니다. α . 이는 요인이 데이터의 변화에 ​​상당한 영향을 미치고 데이터가 확률적으로 요인에 의존한다는 것을 의미합니다. = 1 − α .

피셔 비율의 실제 값이 임계()보다 작으면 유의 수준으로 귀무 가설을 기각할 수 없습니다. α . 이는 요인이 확률이 있는 데이터에 크게 영향을 미치지 않는다는 것을 의미합니다. = 1 − α .

일원 분산 분석: 예

예 1사용하는 원료의 종류가 기업의 이익에 영향을 미치는지 여부를 확인해야 합니다. 요인(유형 1, 유형 2 등)의 6개 등급(그룹)에서 4년 동안 수백만 루블 단위의 제품 1000개 생산 이익에 대한 데이터가 수집되었습니다.

원료의 종류2014 2015 2016 2017
1위7,21 7,55 7,29 7,6
2위7,89 8,27 7,39 8,18
3위7,25 7,01 7,37 7,53
4일7,75 7,41 7,27 7,42
5일7,7 8,28 8,55 8,6
6일7,56 8,05 8,07 7,84
평균
분산
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

= 6 및 각 클래스(그룹)에서 N나는 = 4관찰. 총 관찰 수 N = 24 .

자유도 수:

V= − 1 = 6 − 1 = 5 ,

Ve= N = 24 − 6 = 18 ,

V = N − 1 = 24 − 1 = 23 .

분산을 계산해 보겠습니다.

.

.

실제 피셔 비율이 임계 비율보다 크기 때문에:

유의 수준 α = 0.05 우리는 생산에 사용되는 원자재 유형에 따라 기업의 이익이 크게 다르다는 결론을 내립니다.

또는 동일한 요인 등급(그룹)의 모든 클래스에서 평균의 평등에 대한 주요 가설을 기각합니다.

방금 고려한 예에서 각 요소 그라데이션 클래스에는 동일한 수의 옵션이 있습니다. 그러나 소개 부분에서 언급했듯이 옵션의 수는 다를 수 있습니다. 그리고 이것은 결코 분산 분석 절차를 복잡하게 만들지 않습니다. 이것은 다음 예입니다.

예 2기업단위의 규모에 따른 산출단가의 의존성이 있는지를 알아내야 한다. 요인(세분 값)은 3개의 그라데이션 등급(그룹)으로 나뉩니다: 소형, 중형, 대형. 특정 기간 동안 동일한 유형의 제품 단위 생산 비용에 대한 이러한 그룹에 해당하는 데이터가 요약됩니다.

작은평균
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
평균58,6 54,0 51,0
분산128,25 65,00 107,60

요인 그라데이션 클래스 수(그룹) = 3 , 클래스(그룹)의 관측치 수 N1 = 4 , N2 = 7 , N3 = 6 . 총 관찰 수 N = 17 .

자유도 수:

V= − 1 = 2 ,

Ve= N = 17 − 3 = 14 ,

V = N − 1 = 16 .

제곱 편차의 합을 계산해 보겠습니다.

분산을 계산해 보겠습니다.

,

.

실제 피셔 비율을 계산해 보겠습니다.

.

피셔 비율의 임계 값:

피셔 비율의 실제 값은 임계 값보다 작기 때문에 기업 단위의 크기가 생산 비용에 큰 영향을 미치지 않는다는 결론을 내립니다.

또는 동일한 것은 95 %의 확률로 기업의 중소 규모 및 대규모 사업부에서 동일한 제품 단위를 생산하는 데 드는 평균 비용이 크게 다르지 않다는 주요 가설을 수락합니다.

MS Excel의 일원 분산 분석

일원 분산 분석은 MS Excel 절차를 사용하여 수행할 수 있습니다. 단방향 분산 분석. 사용된 원자재 유형과 예제 1의 기업 이익 간의 관계에 대한 데이터를 분석하는 데 사용합니다.

서비스/데이터 분석분석 도구 선택 단방향 분산 분석.

창에서 입력 간격데이터 영역을 지정합니다(이 경우 $A$2:$E$7). 요소가 그룹화되는 방식을 열 또는 행(이 경우 행)별로 표시합니다. 첫 번째 열에 요인 클래스의 이름이 포함된 경우 확인란을 선택합니다. 첫 번째 열의 레이블. 창에서 알파유의수준을 나타내다 α = 0,05 .

두 번째 테이블인 분산 분석에는 그룹 간 및 그룹 내 요인 값과 총계에 대한 데이터가 포함되어 있습니다. 편차 제곱(SS), 자유도(df) 및 분산(MS)의 합입니다. 마지막 3개 열 - 피셔 비율(F), p-레벨(P-값) 및 피셔 비율(F crit)의 임계값의 실제 값.

석사 에프 p-값 Fcrit
0,58585 6,891119 0,000936 2,77285
0,085017

피셔 비율의 실제 값(6.89)이 임계 값(2.77)보다 크므로 95%의 확률로 모든 유형의 원자재를 사용할 때 평균 생산성이 동일하다는 귀무 가설을 기각합니다. 사용된 원자재의 유형이 영리 기업에 영향을 미친다는 결론을 내립니다.

반복없이 양방향 분산 분석 : 방법의 본질, 공식, 예

양방향 분산 분석은 두 가지 요인에 대한 효과적인 기능의 가능한 의존성을 확인하는 데 사용됩니다. 그리고 . 그 다음에 - 요소의 그라데이션 수 그리고 - 요소의 그라데이션 수 . 통계적 복합물에서 잔차의 제곱합은 세 가지 구성 요소로 나뉩니다.

봄 여름 시즌 = 봄 여름 시즌+ 봄 여름 시즌 b+ 봄 여름 시즌이자형,

제곱 편차의 총합,

- 요인의 영향으로 설명 제곱 편차의 합,

- 요인의 영향으로 설명 제곱 편차의 합,

- 관측치의 총 평균,

요인의 각 등급에서 관측치의 평균 ,

.

,

요인의 영향으로 설명되는 산포 ,

V= − 1 ,

Vb= − 1 - 계수의 영향으로 설명되는 분산의 자유도 수 ,

V전자 = ( − 1)( − 1)

V = ab− 1 - 총 자유도.

요인이 서로 독립적인 경우 요인의 중요성을 결정하기 위해 두 개의 귀무 가설과 해당 대체 가설이 제시됩니다.

요인에 대한 :

시간0 : μ 1A= μ 2A = ... = μ AA,

시간1 : 전부는 아님 μ 아이에이같다;

요인에 대한 :

시간0 : μ 1비= μ 2B=...= μ aB,

시간1 : 전부는 아님 μ iB같다.

요인의 영향을 결정하려면 , 실제 피셔 비율을 임계 피셔 비율과 비교해야 합니다.

α = 1 − α .

α = 1 − α .

반복 없는 양방향 분산 분석: 예

예 3엔진 크기와 연료 유형에 따라 리터 단위로 100km당 평균 연료 소비량에 대한 정보가 제공됩니다.

엔진의 크기와 연료의 종류에 따라 연료소모량이 달라지는지 확인이 필요합니다.

해결책. 요인을 위해 그라데이션 수업 수 = 3 , 요인 그라데이션 수업 수 = 3 .

제곱 편차의 합을 계산합니다.

,

,

,

.

관련 변수:

,

,

.

. 실제 피셔 비율은 임계값보다 작기 때문에 95%의 확률로 엔진 크기가 연료 소비에 영향을 미치지 않는다는 가설을 받아들입니다. 그러나 유의수준을 선택하면 α = 0.1 , 피셔 비율의 실제 값 그리고 95%의 확률로 엔진 크기가 연료 소비에 영향을 미친다는 것을 받아들일 수 있습니다.

요인에 대한 실제 피셔 비율 , 피셔 비율의 임계 값: . 실제 피셔 비율은 피셔 비율의 임계값보다 크기 때문에 연료 유형이 소비에 영향을 미칠 확률을 95%로 가정합니다.

MS Excel에서 반복없이 양방향 분산 분석

MS Excel 절차를 사용하여 반복 없이 분산의 양방향 분석을 수행할 수 있습니다. 이를 사용하여 예제 3의 연료 유형과 소비 사이의 관계에 대한 데이터를 분석합니다.

MS Excel 메뉴에서 다음 명령을 실행합니다. 서비스/데이터 분석분석 도구 선택 반복 없는 양방향 분산 분석.

일원 분산 분석의 경우와 같은 방식으로 데이터를 채웁니다.


절차의 결과 두 개의 테이블이 표시됩니다. 첫 번째 테이블은 총계입니다. 여기에는 관찰 수, 총 값, 평균 값 및 분산과 같은 모든 요인 그라데이션 클래스에 대한 데이터가 포함됩니다.

두 번째 테이블인 분산 분석에는 행 간 분산, 열 간 분산, 오차 분산, 총 분산, 편차 제곱합(SS), 자유도(df), 분산(MS) 등 변동 원인에 대한 데이터가 포함되어 있습니다. ). 마지막 3개 열 - 피셔 비율(F), p-레벨(P-값) 및 피셔 비율(F crit)의 임계값의 실제 값.

석사 에프 p-값 Fcrit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

요인 (엔진 크기)는 행으로 그룹화됩니다. 실제 피셔 비율 5.28은 임계값 6.94보다 작기 때문에 연료 소비가 엔진 크기에 따라 달라지지 않을 확률을 95%로 가정합니다.

요인 (연료 유형)은 열로 그룹화됩니다. 실제 피셔 비율 13.56은 임계 비율 6.94보다 크므로 95%의 확률로 유형에 따라 연료 소비가 달라진다고 가정합니다.

반복을 통한 양방향 분산 분석: 방법의 본질, 공식, 예제

반복을 통한 양방향 분산 분석은 두 가지 요인에 대한 효과적인 기능의 가능한 의존성을 확인하는 데 사용됩니다. 그리고 , 뿐만 아니라 요인의 가능한 상호 작용 그리고 . 그 다음에 - 요소의 그라데이션 수 그리고 - 요소의 그라데이션 수 , 아르 자형- 반복 횟수. 통계적 복합물에서 제곱 잔차의 합은 다음 네 가지 구성 요소로 나뉩니다.

봄 여름 시즌 = 봄 여름 시즌+ 봄 여름 시즌 b+ 봄 여름 시즌 ab + 봄 여름 시즌이자형,

제곱 편차의 총합,

- 요인의 영향으로 설명 제곱 편차의 합,

- 요인의 영향으로 설명 제곱 편차의 합,

- 요인의 상호 작용의 영향으로 설명 그리고 제곱 편차의 합,

- 설명할 수 없는 편차 제곱합 또는 오차 편차 제곱합,

- 관측치의 총 평균,

- 요인의 각 단계에서 관측치의 평균 ,

- 요인의 각 등급에서 관측치의 평균 수 ,

각 요인 등급 조합의 평균 관측치 수 그리고 ,

N = abr총 관찰 수입니다.

분산은 다음과 같이 계산됩니다.

요인의 영향으로 설명되는 산포 ,

요인의 영향으로 설명되는 산포 ,

- 요인들의 상호작용으로 설명되는 분산 그리고 ,

- 설명할 수 없는 분산 또는 오류 분산,

V= − 1 - 계수의 영향으로 설명되는 분산의 자유도 수 ,

Vb= − 1 - 계수의 영향으로 설명되는 분산의 자유도 수 ,

Vab = ( − 1)( − 1) - 요인의 상호 작용으로 설명되는 분산의 자유도 수 그리고 ,

Ve= ab(아르 자형 − 1) 설명되지 않은 분산 또는 오류 분산의 자유도 수입니다.

V = abr− 1 - 총 자유도.

요인이 서로 독립적인 경우 요인의 유의성을 결정하기 위해 3개의 귀무 가설과 해당 대체 가설이 제시됩니다.

요인에 대한 :

시간0 : μ 1A= μ 2A = ... = μ AA,

시간1 : 전부는 아님 μ 아이에이같다;

요인에 대한 :

요인의 상호 작용의 영향을 결정하기 위해 그리고 , 실제 피셔 비율을 임계 피셔 비율과 비교해야 합니다.

실제 피셔 비율이 임계 피셔 비율보다 크면 유의 수준으로 귀무 가설을 기각해야 합니다. α . 이는 요인이 데이터에 상당한 영향을 미친다는 것을 의미합니다. 데이터는 확률이 있는 요인에 따라 달라집니다. = 1 − α .

실제 피셔 비율이 임계 피셔 비율보다 작으면 유의 수준에서 귀무 가설을 수락해야 합니다. α . 이는 요인이 확률이 있는 데이터에 크게 영향을 미치지 않는다는 것을 의미합니다. = 1 − α .

반복을 통한 양방향 분산 분석: 예

요인의 상호 작용에 대해 그리고 : 실제 피셔 비율이 크리티컬 피셔 비율보다 낮으므로 광고 캠페인과 특정 매장 간의 상호 작용이 중요하지 않습니다.

MS Excel에서 반복을 통한 양방향 분산 분석

반복을 통한 양방향 분산 분석은 MS Excel 절차를 사용하여 수행할 수 있습니다. 이를 사용하여 점포 수입과 특정 점포의 선택 및 사례 4의 광고 캠페인 간의 관계에 대한 데이터를 분석합니다.

MS Excel 메뉴에서 다음 명령을 실행합니다. 서비스/데이터 분석분석 도구 선택 반복을 통한 양방향 분산 분석.

반복 없이 양방향 ANOVA의 경우와 동일한 방식으로 데이터를 채웁니다. 추가로 샘플링할 행 수 상자에 반복 횟수를 입력해야 합니다.

절차의 결과 두 개의 테이블이 표시됩니다. 첫 번째 테이블은 세 부분으로 구성됩니다. 처음 두 개는 두 광고 캠페인 각각에 해당하고 세 번째는 두 광고 캠페인에 대한 데이터를 포함합니다. 표의 열에는 두 번째 요소의 모든 그라데이션 클래스에 대한 정보가 포함되어 있습니다. 저장: 관찰 수, 총 값, 평균 값 및 분산.

두 번째 표에서 - 편차 제곱합(SS), 자유도(df), 분산(MS), 피셔 비율의 실제 값(F), p-수준(P-값)에 대한 데이터 다양한 변동 원인에 대한 피셔 비율(F crit)의 임계값: 행(샘플)과 열에 제공된 두 가지 요인, 요인 상호 작용, 오류(내부) 및 총계(전체).

석사 에프 p-값 Fcrit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

요인을 위해 실제 피셔 비율은 임계 비율보다 크므로 95%의 확률로 매장마다 수익이 크게 다릅니다.

요인의 상호 작용 그리고 Fisher의 실제 비율은 중요하지 않으므로 95%의 확률로 광고 캠페인과 특정 상점 간의 상호 작용은 중요하지 않습니다.

"수학적 통계"에 관한 모든 것