일반 인구 및 샘플링 방법. 표본추출의 기초와 단순 무작위 표본의 형성 표본의 결과 제시

학습 목표

  1. 인구 조사(자격)와 샘플링의 개념을 구별하는 것은 분명합니다.
  2. 표본 모집단을 얻기 위해 연구자가 구현한 6단계의 본질과 순서를 파악합니다.
  3. "샘플링 프레임"의 개념을 정의합니다.
  4. 확률적 샘플링과 결정적 샘플링의 차이점을 설명합니다.
  5. 고정 크기 샘플링과 다단계(연속) 샘플링을 구별합니다.
  6. 의도적 샘플링이 무엇인지 설명하고 장점과 단점을 모두 설명합니다.
  7. 할당량 샘플링의 개념을 정의합니다.
  8. 선택 절차에서 매개변수가 무엇인지 설명하십시오.
  9. 파생 집합이 무엇인지 설명하십시오.
  10. 표본 분포의 개념이 통계의 가장 중요한 개념인 이유를 설명하십시오.

따라서 연구자는 문제를 정확하게 정의하고 이를 해결하기 위한 적절한 연구 설계 및 데이터 수집 도구를 확보했습니다. 조사 과정의 다음 단계는 조사할 요소를 선택하는 것입니다. 이 인구에 대한 완전한 인구 조사를 통해 주어진 인구의 각 요소를 조사하는 것이 가능합니다. 인구에 대한 완전한 조사를 인구 조사(자격)라고 합니다. 또 다른 가능성이 있습니다. 큰 그룹의 요소 샘플인 모집단의 특정 부분이 통계 검사를 받고 이 하위 집합에서 얻은 데이터에 따라 전체 그룹에 대해 특정 결론이 도출됩니다. 표본 데이터에서 얻은 결과를 큰 그룹으로 일반화하는 능력은 표본을 취한 방법에 따라 다릅니다. 이 장의 대부분은 표본을 추출하는 방법과 그 이유에 대해 설명합니다.

인구 조사(자격)
전체 인구 조사(인구).
견본
더 큰 개체 그룹의 하위 집합 요소 모음입니다.

"인구" 또는 "수집"의 개념은 사람뿐만 아니라 제조 산업에서 활동하는 회사, 소매업체 또는 도매업체, 심지어 기업에서 생산한 부품과 같은 완전히 무생물을 지칭할 수도 있습니다. 이 개념은 주어진 특정 조건을 충족하는 전체 요소 집합으로 정의됩니다. 이러한 조건은 대상 그룹에 속하는 요소와 고려 대상에서 제외해야 하는 요소를 모두 고유하게 정의합니다.

냉동 피자 소비자의 인구통계학적 프로필을 결정하는 것을 목표로 하는 연구는 누가 그렇게 분류되어야 하고 분류되어서는 안 되는지 식별하는 것으로 시작해야 합니다. 그런 피자를 한 번이라도 먹어본 사람이 이 범주에 속합니까? 한 달에 적어도 한 판 이상의 피자를 사는 개인은? 주에? 한 달에 일정량 이상의 피자를 먹는 개인은? 연구원은 대상 그룹을 결정하는 데 매우 정확해야 합니다. 표본 추출 프레임이 부적절하거나 불완전한 경우인 "일부" 모집단이 아닌 대상 모집단에서 표본을 추출하도록 주의해야 합니다. 후자는 실제 샘플이 형성될 요소 목록입니다.

연구자는 여러 가지 이유로 전체 인구 조사보다 샘플링 접근 방식을 선호할 수 있습니다. 첫째, 인구에 대한 완전한 조사는 상대적으로 작은 규모일지라도 매우 큰 재료 및 시간 비용을 요구합니다. 종종 인구 조사가 완료되고 데이터가 처리될 때 정보는 이미 최신 정보가 아닙니다. 어떤 경우에는 자격이 단순히 불가능합니다. 연구원들이 전기 백열등의 실제 수명과 계산된 수명의 준수 여부를 확인하기 시작했다고 가정해 봅시다. 이런 식으로 램프의 전체 공급을 조사하면 신뢰할 수있는 데이터를 얻을 수 있지만 거래 할 것은 없습니다.

마지막으로, 초심자들의 큰 놀라움으로 연구원은 결과의 정확성을 위해 노력하면서 인구 조사보다 표본 추출을 선호할 수 있습니다. 인구 조사에는 많은 직원이 필요하므로 편향(비표본) 오류의 가능성이 높아집니다. 이러한 상황은 미국 인구조사국이 다양한 유형의 인구조사의 정확성을 테스트하기 위해 샘플 설문조사를 사용하는 이유 중 하나입니다. 당신은 그 권리를 읽었습니다. 샘플 설문 조사는 자격 데이터의 정확성을 테스트하기 위해 수행될 수 있습니다.

샘플 디자인 단계

무화과에. 그림 15.1은 연구자가 샘플을 설계할 때 따를 수 있는 6단계 순서를 보여줍니다. 우선, 연구자가 알고 싶어하는 대상 인구 또는 요소 집합을 결정하는 것이 필요합니다.

예를 들어, 어린이의 선호도를 연구할 때 연구자는 대상 인구가 어린이만으로 구성될지, 부모로만 구성될지 또는 둘 다로 구성될지 결정해야 합니다.

집계(인구)
특정 조건을 만족하는 요소의 집합입니다.
샘플링 프레임(베이스)
선택할 요소의 목록입니다. 영토 단위, 조직, 사람 및 기타 요소로 구성될 수 있습니다.

어떤 회사는 전기 "인종"을 어린이에게만 테스트했습니다. 아이들은 완전히 매료되었습니다. 부모는 참신함에 대해 다르게 반응했습니다. 엄마는 놀이기구가 아이들에게 자동차 친화적인 법을 가르치지 않는다는 사실을 좋아하지 않았고 아빠는 제품이 장난감처럼 만들어졌다는 사실을 좋아하지 않았습니다.
반대 상황도 가능합니다. 한 기업이 새로운 식품을 출시하고 조산아를 대상으로 전국적인 광고 캠페인을 펼치고, 들뜬 엄마만을 대상으로 광고 효과를 테스트했다. 반면에 아이들은 이 "가속"과 함께 광고된 제품 자체가 역겹다고 생각했습니다. 제품 종료 1 .

연구자는 개인, 가족, 회사, 기타 조직, 신용 카드 거래 등 관련 인구가 누구 또는 무엇으로 구성될 것인지 결정해야 합니다. 이러한 결정을 내릴 때 인구에서 제외되어야 하는 요소를 결정할 필요가 있습니다. 요소에 대한 시간적, 지리적 참조가 모두 이루어져야 하며, 경우에 따라 추가 조건이나 제한이 적용될 수 있습니다. 예를 들어, 개인에 대해 이야기하는 경우 원하는 인구는 18세 이상의 사람으로만 구성되거나 여성으로만 구성되거나 최소한 중등 교육을 받은 사람으로만 구성될 수 있습니다.

국제 마케팅 연구에서 대상 인구에 대한 지리적 경계를 결정하는 작업은 고려 중인 시스템의 이질성을 증가시키기 때문에 특히 문제가 될 수 있습니다. 예를 들어, 도시와 농촌 지역의 상대적 비율은 국가마다 크게 다를 수 있습니다. 영토적 측면은 동일한 국가 내에서 인구 구성에 심각한 영향을 미칩니다. 예를 들어, 칠레 북부에는 주로 인도인 인구가 밀집해 살고 있으며 남부 지역에는 주로 유럽인의 후손이 살고 있습니다.

적용 범위(사고)
표본에 포함하기 위한 조건을 충족하는 모집단 또는 그룹 구성원의 비율입니다.

일반적으로 말해서 대상 모집단을 간단하게 정의할수록 해당 범위(발생률)가 높아지고 샘플링 절차가 더 쉽고 저렴합니다. 적용 범위(사고)표본에 포함하기 위한 조건을 충족하는 모집단 또는 그룹 요소의 비율에 해당합니다(백분율로 표시됨). 적용 범위는 설문 조사를 수행하는 데 필요한 시간과 재료 비용에 직접적인 영향을 미칩니다. 적용 범위가 큰 경우(즉, 대부분의모집단의 요소가 잠재적 응답자를 식별하는 데 사용되는 하나 이상의 간단한 기준을 충족함), 데이터 수집에 필요한 시간 및 재료 비용이 최소화됩니다. 반대로, 잠재적 응답자가 충족해야 하는 기준의 수가 증가함에 따라 재료 및 시간 비용이 모두 증가합니다.

무화과에. 15.2는 특정 스포츠에 관련된 성인 인구의 비율을 보여줍니다. 그림의 데이터는 정기적으로 여가 산책을 하는 사람들(전체 성인 인구의 27.4%)보다 오토바이를 타는 사람들(전체 성인 인구의 3.6%)을 조사하는 것이 훨씬 어렵고 비용이 많이 든다는 것을 나타냅니다. 성인). 가장 중요한 것은 연구자가 연구 모집단에 포함되어야 하는 요소와 제외해야 하는 요소를 정확하게 결정하는 것입니다. 연구 목적에 대한 명확한 설명은 이 문제의 해결을 크게 촉진합니다. 샘플링 프로세스의 두 번째 단계는 샘플링 프레임을 결정하는 것입니다. 샘플링 프레임은 이미 알고 있듯이 샘플을 추출할 요소 목록입니다. 특정 연구의 대상 인구를 댈러스 지역에 거주하는 모든 가족이라고 가정합니다. 언뜻 보기에 Dallas 전화번호부는 훌륭하고 쉽게 액세스할 수 있는 샘플링 프레임일 수 있습니다. 그럼에도 불구하고 더 자세히 살펴보면 인명록에 포함된 가족 목록이 완전히 정확하지 않다는 것이 분명해집니다. 그 이유는 일부 가족의 번호가 누락되어 있기 때문입니다(물론 전화가 없는 가족은 포함되지 않음). 일부 가족에는 여러 전화 번호가 있습니다. 최근에 거주지와 전화 번호를 변경한 사람도 디렉토리에 없습니다.

숙련된 연구자들은 샘플링 프레임과 관심 대상 인구 사이의 정확한 일치가 매우 드물다는 결론에 도달했습니다. 샘플링 설계에서 가장 창의적인 단계 중 하나는 모집단 구성원을 나열하기 어려운 경우 적절한 샘플링 프레임을 결정하는 것입니다. 예를 들어 전화 번호부의 단점으로 인해 무작위 다이얼링이 사용되는 경우 작업 블록 및 접두사에서 샘플링이 필요할 수 있습니다. 그러나 지난 10년 동안 작업 단위의 상당한 증가로 인해 이 작업이 더 어려워졌습니다. 예를 들어 개인이 대상 인구이지만 정확한 최신 목록이 없는 경우와 같이 후속 하위 샘플링이 있는 영토 또는 조직을 선택적으로 관찰하는 동안 유사한 상황이 발생할 수 있습니다.

출처: SSI-에 포함된 데이터 기반 라이트 TM: 오 발생 표적 에스증폭"(Fairfield, Conn.: Survey Sampling, Inc., 1994).

샘플링 절차의 세 번째 단계는 샘플링 프레임의 결정과 밀접한 관련이 있습니다. 샘플링 방법이나 절차의 선택은 연구자가 채택한 샘플링 프레임에 크게 좌우됩니다. 다른 유형의 샘플에는 다른 유형의 샘플링 프레임이 필요합니다. 이 장과 다음 장에서는 마케팅 조사에 사용되는 주요 유형의 샘플에 대한 개요를 제공합니다. 그것들을 설명할 때 샘플링 프레임과 그 형성 방법 사이의 연결이 명확해야 합니다.

표본 추출 절차의 네 번째 단계는 표본 크기를 결정하는 것입니다. 이 문제는 챕터에서 논의됩니다. 17. 다섯 번째 단계에서 연구자는 실제로 조사 대상이 될 요소를 선택해야 합니다. 이를 위해 사용되는 방법은 선택한 샘플 유형에 따라 결정됩니다. 샘플링 방법을 논의할 때 요소 선택에 대해서도 이야기할 것입니다. 그리고 마지막으로 연구자는 확인된 응답자를 실제로 조사해야 합니다. 이 단계에서 많은 오류를 범할 가능성이 높습니다.
이러한 문제와 해결을 위한 몇 가지 방법은 챕터에서 논의됩니다. 십팔.

샘플링 계획 유형(샘플링)

모든 샘플링 방법은 확률 샘플 관찰과 결정론적 샘플 관찰의 두 가지 범주로 나눌 수 있습니다. 확률적 표본에서 모집단의 각 구성원은 지정된 0이 아닌 특정 확률로 포함될 수 있습니다. 표본에 모집단의 특정 구성원이 포함될 확률은 다를 수 있지만 각 요소가 표본에 포함될 확률은 알려져 있습니다. 이 확률은 샘플 멤버를 선택하는 데 사용되는 특별한 기계적 절차에 의해 결정됩니다.

결정론적 표본의 경우 표본에 요소가 포함될 확률을 추정하는 것은 불가능합니다. 이러한 샘플의 대표성은 보장할 수 없습니다. 예를 들어, 올스테이트 코퍼레이션에 대한 청구에 대한 데이터를 처리하는 시스템을 개발했습니다. 보험 보상 1400만 가구(고객). 회사는 이 데이터를 사용하여 Mercedes Benz를 소유한 가구가 휴가용 주택(보험이 필요함)도 소유할 가능성과 같은 서비스에 대한 수요 패턴을 결정할 계획입니다. 데이터베이스는 매우 크지만 회사는 특정 고객이 청구할 가능성을 추정할 수단이 없습니다. 따라서 회사는 주장하는 고객 데이터가 회사의 모든 고객을 대표한다고 확신할 수 없습니다. 잠재 고객과 관련하여 훨씬 더 적습니다.

모든 결정적 표본은 표본 구성원에 대한 기계적 선택 절차가 아니라 연구자의 개인적 위치, 판단 또는 선호도를 기반으로 합니다. 그러한 선호는 때때로 좋은 표시그러나 모집단의 특성에 따라 표본의 작업 준수 여부를 객관적으로 결정할 수 있는 방법이 없습니다. 샘플 결과의 정확성 평가는 특정 요소를 선택할 확률이 알려진 경우에만 수행할 수 있습니다. 이러한 이유로 확률 샘플링 작업은 일반적으로 샘플링 오류의 크기를 추정하는 더 나은 방법으로 간주됩니다. 샘플은 고정 크기 샘플과 순차 샘플로 세분될 수도 있습니다. 고정된 크기의 샘플로 작업할 때 설문조사를 시작하기 전에 샘플 크기를 결정하고 결과 분석에 앞서 필요한 모든 데이터를 수집합니다. 이 유형은 일반적으로 마케팅 연구에 사용되기 때문에 주로 고정 크기 샘플에 관심이 있습니다.

확률 샘플링
모집단의 각 요소가 0이 아닌 알려진 확률로 포함될 수 있는 표본입니다.
결정적 샘플링
특정 요소의 선택을 결정하는 특정 선호도 또는 판단에 기반한 샘플링 동시에 표본에 모집단의 임의 요소가 포함될 확률을 추정하는 것이 불가능해집니다.

그러나 아래에 설명된 각 기본 샘플링 디자인에 사용할 수 있는 순차적 샘플도 있다는 사실을 잊어서는 안됩니다.

순차적 샘플에서 선택된 요소의 수는 미리 알 수 없으며 일련의 순차적 결정을 기반으로 결정됩니다. 작은 표본에 대한 조사가 신뢰할 수 있는 결과로 이어지지 않으면 조사할 요소의 범위가 확장됩니다. 그 후에도 결과가 결정적이지 않으면 표본 크기가 다시 증가합니다. 각 단계에서 충분히 설득력 있는 결과를 얻을 것인지 아니면 계속해서 데이터를 수집할 것인지 결정합니다. 순차 샘플링으로 작업하면 수집되는 데이터의 추세(변화 추세)를 평가할 수 있으므로 편의가 무의미한 경우 추가 관찰과 관련된 비용이 절감됩니다.

확률적 샘플링 계획과 결정적 샘플링 계획은 모두 여러 유형으로 나뉩니다. 예를 들어, 결정적 샘플은 비대표적(편리한), 의도적 또는 할당량일 수 있으며, 확률적 샘플은 단순 무작위, 계층화 또는 그룹(클러스터)으로 나뉘며 차례로 하위 유형으로 나눌 수 있습니다. 무화과에. 그림 15.3은 이 장과 다음 장에서 논의할 샘플 유형을 보여줍니다.

고정 표본(고정 표본)
크기가 사전에 결정된 표본; 필요한 정보는 선택한 요소에 의해 결정됩니다.
순차 샘플링
일련의 순차적 결정을 기반으로 형성된 샘플입니다. 작은 표본을 고려한 후 결과가 결정적이지 않으면 더 큰 표본이 ​​고려됩니다. 이 단계가 결과로 이어지지 않으면 표본 크기가 다시 증가하는 등입니다. 따라서 각 단계에서 얻은 결과가 충분히 설득력 있는 것으로 간주될 수 있는지에 대한 결정이 내려집니다.

기본 유형의 샘플을 결합하여 보다 복잡한 샘플링 설계를 형성할 수 있음을 기억해야 합니다. 기본 초기 유형을 배우면 더 복잡한 조합을 다루기가 더 쉬울 것입니다.

결정적 선택

이미 언급했듯이 결정론적 표본의 요소를 선택할 때 개인적인 추정이나 결정이 결정적인 역할을 합니다. 때때로 이러한 평가는 연구원이 하는 반면, 다른 경우에는 모집단 요소의 선택이 현장 직원에게 주어집니다. 요소는 기계적으로 선택되지 않기 때문에 샘플에 임의의 요소가 포함될 확률과 그에 따른 샘플링 오류를 판별하는 것이 불가능합니다. 선택한 샘플링 절차로 인한 오류에 대한 무지는 연구자가 추정의 정확성을 평가하는 것을 방해합니다.

비대표(편의) 샘플

비대표(편의) 샘플샘플 요소의 선택이 "무작위" 방식으로 수행되기 때문에 때때로 무작위라고도 합니다. 즉, 선택 기간 동안 가장 접근하기 쉬운 요소가 선택됩니다.

우리의 일상 생활그러한 선택의 예들로 가득 차 있습니다. 우리는 친구들과 이야기를 나누고 그들의 반응과 입장에 따라 사회에 만연한 정치적 성향에 대해 결론을 내립니다. 지역 라디오 방송국은 사람들이 논쟁의 여지가 있는 문제에 대해 자신의 의견을 표현하도록 권장하며, 그들의 의견은 우세한 것으로 해석됩니다. 우리는 자원 봉사자의 협력을 요청하고 우리를 돕기 위해 자원하는 사람들과 협력합니다. 편의 표본의 문제는 명백합니다. 이러한 종류의 표본이 실제로 대상 모집단을 나타내는지 확신할 수 없습니다. 우리 친구들의 의견이 정확하게 반영된다는 것 정치적 견해우리는 여전히 의심할 수 있지만, 유사하게 선택된 더 큰 표본이 ​​대표적이라고 믿고 싶을 때가 있습니다. 예를 들어 그러한 가정의 오류를 보여줍시다.
몇 년 전 이 책의 저자가 살고 있는 도시의 한 지역 텔레비전 방송국에서 지역 사회의 관심 주제에 대해 매일 여론 조사를 실시했습니다. 매디슨 펄스(The Madison Pulse)라고 불리는 여론조사는 다음과 같이 진행되었습니다. 매일 저녁 6시 뉴스에서 방송국은 시청자에게 특정 논란이되는 문제에 대해 긍정적 또는 부정적인 답변을 제공해야하는 질문을했습니다.

긍정적 인 대답의 경우 부정적인 대답의 경우 다른 전화 번호로 전화해야했습니다. "찬성" 및 "반대"의 투표 수는 자동으로 계산되었습니다. 10시 뉴스캐스트는 전화조사 결과를 보도했다. 매일 저녁 500명에서 1000명 사이의 사람들이 이 문제에 대한 자신의 입장을 밝히기 위해 스튜디오에 전화를 걸었습니다. 텔레비전 해설자는 여론 조사 결과를 사회의 지배적인 의견으로 해석했습니다.

비대표(편의) 샘플
샘플 요소의 선택이 "무작위" 방식으로 수행되기 때문에 때때로 무작위라고 합니다. 선택 기간 동안 가장 접근하기 쉬운 요소가 선택됩니다.

6시간짜리 에피소드 중 하나에서 시청자들은 "매디슨의 음주 연령을 18세로 낮춰야 한다고 생각하지 않습니까?"라는 질문을 받았습니다. 기존 법적 자격은 21년에 해당했다. 청중은 이 질문에 특별한 활동으로 반응했습니다. 거의 4,000명이 그날 저녁 스튜디오에 전화를 걸었고 그 중 78%가 연령 제한을 낮추는 데 찬성했습니다. 4,000명의 샘플이 180,000명의 커뮤니티를 "대표해야" 한다는 것은 분명한 것 같습니다. 짐작할 수 있듯이 특정 연령대는 다른 연령대보다 알려진 결과에 더 많은 관심을 보였습니다. 따라서 몇 주 후에 이 문제에 대한 토론에서 설문조사에 할당된 시간 동안 학생들이 협력하여 행동한 것으로 밝혀진 것은 놀라운 일이 아닙니다. 그들은 차례로 텔레비전에 여러 번 전화를 걸었습니다. 따라서 표본의 크기나 법의 자유화를 지지하는 사람들의 비율은 놀라운 것이 아닙니다. 표본이 대표성이 아닙니다.

단순히 표본 크기를 늘리는 것만으로는 표본을 대표할 수 없습니다. 표본의 대표성은 크기가 아니라 요소를 선택하는 적절한 절차에 의해 보장됩니다. 설문 참여자가 자발적으로 선택되거나 가용성에 따라 표본 항목이 선택되는 경우 표본 추출 계획은 표본의 대표성을 보장하지 않습니다. 경험적 증거에 따르면 편의를 위해 선택한 표본은 대표성이 거의 없습니다(크기에 관계없이). 800-900표를 고려하는 전화 투표는 규모가 크지만 대표성이 없는 표본의 가장 일반적인 형태입니다.

의도적 샘플링
요소가 수동으로 선택되는 결정적(표적) 샘플링 연구원의 의견으로 설문 조사의 목적을 충족시키는 요소가 선택됩니다.
의도적 샘플링, 원하는 특성을 가진 초기 응답자 집합을 설정하는 연구원의 능력에 따라 다릅니다. 그런 다음 이러한 응답자는 개인의 추가 선택을 결정하는 정보 제공자로 사용됩니다.

불행히도 많은 사람들이 그러한 설문조사의 결과를 자신 있게 취급합니다. 국제 마케팅 조사에서 비대표 표본을 사용하는 가장 특징적인 예 중 하나는 거주하는 외국인으로 구성된 표본을 기반으로 특정 국가를 대상으로 조사한 것입니다. 이 순간조사를 시작한 국가의 영토(예: 미국에 거주하는 스칸디나비아인). 이러한 표본이 고려 중인 인구의 특정 측면을 밝힐 수 있지만 이러한 개인은 일반적으로 자신의 국가와 연결이 다소 임의적일 수 있는 "미국화된" 엘리트를 대표한다는 점을 기억해야 합니다. 비대표적 표본의 사용은 설명적 또는 인과적 조사에 권장되지 않습니다. 특정 아이디어나 아이디어를 테스트하기 위한 탐색적 연구에서만 허용되지만 이 경우에도 의도적인 샘플을 사용하는 것이 좋습니다.

의도적인 선택

의도적 샘플은 때때로 초점이 맞지 않는; 연구원의 의견에 따라 연구 목적을 충족시키는 요소는 수동으로 선택됩니다. 프록터 앤 갬블 Cincinnati 본사 근처에 거주하는 13세에서 17세 사이의 사람들에게 광고를 표시할 때 이 방법을 사용했습니다. 회사의 분할 식료품그리고 음료수는 일종의 소비자 표본 역할을 하기 위해 이 10대 그룹을 고용했습니다. 일주일에 10시간 일하고 1,000달러를 받고 콘서트에 가고, 텔레비전 광고를 보고, 회사 관리자와 슈퍼마켓을 방문하여 제품 디스플레이를 보고, 신제품을 테스트하고, 구매 행동에 대해 논의했습니다. 무작위가 아닌 "고용" 과정을 통해 표본의 대표자를 선택함으로써 회사는 자신의 견해가 자신의 나이를 대표하지 않을 수 있는 위험을 무릅쓰고 십대의 명확한 의사 표현 능력과 같이 유용하다고 생각되는 특성에 집중할 수 있습니다. 그룹.

이미 언급했듯이 의도적 샘플링의 구별되는 특징은 요소의 방향 선택입니다. 어떤 경우에는 표본 항목이 대표성 때문이 아니라 연구자에게 관심 있는 정보를 제공할 수 있기 때문에 선택됩니다. 법원이 전문가의 증언에 따라 인도될 때 어떤 의미에서는 신중한 선택에 의존합니다. 개발 분야에서도 유사한 입장이 우세할 수 있습니다. 리서치 프로젝트. 문제에 대한 초기 연구 동안 연구원은 주로 샘플 요소의 선택을 결정하는 연구의 전망을 결정하는 데 관심이 있습니다.

눈덩이 샘플링특정 유형의 모집단을 다룰 때 사용되는 일종의 고의적 샘플링입니다. 이 샘플은 원하는 특성을 가진 초기 응답자 집합을 지정하는 연구원의 능력에 따라 다릅니다. 이 응답자는 개인의 추가 선택을 결정하기 위한 정보 제공자로 사용됩니다.

예를 들어, 한 회사에서 청각 장애인이 전화로 의사 소통할 수 있는 제품의 필요성을 평가하려고 한다고 상상해 보십시오. 연구원은 청각 장애인 커뮤니티의 핵심 인물을 식별하여 이 문제를 개발할 수 있습니다. 후자는 설문 조사에 참여하는 데 동의할 그룹의 다른 구성원의 이름을 지정할 수 있습니다. 이 전술을 사용하면 샘플이 눈덩이처럼 커집니다.

연구자가 문제 해결의 초기 단계에 있는 동안 계획된 조사의 전망과 가능한 한계가 결정될 때 의도적 샘플링을 사용하는 것이 매우 효과적일 수 있습니다. 그러나 어떤 경우에도 잊어서는 안됩니다. 약점이 유형의 샘플은 연구자가 설명적 또는 인과적 연구에서도 사용할 수 있으므로 결과의 품질에 영향을 미치는 데 느리지 않습니다. 이러한 건망증의 전형적인 예는 소비자 물가 지수("CPI")입니다. Südman이 지적했듯이( 수드만): “CPI는 56개 도시와 수도권에 대해서만 결정되며, 그 선택도 정치적 요인에 영향을 받습니다. 사실, 이 도시들은 자신들만을 대표할 수 있는 반면 인덱스는 시급을 받는 시민을 위한 소비자 물가 지수 임금 *, 그리고 직원대부분의 사람들에게 미국 전역의 물가 수준을 반영하는 지수로 나타납니다. 소매점 선택도 무작위가 아니므로 결과적으로 가능한 샘플링 오류의 추정이 불가능해짐» (이탤릭체) 2 .

* 즉, 노동자. - 메모. 당.

할당량 샘플

세 번째 유형의 결정적 샘플링 - 할당량 샘플; 알려진 대표성은 조사된 모집단에서와 같은 특정 특성을 가진 요소를 동일한 비율로 포함함으로써 달성됩니다("연구 창 15.1" 참조). 예를 들어 캠퍼스에 거주하는 학생의 대표적인 표본을 만드는 것을 고려하십시오. 500명의 특정 표본에 1학년 학생이 한 명도 없다면, 우리는 표본의 대표성과 이 표본에서 얻은 결과를 연구 대상 인구에 적용하는 타당성을 의심할 권리가 있습니다. 비례 샘플링으로 작업할 때 연구원은 표본의 학부생 비율이 전체 학생 수에서 차지하는 비율과 일치하는지 확인할 수 있습니다.

연구원이 대학생에 대한 선택적 연구를 수행하면서 표본이 한 성별에 속하는 것뿐만 아니라 코스별 분포를 반영한다는 사실에 관심이 있다고 가정합니다. 총 학생 수를 10,000이라고 하면 신입생 3,200명, 2학년 2,600명, 3학년 2,200명, 4학년 2,000명, 그 중 7,000명의 소년과 3,000명의 소녀가 있습니다. 1,000명의 표본에 대해 비례 표본 계획에는 1학년 320명, 2학년 260명, 3학년 220명, 졸업생 200명, 남학생 700명, 여학생 300명이 필요합니다. 연구원은 각 면접관에게 특정 할당량을 제공하여 이 계획을 구현할 수 있으며, 이에 따라 어떤 학생에게 연락해야 하는지 결정할 수 있습니다.

할당량 샘플링특정 특성을 가진 표본 요소의 비율이 연구 대상 모집단에서 동일한 요소의 비율과 대략 일치하는 방식으로 선택된 결정론적 표본. 각 현장 작업자에게는 접촉해야 하는 인구의 특성을 결정하는 할당량이 할당됩니다.

20번의 인터뷰를 진행하는 면접관은 다음과 같이 질문하도록 지시받을 수 있습니다.

            • 6명의 1학년 학생 - 5명의 남학생과 1명의 여학생;
            • 6명의 2학년 - 4명의 소년과 2명의 소녀;
            • 4명의 3학년 학생 - 3명의 남학생과 1명의 여학생;
            • 4학년 학생 4명 - 남학생 2명, 여학생 2명.

특정 샘플 요소의 선택은 연구 계획에 의해 결정되는 것이 아니라 할당량에 의해 설정된 조건(5명의 신입생, 1명의 신입생을 면접하는 등)만을 준수하도록 요청받은 면접관의 선택에 의해 결정된다는 점에 유의하십시오.

또한 이 할당량은 학생 인구의 성별 분포를 정확하게 반영하지만 코스 전반에 걸친 학생 분포를 다소 왜곡합니다. 면접은 70%(20명 중 14명)가 남학생이지만 1학년 면접은 30%(20명 중 6명)에 불과하며 전체 학생 수의 32%를 차지합니다. 각 개별 면접관에게 할당된 할당량은 모집단의 통제 특성 분포를 반영하지 않을 수 있으며 일반적으로 반영하지 않습니다. 최종 표본만 비례해야 합니다.

비례 표본 추출은 객관적 표본 추출 절차보다 개인, 주관적 태도 또는 판단에 더 의존한다는 점을 기억해야 합니다. 또한, 의도적인 샘플링과 달리 여기에서 개인적인 판단은 프로젝트 개발자가 아니라 면접관에게 있습니다. 비례 표본이 특정 통제 특성을 가진 모집단 고유의 구성 요소 비율을 재현하더라도 비례 표본이 대표적인 것으로 간주될 수 있는지에 대한 문제가 발생합니다. 이와 관련하여 세 가지 언급이 필요합니다.

첫째, 표본은 결과에 심각한 영향을 미칠 수 있는 다른 중요한 특성에서 모집단과 현저하게 다를 수 있습니다. 예를 들어, 연구가 학생 환경에 존재하는 인종적 편견의 문제에 전념하는 경우 무관심하지 않은 상황은 응답자가 출신 국가인 것으로 판명될 수 있습니다. 한 지방. "도시/농촌 출신" 특성에 대한 할당량이 지정되지 않았기 때문에 이 특성의 정확한 표현은 거의 불가능합니다. 물론 잠재적으로 중요한 모든 특성에 대한 할당량을 정의하는 것과 같은 대안이 있습니다. 그러나 제어 특성의 수가 증가하면 사양이 복잡해집니다. 이것은 차례로 샘플 요소의 선택을 복잡하게 만들고 때로는 불가능하게 만들기도 하며 어떤 경우에도 가격 상승으로 이어집니다. 예를 들어, 도시 또는 농촌 소속 및 사회경제적 지위도 연구와 관련이 있는 경우 면접관은 도시 및 상류층 또는 중산층인 1학년 학생을 찾아야 할 수 있습니다. 남자 신입생을 찾는 것이 훨씬 쉽다는 데 동의합니다.

둘째, 이 표본이 실제로 대표성이 있는지 확인하기가 매우 어렵습니다. 물론 대조군에 포함되지 않은 특성의 분포, 모집단에서의 분포를 확인하기 위해 표본을 확인할 수 있습니다. 그러나 그러한 테스트는 부정적인 결론으로 ​​이어질 수 있습니다. 분포의 발산만 밝힐 수 있습니다. 표본 분포와 이러한 각 특성에 대한 모집단이 서로 반복되는 경우 명시적으로 지정되지 않은 다른 특성에서 표본이 모집단과 다를 가능성이 있습니다.

그리고 마지막으로, 세 번째. 면접관은 자신의 장치에 맡겨져 특정 행동을 취하는 경향이 있습니다. 그들은 너무 자주 친구들에게 질문을 던집니다. 면접관 자신과 닮아가는 경우가 많기 때문에 오류의 위험이 있습니다. 영국의 증거에 따르면 할당량 샘플은 다음과 같은 경향이 있습니다.

  1. 가장 접근하기 쉬운 요소의 역할에 대한 과장;
  2. 소가족의 역할을 경시하는 것;
  3. 자녀가 있는 가족의 역할 과장;
  4. 산업 노동자의 역할을 경시하는 것;
  5. 가장 높은 소득과 가장 낮은 소득을 가진 사람들의 역할을 경시하는 것;
  6. 교육 수준이 낮은 시민의 역할을 경시하는 것;
  7. 사회적 지위가 낮은 사람들의 역할을 경시하는 것.
무작위로 지나가는 사람을 막고 미리 정해진 할당량을 선택하는 면접관은 쇼핑몰, 기차역및 공항, 대형 슈퍼마켓 입구 등. 이러한 관행은 그러한 장소를 가장 자주 방문하는 사람들의 그룹을 과도하게 대표하게 만듭니다. 가정 방문이 필요할 때 면접관은 종종 편의에 따라 움직입니다.
예를 들어, 그들은 낮에만 설문 조사를 수행 할 수 있으므로 근로자의 의견을 과소 평가합니다. 무엇보다 노후된 건물에는 들어가지 않고, 원칙적으로 엘리베이터가 없는 건물의 상층부에는 올라가지 않는다.

연구 중인 문제의 특성에 따라 이러한 경향은 다양한 종류의 오류로 이어질 수 있지만 데이터 분석 단계에서 이를 수정하는 것은 매우, 매우 어려운 일인 것 같습니다. 반면에, 표본 요소를 객관적으로 선택하면 연구자는 주어진 표본의 대표성을 평가하는 절차를 단순화할 수 있는 특정 도구를 마음대로 사용할 수 있습니다. 그러한 표본의 대표성의 문제를 분석할 때, 연구원은 표본의 구성보다 원소를 선택하는 절차를 고려합니다.

연구 창: 훌륭합니다! 그러나 누가 그것을 읽을 것인가?

매년 광고주는 광고 시대부터 양키에 이르기까지 수많은 출판물의 페이지에 게재되는 광고에 수백만 달러를 지출합니다. 텍스트와 이미지에 대한 특정 평가는 집에서, 광고 대행사에서 말하는 것처럼 출판 전에 이루어질 수 있습니다. 독자의 관심을 끌기 위해 똑같이 신중하게 제작된 수십 개의 광고로 둘러싸인 광고가 게시될 때까지 실제로 테스트되고 판단되지 않습니다.

회사 로퍼 스타치 월드와이드소비자, 비즈니스, 무역 및 전문 잡지와 신문에 게재된 광고의 가독성을 평가합니다. 연구 결과는 물론 적절한 비용으로 광고주와 대행사의 관심을 끌게 됩니다. 광고주는 소비자에게 광고를 전달하기 위해 매일 많은 노력을 기울이기 때문에 회사는 녹말가입자에게 광고 효과에 대한 시기적절하고 정확한 정보를 제공할 샘플을 만들기로 결정했습니다. 회사는 매년 녹말약 20,000개의 광고를 고려하면서 50,000명 이상의 사람들을 인터뷰했습니다. 매년 약 500개의 개별 출판물이 연구되었습니다.

Starch는 한 성별의 독자가 최소 100명이고 다른 성별의 독자가 100명 이상인 비례 샘플링을 사용했습니다. Starch는 이 표본 크기로 가독성 수준의 주요 편차가 안정화되었다고 결론지었습니다. 18세 이상의 독자를 직접 인터뷰했으며 특수 인구를 대상으로 한 출판물을 제외한 모든 출판물을 고려했습니다(예: Seventeen 잡지의 출판물을 평가하기 위해 적절한 연령의 소녀들을 인터뷰했습니다).

설문 조사를 수행 할 때 특정 출판물의 배포 영역이 고려되었습니다. 로스앤젤레스 잡지 연구에서 남부 캘리포니아에 사는 독자들을 조사했다고 가정해 보겠습니다. "시간"은 전국적으로 연구되었습니다. 설문조사는 잡지의 개별 호에 할애되었으며 20-30개 도시에서 동시에 실시되었습니다.

각 면접관에게는 설문조사 결과의 편차를 최소화하기 위해 작은 할당량의 인터뷰가 주어졌습니다. 설문지는 다양한 직업과 연령을 가진 사람들에게 배포되었습니다. 그러한 각각의 연구는 상당히 광범위한 독자층에게 입장을 제시하는 것을 가능하게 했습니다. 다수의 전문, 비즈니스 및 산업 출판물을 고려할 때 구독 및 배포의 세부 사항도 고려되었습니다. 유통량이 상당히 적은 출판물 전용 구독 목록을 통해 수용 가능한 응답자를 선택할 수 있었습니다.

각 설문조사에서 면접관은 응답자에게 출판물을 둘러보게 하고 광고를 본 적이 있는지 물었습니다. 대답이 예인 경우 등록 기관은 광고 수락 정도를 평가하기 위해 일련의 질문을 했습니다.

이 평가는 세 가지가 될 수 있습니다.

  • 주목하십시오 : 이미 그러한 발표가 나타난다는 사실에주의를 기울인 사람들.
  • 지인: 광고된 상표 또는 광고주를 다룬 광고의 일부를 기억하는 사람들.
  • 읽기: 광고의 절반 이상을 읽은 사람들.

모든 광고를 조사한 후 면접관은 성별, 연령, 직업, 결혼 여부, 국적, 소득, 가족 규모 및 가족 구성과 같은 주요 분류 정보를 기록하여 독자의 관심 정도를 교차 분석할 수 있었습니다.

적절하게 사용하면 회사 데이터 녹말광고주와 대행사가 독자의 관심을 끌고 유지하는 광고 계획의 성공 유형과 성공 유형을 모두 식별할 수 있도록 합니다. 이러한 종류의 정보는 주로 광고 캠페인의 효과에 관심이 있는 광고주에게 매우 유용합니다.

출처: Roper Starch Worldwide, Mamaronek, NY 10543

확률 샘플

연구원은 해당 요소의 선택이 객관적인 프로세스를 기반으로 수행되고 연구원 또는 현장 작업자의 변덕과 선호에 의존하지 않기 때문에 확률 샘플에 모집단의 모든 요소를 ​​포함할 확률을 결정할 수 있습니다. 요소 선택 절차가 객관적이기 때문에 연구자는 결정론적 샘플의 경우에는 아무리 신중하게 요소를 선택하더라도 얻을 수 없었던 결과의 신뢰성을 평가할 수 있습니다.

확률적 샘플이 항상 결정적 샘플보다 더 대표성이 있다고 생각해서는 안 됩니다. 사실, 결정론적 표본이 더 대표적일 수도 있습니다. 확률 표본의 장점은 잠재적 표본 오차를 추정할 수 있다는 것입니다. 연구자가 결정론적 표본으로 작업하는 경우 연구 목적에 대한 적합성을 평가하기 위한 객관적인 방법이 없습니다.

단순 무작위 샘플링

대부분의 사람들은 연구소에서 통계 과정의 일부로 또는 신문이나 잡지에서 관련 연구 결과에 대해 읽음으로써 어떤 식으로든 단순한 무작위 표본을 접하게 됩니다. 단순 무작위 표본에서 표본에 포함된 각 요소는 연구 중인 요소에 포함될 확률이 동일하며 원래 모집단의 요소 조합은 잠재적으로 표본이 될 수 있습니다. 예를 들어, 특정 대학에 등록한 모든 학생의 간단한 무작위 표본을 추출하려면 모든 학생의 목록을 만들고 각 이름에 번호를 할당하고 컴퓨터를 사용하여 주어진 요소의 수.

인구

인구
특정 지정된 조건을 충족하는 요소 집합입니다. 연구(대상) 모집단이라고도 합니다.
매개변수
일반 인구 또는 연구 대상 인구의 특정 특성 또는 지표.

일반 또는 연구 세트선택이 이루어진 컬렉션입니다. 이 모집단(인구)은 일반 모집단의 특성인 여러 특정 매개변수로 설명할 수 있으며, 각각은 한 모집단을 다른 모집단과 구별하는 특정 정량적 지표입니다.

연구 대상 인구가 신시내티의 전체 성인 인구라고 상상해 보십시오. 이 인구를 설명하기 위해 평균 연령, 다음과 같은 인구 비율과 같은 여러 매개 변수를 사용할 수 있습니다. 고등 교육, 소득 수준 등 이 모든 지표에는 일정한 고정 값이 있습니다. 물론 연구중인 인구의 완전한 인구 조사를 수행하여 계산할 수 있습니다. 그러나 일반적으로 우리는 자격에 의존하지 않고 표본에 따라 모집단의 필수 매개 변수를 결정하기 위해 선택적 관찰 중에 얻은 값을 선택하고 사용합니다.

우리는 표에 주어진 것을 설명합니다. 15.1 20명의 가상 인구의 예. 이와 같이 작은 가상 인구로 작업하면 여러 가지 이점이 있습니다. 첫째, 표본 크기가 작기 때문에 이를 설명하는 데 사용할 수 있는 모집단 매개변수를 쉽게 계산할 수 있습니다. 둘째, 이 볼륨을 통해 특정 샘플링 계획이 채택될 때 어떤 일이 발생할 수 있는지 이해할 수 있습니다. 이 두 가지 기능을 통해 샘플 결과를 "true"와 쉽게 비교할 수 있으며 이 경우 알려진 값집합의 실제 값을 알 수 없는 일반적인 상황에 대해 말할 수 없는 집합입니다. 이 경우 "참" 값과 평가를 비교하면 특별한 명확성을 얻을 수 있습니다.

무작위로 선택된 두 항목에서 원래 모집단 개인의 평균 소득을 추정하려고 한다고 가정합니다. 평균 소득이 매개변수가 됩니다. μ로 지정하는 이 평균값을 추정하려면 모든 값의 합을 숫자로 나누어야 합니다.

모집단 평균 μ = 모집단 요소의 합 / 요소 수.

우리의 경우 계산 결과는 다음과 같습니다.

파생 모집단

파생 모집단주어진 표본 추출 계획(표본 추출 계획)에 따라 일반 모집단에서 선택할 수 있는 모든 가능한 표본으로 구성됩니다. 통계샘플의 특성 또는 지표입니다. 표본 통계 값은 특정 모집단 매개변수를 추정하는 데 사용됩니다. 서로 다른 표본은 동일한 모집단 모수에 대해 서로 다른 통계 또는 추정치를 제공합니다.

파생 모집단
주어진 표본 추출 계획에 따라 일반 모집단에서 선택할 수 있는 모든 가능한 구별 가능한 표본의 집합입니다. 통계 표본의 특성 또는 측정값입니다.

표본 크기가 n=2무작위 비반복 선택으로 얻을 수 있습니다.

잠시 동안 인구의 각 단위에 대한 데이터 - 우리의 경우 개인의 이름과 소득 -이 원에 쓰여진 다음 주전자에 담겨 혼합되었다고 가정합니다. 연구원은 용기에서 원 하나를 꺼내서 정보를 적어서 따로 보관합니다. 그는 주전자에서 가져온 두 번째 머그와 동일한 작업을 수행합니다. 그런 다음 연구원은 두 머그를 주전자에 다시 넣고 내용물을 섞은 다음 동일한 일련의 작업을 반복합니다. 테이블에서. 15.2는 명명된 절차의 가능한 결과를 보여줍니다. 20개의 원에 대해 190개의 이러한 쌍 조합이 가능합니다.

각 조합에 대해 평균 소득을 계산할 수 있습니다. 샘플링을 위해 말해보자 AB (k= 1)

케이-e 표본 평균 = 표본 합계 / 표본 수 =

무화과에. 15.4는 전체 모집단에 대한 평균 소득 추정치와 표본에 대한 각 추정치에 대한 오류량을 보여줍니다. k = 25, 62,108,147그리고 189 .

표본 평균 소득(통계)과 모집단 평균 소득(추정해야 하는 매개변수) 간의 관계를 고려하기 전에 파생 모집단에 대해 몇 마디 말씀드리겠습니다. 첫째, 실제로 우리는 이러한 종류의 집계를 컴파일하지 않습니다. 너무 많은 시간과 노력이 필요합니다. 실무자는 필요한 크기의 샘플 하나만 컴파일하는 것으로 제한됩니다. 연구원이 사용하는 개념최종 결론을 공식화할 때 파생된 모집단 및 관련 샘플링 분포 개념.

아래에 어떻게 표시됩니다. 둘째, 파생 모집단은 주어진 표본 추출 계획에 따라 일반 모집단에서 선택할 수 있는 모든 가능한 다른 표본의 총계로 정의된다는 점을 기억해야 합니다. 표본 추출 계획의 일부가 변경되면 파생 모집단도 변경됩니다. 따라서 연구원이 원을 선택할 때 두 번째 디스크를 제거하기 전에 제거된 디스크 중 첫 번째 디스크를 주전자에 반환하면 파생 세트에 포함됩니다.

샘플 AA, BB 등입니다. 반복되지 않는 샘플의 수가 2가 아닌 3이면 ABC 유형의 샘플이 있으며 이전 경우와 같이 190개가 아닌 1140개가 됩니다. 단순 무작위 선택이 표본 요소를 결정하는 다른 방법으로 변경되면 파생 모집단도 변경됩니다.

또한 일반 모집단에서 주어진 크기의 표본을 선택하는 것은 파생 모집단에서 한 요소(190개 중 1개)를 선택하는 것과 동일하다는 점을 기억해야 합니다. 이 사실을 통해 많은 통계적 결론을 도출할 수 있습니다.

표본 평균 및 일반 평균

표본 평균을 실제 모집단 평균과 동일시할 수 있습니까? 어쨌든 우리는 그들이 상호 연결되어 있다는 사실에서 진행합니다. 그러나 우리는 또한 오류가 있을 것이라고 믿습니다. 예를 들어, 인터넷 사용자로부터 받은 정보는 "일반" 인구 조사 결과와 크게 다를 것이라고 가정할 수 있습니다. 다른 경우에는 상당히 정확한 일치를 가정할 수 있습니다. 그렇지 않으면 샘플 값을 사용하여 일반적인 값을 추정할 수 없습니다. 그러나 우리가 그렇게 하는 실수가 얼마나 클 수 있습니까?

Table에 포함된 모든 표본 평균을 더해보자. 15.2, 결과 합계를 샘플 수로 나눕니다. 즉, 평균을 평균화합시다.
우리는 다음과 같은 결과를 얻을 것입니다:

일반 인구의 평균값과 일치합니다. 그들은이 경우 우리가 다루고 있다고 말합니다. 편향되지 않은 통계.

가능한 모든 표본에 대한 평균이 추정된 모집단 모수와 같으면 통계를 편향되지 않은 통계라고 합니다. 여기서는 특정 값에 대해 이야기하지 않습니다.부분 추정치는 실제 값과 매우 다를 수 있습니다. 예를 들어 AB 또는 ST 샘플을 사용합니다. 어떤 경우에는 통계가 편향되지 않은 경우에도 가능한 표본을 고려할 때 모집단의 실제 값을 얻을 수 없습니다. 우리의 경우에는 그렇지 않습니다. 가능한 표본의 수(예: AT)는 실제 모집단 평균과 동일한 표본 평균을 제공합니다.

이러한 표본 추정치의 분포, 특히 이러한 추정치의 분산과 인구 소득 수준의 변동 간의 관계를 고려하는 것이 합리적입니다. 일반 모집단의 분산은 변동의 척도로 사용됩니다. 일반 모집단의 분산을 결정하려면 평균에서 각 값의 편차를 계산하고 모든 편차의 제곱을 더한 다음 결과 합계를 항의 수로 나누어야 합니다. ^ 일반 모집단의 분산을 나타냅니다. 그 다음에:

모집단 분산 σ 2 = 각 요소의 차이 제곱의 합
인구 및 인구 평균 / 인구 요소 수 =

분산 평균값소득 수준도 같은 방식으로 정의할 수 있습니다. 즉, 총 평균에서 각 평균의 편차를 결정하고 편차의 제곱을 더한 다음 결과 합계를 항의 수로 나누어 찾을 수 있습니다.

이 두 수량 사이에 직접적인 관계가 있기 때문에 일반 인구의 소득 수준 분산을 사용하여 다른 방식으로 평균 소득 수준의 분산을 정의할 수도 있습니다. 정확히 말하면 표본이 모집단의 작은 부분만을 나타내는 경우 표본 평균의 분산은 모집단의 분산을 표본 크기로 나눈 값과 같습니다.

여기서 σ x 2는 소득 수준의 평균 표본 값의 분산, σ 2는 일반 모집단의 소득 수준의 분산, N- 표본의 크기.

이제 결과의 분포와 일반 인구의 양적 특성 분포를 비교해 보겠습니다. 그림 15.5는 상자 A에 표시된 모집단 특성의 분포가 다중 정점(각각 20개의 값이 한 번만 나타남)이고 실제 모집단 평균 9400에 대해 대칭임을 보여줍니다.

샘플링 분포
주어진 샘플링 계획에 따라 모집단에서 추출할 수 있는 모든 가능한 구별 가능한 샘플에 대해 계산된 특정 통계 값의 분포입니다.

B 필드에 표시된 등급 분포는 표의 데이터를 기반으로 합니다. 15.3은 차례로 Table의 값을 할당하여 컴파일되었습니다. 15.2 크기에 따라 하나 또는 다른 그룹에 해당 그룹의 수를 후속적으로 계산합니다. 필드 B는 통계 과정 연구의 맨 처음에 고려되는 전통적인 히스토그램으로 다음을 나타냅니다. 샘플링 분포통계. 우리는 다음을 전달에서 주목합니다. 샘플링 분포의 개념은 통계의 가장 중요한 개념이며 통계적 추론 구성의 초석입니다. 연구 된 통계의 알려진 표본 분포에 따라 일반 인구의 해당 매개 변수에 대해 결론을 내릴 수 있습니다. 반면에 표본추정이 표본마다 변한다는 것만 알고 이러한 변화의 특성을 알 수 없는 경우 이 추정치와 관련된 표본오차를 결정하는 것이 불가능해집니다. 추정치의 샘플링 분포는 표본에서 표본으로 변경되는 방식을 설명하므로 표본 추정치의 유효성을 결정하기 위한 기초를 제공합니다. 이러한 이유로 확률표본 설계는 통계적 추론에 매우 중요합니다.

표본에 모집단의 각 구성원을 포함할 알려진 확률이 주어지면 면접관은 다양한 통계의 표본 분포를 찾을 수 있습니다. 표본 관찰 결과를 일반 모집단으로 확장할 때 연구자가 표본 평균, 표본 비율, 표본 분산 또는 기타 통계에 의존하는 것은 이러한 분포입니다. 크기가 2인 표본의 경우 표본 평균의 분포는 단봉이고 실제 평균에 대해 대칭입니다.

그래서 우리는 다음을 보여주었습니다.

  1. 가능한 모든 표본 평균의 평균은 일반 평균과 같습니다.
  2. 표본 평균의 분산은 어떤 면에서 일반 분산과 관련이 있습니다.
  3. 표본 평균의 분포는 단봉형인 반면 일반 모집단의 양적 속성 값의 분포는 다봉형입니다.

중심극한정리

크기의 단순 무작위 표본에 대해 다음과 같은 정리 N, 일반적으로 평균 μ 및 분산 σ 2 인 일반 모집단에서 분리됨 N표본 평균 x 의 분포는 중심이 μ 이고 분산이 σ 2 인 정규에 접근합니다. 이 근사값의 정확도는 증가함에 따라 증가합니다. N.

중심극한정리. 추정치의 단봉 분포는 중심 극한 정리의 표현으로 간주될 수 있습니다. N, 실제 평균 μ 및 분산 σ 2 를 갖는 일반 모집단에서 선택 N표본 평균의 분포는 중심이 실제 평균과 같고 분산이 표본 크기에 대한 모집단 분산의 비율과 같은 정규에 접근합니다.

이 근사치는 다음과 같이 점점 더 정확해집니다. N. 이것을 기억. 모집단 유형에 관계없이 표본 평균의 분포는 충분히 큰 크기의 표본에 대해 정상입니다. 충분히 큰 볼륨이란 무엇을 의미합니까? 일반 모집단의 양적 속성 값 분포가 정상이면 표본 분포는 부피가 다음과 같은 표본을 의미합니다. N=1. 모집단에서 변수(정량적 속성)의 분포가 대칭이지만 정규가 아닌 경우 매우 작은 크기의 표본은 표본 평균의 정규 분포를 제공합니다. 일반 모집단의 양적 속성 분포가 뚜렷한 비대칭을 보이는 경우 더 큰 표본이 ​​필요합니다. 그러나 표본 평균의 분포는 충분한 크기의 표본을 다룰 때만 정규 분포로 간주할 수 있습니다.

정규 곡선을 사용하여 결론을 내리기 위해 일반 인구의 양적 속성 값 분포의 정규성 조건에서 진행할 필요가 전혀 없습니다. 오히려 우리는 중심 극한 정리에 의존하고 모집단 분포에 따라 정규 곡선으로 작업할 수 있는 표본 크기를 결정합니다. 다행히도 통계의 정규 분포는 상대적으로 작은 크기의 표본에 의해 제공됩니다(그림 1). 15.6은 이러한 상황을 명확하게 보여줍니다. 신뢰 구간 추정치. 위의 내용이 일반 평균에 대한 특정 결론을 내리는 데 도움이 될 수 있습니까? 실제로, 우리는 주어진 크기의 가능한 모든 샘플이 아닌 하나만 선택하고 얻은 데이터를 기반으로 대상 그룹에 대한 특정 결론을 내립니다.

어떻게 됩니까? 아시다시피 정규 분포에서는 모든 관측치의 특정 비율에 특정 표준 편차가 있습니다. 관측값의 95%가 평균의 ±1.96 표준 편차 내에 들어맞는다고 말합니다. 정규 분포중심 극한 정리가 적용될 수 있는 표본 수단도 이러한 의미에서 예외는 아닙니다. 이러한 표본 분포의 평균은 일반 평균 μ와 같으며 표준 편차를 평균의 표준 오차라고 합니다.

다음과 같이 밝혀졌습니다.

  • 표본 평균의 68.26%가 일반 평균에서 ± σ x 이하로 벗어납니다.
  • 표본 평균의 95.45%가 일반 평균에서 ±σ x 이하로 벗어납니다.
  • 표본 평균의 99.73%가 일반 평균에서 ± σ x 이하로 벗어납니다.

즉, 선택한 값에 따라 특정 비율의 표본 평균 값에 의해 결정된 간격으로 묶입니다. . 이 표현식은 부등식으로 다시 작성할 수 있습니다.

일반 평균 - < Среднее по выборке < Генеральное среднее + (평균의 표준오차)

따라서 특정 확률의 표본 평균은 분포의 평균 값과 특정 수의 표준 편차의 합과 차이인 구간에 있습니다. 이 부등식은 다음 형식으로 변환할 수 있습니다.

표본 평균 - (평균의 표준오차)< Генеральное среднее < Среднее по выборке + (평균의 표준오차)

예를 들어 95%의 경우( = 1.96), 95%의 경우 비율 15.2도 관찰됩니다. 결론이 단일 표본 평균을 기반으로 하는 경우 식 15.2를 사용합니다.

식 15.2를 기억하는 것이 중요합니다. 주어진 표본에 해당하는 구간이 반드시 일반 평균을 포함해야 한다는 의미는 아닙니다. 간격은 선택 절차와 더 관련이 있습니다.이 평균 주위에 구축된 구간은 실제 모집단 평균을 포함하거나 포함하지 않을 수 있습니다. 내린 결론의 정확성에 대한 우리의 확신은 선택된 샘플링 계획에 따라 구성된 모든 구간의 95%가 실제 평균을 포함한다는 사실에 근거합니다. 우리는 우리 샘플이 이 95%에 속한다고 믿습니다.

이 중요한 점을 설명하기 위해 표본 분포가 다음 크기의 표본에 대해 의미한다고 잠시 상상해 보십시오. N우리의 가상 예에서 = 2는 정상입니다. 표 15.4는 주어진 설계에 따라 선택할 수 있는 가능한 190개 샘플 중 처음 10개에 대한 결과를 그래픽으로 보여줍니다. 10개 구간 중 7개 구간에만 일반 또는 참 평균이 포함됩니다. 결론의 정확성에 대한 확신은 개인적인 평가가 아니라 정확하게 절차추정. 이 절차는 표본 평균과 신뢰 구간이 계산될 100개의 표본에 대해 95개의 경우 이 구간에 실제 일반 값이 포함되도록 하는 것입니다. 이 샘플의 정확도는 샘플이 형성된 절차에 따라 결정됩니다. 대표적인 표본추출 설계가 모든 표본의 대표성을 보장하는 것은 아닙니다. 통계적 추론 절차는 표본 추출 계획의 대표성을 기반으로 하므로 이 절차가 확률 표본에 매우 중요합니다.

확률적 샘플링을 사용하면 생성된 추정치가 실제 값에 근접할 때 결과의 정확성을 평가할 수 있습니다. 통계의 표준오차가 클수록 추정치의 산포도는 높아지고 절차의 정확도는 낮아진다.

신뢰 수준이 특정 표본 값이 아니라 절차와 관련되어 있다는 사실로 인해 일부 사람들은 혼동할 수 있지만 일반 값 추정치의 신뢰 수준 값은 다음을 통해 조정할 수 있음을 기억해야 합니다. 연구원. 위험을 감수하고 싶지 않고 모집단 평균을 포함하지 않는 5개 표본 구간 중 하나가 나타날까 두려운 경우 100개 표본 구간 중 하나만 포함하지 않는 99% 신뢰 구간을 선택할 수 있습니다. 인구 평균. 또한 표본 크기를 늘릴 수 있으면 결과에 대한 신뢰도가 높아져 원하는 모집단 값 추정 정확도를 얻을 수 있습니다. 이에 대해서는 챕터에서 자세히 다루겠습니다. 17.

우리가 설명하는 절차에는 한 가지 더 많은 구성 요소가 있어 당황스러울 수 있습니다. 신뢰 구간을 추정할 때 세 가지 수량이 사용됩니다. x , 및 σ x . 표본 평균 x는 표본 데이터에서 계산되며, 원하는 신뢰 수준에 따라 선택됩니다. 그러나 평균 σ x 의 평균 제곱근 오차는 어떻습니까? 다음과 같습니다.

따라서 그것을 결정하려면 일반 모집단의 양적 속성의 표준 편차, 즉 5. 표준 편차가 에스알려지지 않은? 이 문제는 두 가지 이유로 발생하지 않습니다. 첫째, 일반적으로 마케팅 조사에 사용되는 대부분의 양적 특성에 대해 변동은 마케터가 관심을 갖는 대부분의 변수 수준보다 훨씬 느리게 변경됩니다. 따라서 연구가 반복되면 이전에 얻은 s 값을 계산에 사용할 수 있습니다. 둘째, 표본이 선택되고 데이터가 얻어지면 표본 분산을 결정하여 모집단 분산을 추정할 수 있습니다. 편향되지 않은 표본 분산은 다음과 같이 정의됩니다.

표본 분산 ŝ 2 = 표본 평균에서 편차 제곱의 합 / (표본된 항목 수 -1). 표본 분산을 결정하려면 먼저 표본 평균을 찾아야 합니다. 그런 다음 각 표본 값과 표본 평균 간의 차이가 발견됩니다. 이러한 차이는 제곱되고, 합산되고, 표본 관찰의 수에서 1을 뺀 것과 같은 숫자로 나뉩니다. 표본 분산은 총 분산의 추정치를 제공할 뿐만 아니라 평균의 표준 오차를 추정하는 데 사용할 수도 있습니다. 일반 분산 σ 2를 알면 다음과 같은 이유로 평균 제곱근 오차 σ x도 알 수 있습니다.

일반 분산을 알 수 없는 경우 평균의 표준 오차만 추정할 수 있습니다. 이 견적은 ŝ x , 이는 표본의 표준 편차를 로 나눈 값과 같습니다. 제곱근표본 크기, 즉 . 추정치는 참값의 추정치를 결정하는 것과 같은 방식으로 결정하되, 일반 표준편차 대신 표본의 표준편차를 계산식에 대입한다. 따라서 표본 평균이 5800인 표본 AB에 대해 다음과 같이 가정해 보겠습니다.

따라서 ŝ = 283,

95% 간격은 이제

이전 값보다 작습니다.

테이블에서. 15.5는 이 장에서 논의된 다양한 평균 및 분산에 대한 계산 공식을 요약합니다. 단순 무작위 표본의 형성. 이 예에서 샘플 요소의 선택은 원래 모집단의 모든 요소가 포함된 용기를 사용하여 수행되었습니다. 이를 통해 파생 모집단 및 샘플링 분포의 개념을 시각화할 수 있었습니다. 실제로 이러한 방법을 사용하면 오류 가능성이 높아지므로 사용하지 않는 것이 좋습니다. 머그는 크기와 질감이 모두 다를 수 있으며, 어떤 경우에는 머그가 다른 머그보다 선호될 수 있습니다. 추첨을 통해 수행되는 베트남 캠페인 참가자 선택은 이러한 종류의 실수의 예가 될 수 있습니다.

선택은 큰 드럼에서 생년월일이 적힌 디스크를 당겨서 수행되었습니다. 텔레비전은 이 절차를 전국에 방송했습니다. 불행히도 디스크는 1월 날짜가 먼저오고 12월 날짜가 마지막 날짜로 체계적인 방식으로 드럼에 로드되었습니다. 드럼이 격렬하게 회전했지만 12월 날짜가 1월보다 훨씬 더 자주 떨어졌습니다. 이후 이러한 계통오류의 가능성을 현저히 감소시키는 방향으로 이 절차를 수정하였다. 단순 무작위 샘플을 생성하는 데 선호되는 방법은 난수 테이블을 사용하는 것입니다.

이러한 테이블을 사용하려면 다음과 같은 일련의 단계가 필요합니다. 첫째, 모집단의 요소에는 1에서 1까지의 연속적인 숫자가 할당되어야 합니다. N; 우리의 가상 인구에서 요소에 하지만숫자 1이 요소에 할당됩니다. - 숫자 2 등 둘째, 난수표의 자릿수는 해당 숫자의 자릿수와 같아야 합니다. N. 을 위한 N= 20개의 두 자리 숫자가 사용됩니다. ~을 위한 N 100~999 사이 - 세 자리 숫자 등 셋째, 시작 위치는 무작위로 결정되어야 합니다. 해당 난수 테이블을 열고 눈을 감고 손가락을 찔러 볼 수 있습니다. 난수 테이블의 숫자는 임의의 순서로 되어 있기 때문에 시작 위치는 실제로 중요하지 않습니다.

마지막으로 위, 아래 또는 가로로 임의로 선택한 방향으로 이동할 수 있으며, 숫자가 테이블의 난수에 해당하는 요소를 선택합니다. 말한 내용을 설명하기 위해 난수의 축약된 표를 고려하십시오(표 15.6). 왜냐하면 N= 20이면 두 자리 숫자로만 작업해야 합니다. 그런 의미에서 탭. 15.6은 우리에게 완벽하게 맞습니다. 열을 아래로 이동하기로 미리 결정하고 초기 위치가 11번째 행과 4번째 열의 교차점에 있는 숫자 77이 있는 위치라고 가정합니다. 이 숫자는 너무 크므로 버려야 합니다. 다음 두 숫자도 버려지고 2가 요소 번호이므로 네 번째 값 02가 사용됩니다. .

다음 5개의 숫자도 너무 큰 것으로 폐기되며 숫자 05는 요소를 나타냅니다. 이자형. 그래서 요소 그리고 이자형이 모집단의 소득 수준을 판단하는 2요소 표본이 됩니다. 난수를 생성하는 컴퓨터 프로그램이 선택 기준으로 사용되는 대체 전략도 가능합니다. 최근 간행물에 따르면 이러한 프로그램에서 생성된 숫자는 완전히 무작위가 아니며 복잡한 수학적 모델을 구축할 때 특정 방식으로 나타날 수 있지만 대부분의 응용 마케팅 연구에 사용할 수 있습니다. 단순 무작위 표본은 일반 모집단 요소의 순차적 번호 목록을 컴파일해야 합니다.

즉, 원래 모집단의 각 구성원을 식별해야 합니다. 일부 인구의 경우, 예를 들어 Fortune 잡지에 그 목록이 나와 있는 500대 미국 기업에 대한 연구에서 이 작업을 수행하는 것이 어렵지 않습니다. 이 목록은 이미 컴파일되었으므로 이 경우 간단한 무작위 샘플을 구성하는 것은 어렵지 않습니다. 다른 초기 인구(예: 특정 도시에 거주하는 모든 가족의 경우)의 경우 일반 목록을 작성하는 것이 매우 어렵기 때문에 연구자는 다른 샘플 조사 계획에 의존해야 합니다.

요약

학습 목표 1
인구조사(자격)와 표본추출의 개념을 명확히 구분

인구 (인구)의 완전한 인구 조사는 자격 있는. 견본선택한 요소로 구성된 집합입니다.

학습 목표 2
표본 모집단을 얻기 위해 연구자가 구현한 6단계의 본질과 순서를 파악합니다.

샘플링 프로세스는 6단계로 나뉩니다.

  1. 인구 할당;
  2. 샘플링 프레임의 결정;
  3. 선택 절차의 선택;
  4. 표본 크기의 결정;
  5. 샘플 요소 선택;
  6. 선택한 요소의 검사.

학습 목표 3
"샘플링 프레임"의 개념 정의

샘플링 프레임은 샘플을 가져올 항목 목록입니다.

학습 목표 4
확률적 샘플링과 결정적 샘플링의 차이점 설명

확률적 표본에서 모집단의 각 구성원은 특정 항목에 포함될 수 있습니다. 0이 아닌 주어진개연성. 표본에 모집단의 특정 구성원이 포함될 확률은 서로 다를 수 있지만 각 요소가 표본에 포함될 확률은 알려져 있습니다. 결정론적 표본의 경우 표본에 요소가 포함될 확률을 추정하는 것은 불가능합니다. 이러한 샘플의 대표성은 보장할 수 없습니다. 모든 결정론적 선택은 오히려 개인의 위치, 판단 또는 선호도를 기반으로 합니다. 이러한 선호도는 때때로 모집단의 특성에 대한 좋은 추정치를 제공할 수 있지만 작업에 대한 표본의 적합성을 객관적으로 결정할 수 있는 방법은 없습니다.

학습 목표 5
고정 크기 샘플링과 다단계(연속) 샘플링 구별

고정된 크기의 표본으로 작업할 때 표본 크기는 설문조사 시작 전에 결정되며 결과 분석에 앞서 필요한 모든 데이터가 수집됩니다. 순차적 샘플에서 선택된 요소의 수는 미리 알 수 없으며 일련의 순차적 결정을 기반으로 결정됩니다.

학습 목표 6
의도적 샘플링이 무엇인지 설명하고 장점과 단점을 모두 설명

의도적인 샘플링 항목은 직접 선택하여 조사 목적에 맞게 연구원에게 제공됩니다. 선택한 요소가 연구 인구의 완전한 그림을 제공할 수 있다고 가정합니다. 연구자가 문제 해결의 초기 단계에 있는 한 계획된 조사의 전망과 가능한 한계가 결정될 때 의도적 샘플링을 사용하는 것이 매우 효과적일 수 있습니다. 그러나 어떤 경우에도 이러한 유형의 샘플의 약점을 잊어서는 안 됩니다. 연구원이 설명적 또는 인과적 연구에서도 사용할 수 있기 때문에 결과의 품질에 영향을 미치는 데 느리지 않을 것입니다.

학습 목표 7
할당량 샘플링의 개념 정의

비례 표본 추출은 특정 특성을 가진 표본 요소의 비율이 연구 대상 모집단의 동일한 요소 비율과 거의 일치하도록 선택됩니다. 이를 위해 각 카운터에는 접촉해야 하는 모집단의 특성을 결정하는 할당량이 할당됩니다.

학습 목표 8
선택 절차에서 매개변수가 무엇인지 설명

매개 변수 - 일반 또는 연구 인구의 특정 특성 또는 지표. 한 세트를 다른 세트와 구별하는 특정 양적 지표.

학습 목표 9
파생 집합이 무엇인지 설명

파생 모집단은 주어진 표본 추출 계획에 따라 일반 모집단에서 선택할 수 있는 모든 가능한 표본으로 구성됩니다.

학습 목표 10
표본 분포의 개념이 통계의 가장 중요한 개념인 이유를 설명하십시오.

샘플링 분포의 개념은 통계적 추론의 초석입니다. 연구 된 통계의 알려진 표본 분포에 따라 일반 인구의 해당 매개 변수에 대해 결론을 내릴 수 있습니다. 반면에 표본추정이 표본마다 변한다는 것만 알고 이러한 변화의 특성을 알 수 없는 경우 이 추정치와 관련된 표본오차를 결정하는 것이 불가능해집니다. 추정치의 샘플링 분포는 표본에서 표본으로 변경되는 방식을 설명하므로 표본 추정치의 유효성을 결정하기 위한 기초를 제공합니다.

통계 연구는 시간이 많이 걸리고 비용이 많이 들기 때문에 지속적인 관찰을 선택적인 관찰로 대체하자는 아이디어가 떠올랐습니다.

비연속적 관찰의 주요 목적은 조사된 부분에 대해 연구 중인 통계 모집단의 특성을 얻는 것입니다.

선택적 관찰- 이것은 무작위 선택 조항에 따라 인구의 일반화 지표가 단일 부분에 대해서만 설정되는 통계 연구 방법입니다.

표본추출법은 연구대상인구의 특정 부분만을 연구하고 연구대상인 통계적 모집단을 일반 모집단이라고 한다.

표본 또는 단순히 표본은 통계 연구의 대상이 될 일반 인구에서 선택된 단위의 일부라고 할 수 있습니다.

표본 추출 방법의 가치: 연구 중인 최소 단위 수로 통계 연구가 더 짧은 기간에 가장 낮은 자금 및 노동 비용으로 수행됩니다.

일반 인구에서 연구 중인 특성을 가진 단위의 비율을 일반 비율이라고 합니다. 아르 자형),연구된 변수 특성의 평균 값은 일반 평균입니다( 엑스).

표본 모집단에서 연구된 특성의 몫을 표본 몫 또는 부분(w로 표시)이라고 하며 표본의 평균 값은 다음과 같습니다. 표본 평균.

설문 조사 기간 동안 과학 조직의 모든 규칙이 준수되면 샘플링 방법이 상당히 정확한 결과를 제공하므로 이 방법연속 관찰 데이터를 확인하는 데 적용하는 것이 편리합니다.

이 방법은 연구중인 최소 단위 수를 조사 할 때 철저하고 정확한 연구가 가능하기 때문에 주 및 비 부처 통계에서 널리 보급되었습니다.

연구된 통계 모집단은 다양한 특성을 가진 단위로 구성됩니다. 표본의 구성은 일반 모집단의 구성과 다를 수 있으며, 표본의 특성과 일반 모집단 간의 이러한 불일치는 표본 오류를 구성합니다.

선택적 관찰에 내재된 오류는 선택적 관찰 데이터와 전체 모집단 사이의 불일치 크기를 특징으로 합니다. 표본추출 과정에서 발생하는 오차를 대표성 오차라고 하며 랜덤과 계통 오차로 나뉜다.

표본 모집단이 관측의 비연속적 특성으로 인해 전체 모집단을 정확하게 재현하지 못하는 경우를 랜덤 오류라고 하며, 대수의 법칙과 확률 이론에 따라 크기가 충분히 정확하게 결정됩니다.

관찰을 위해 모집단 단위를 무작위로 선택하는 원칙을 위반하여 체계적인 오류가 발생합니다.

2. 선발의 종류와 방식

샘플링 오류의 크기와 이를 결정하는 방법은 선택 유형과 방식에 따라 다릅니다.

관찰 단위 집합에는 네 가지 유형이 있습니다.

1) 무작위;

2) 기계적;

3) 전형적인;

4) 직렬(중첩).

무작위 선택- 무작위 표본에서 가장 일반적인 선택 방법으로, 통계 모집단의 각 단위에 대해 일련 번호가 있는 티켓을 준비하는 복권 방법이라고도 합니다.

다음으로, 통계 모집단의 필요한 단위 수를 무작위로 선택합니다. 이러한 조건에서, 예를 들어, 당첨을 설명하는 숫자의 특정 부분이 발행된 총 티켓 수에서 무작위로 선택될 때, 그들 각각은 샘플에 들어갈 동일한 확률(예: 당첨 추첨)을 갖습니다. 이 경우 모든 숫자에는 표본에 들어갈 수 있는 동등한 기회가 제공됩니다.

기계적 선택- 임의의 기준에 따라 전체 모집단을 동질적인 크기의 그룹으로 나눈 다음 각 그룹에서 하나의 단위만 가져오는 방법입니다. 연구된 통계 모집단의 모든 단위는 특정 순서로 미리 정렬되지만 사용자에 따라 샘플 크기에서 필요한 단위 수는 특정 간격으로 기계적으로 선택됩니다.

전형적인 선택 -이것은 연구 중인 통계 모집단을 필수적이고 전형적인 특징에 따라 질적으로 균질하고 유사한 그룹으로 나눈 다음 이 그룹에서 그룹의 점유율에 비례하여 이 그룹 각각에서 특정 수의 단위를 무작위로 선택하는 방법입니다. 전체 인구.

일반적인 선택은 샘플에 있는 모든 일반적인 그룹의 대표자를 포함하므로 보다 정확한 결과를 제공합니다.

직렬(중첩) 선택.무작위로 또는 기계적으로 선택된 전체 그룹(시리즈, 네스트)은 선택 대상입니다. 이러한 각 그룹, 시리즈에 대해 연속 관찰이 수행되고 결과가 전체 모집단에 전달됩니다.

샘플링 정확도는 선택 방식에 따라 달라집니다. 샘플링은 반복 및 비반복 선택 방식에 따라 수행할 수 있습니다.

재선택.선택된 각 단위 또는 시리즈는 전체 모집단에 반환되고 다시 샘플링할 수 있습니다.이를 반환된 볼 방식이라고 합니다.

반복적인 선택.각 조사 단위는 철회되고 인구에게 반환되지 않으므로 재조사되지 않습니다. 이 계획을 반환되지 않은 공이라고 합니다.

비반복 선택은 동일한 표본 크기로 관찰이 연구된 모집단의 더 많은 단위를 포함하기 때문에 더 정확한 결과를 제공합니다.

결합 선택하나 이상의 단계를 거칠 수 있습니다. 한 번 선택한 모집단의 단위가 연구 대상인 경우 표본을 단일 단계라고 합니다.

모집단의 선택이 단계, 연속 단계를 거치고 각 단계의 선택 단계에 자체 선택 단위가 있는 경우 표본을 다단계라고 합니다.

다단계 샘플링 - 샘플링의 모든 단계에서 동일한 샘플링 단위가 유지되지만 여러 단계의 샘플 설문 조사 단계가 수행되며 설문 조사 프로그램의 폭과 샘플 크기가 서로 다릅니다.

일반 및 표본 모집단의 매개변수 특성은 다음 기호로 표시됩니다.

N- 일반 인구의 양;

N- 표본의 크기;

엑스– 일반 평균;

엑스는 표본 평균입니다.

아르 자형– 일반 지분

여 -샘플 몫;

2 - 일반 분산(일반 모집단에서 특징의 분산);

2 - 동일한 기능의 샘플 분산;

? - 일반 인구의 표준 편차;

?는 표본의 표준 편차입니다.

3. 샘플링 오류

표본 관찰의 각 단위는 다른 단위와 선택될 수 있는 동등한 기회가 있어야 합니다. 이는 무작위 표본의 기초입니다.

자체 무작위 샘플링 - 이것은 추첨이나 다른 유사한 방법으로 전체 일반 인구에서 단위를 선택하는 것입니다.

무작위성의 원칙은 표본에서 대상을 포함하거나 제외하는 것이 우연 이외의 요인에 의해 영향을 받을 수 없다는 것입니다.

샘플 공유는 일반 모집단의 단위 수에 대한 표본의 단위 수의 비율입니다.


순수한 형태의 자기무작위 선택은 다른 모든 유형의 선택 중 최초의 선택이며 선택적 통계적 관찰의 기본 원칙을 포함하고 구현합니다.

표본 추출 방법에 사용되는 일반화 지표의 두 가지 주요 유형은 정량적 속성의 평균값과 대체 속성의 상대값입니다.

표본 점유율(w) 또는 특이성은 연구 중인 특성을 가진 단위 수의 비율에 의해 결정됩니다. 중,총 샘플링 단위 수(n):


표본 지표의 신뢰성을 특성화하기 위해 표본의 평균 및 한계 오차를 구별합니다.

대표성 오류라고도 하는 샘플링 오류는 해당 샘플과 일반 특성 간의 차이입니다.

?x = | x - x |;

?w =|х – p|.

샘플링된 관측값에만 샘플링 오류가 있습니다.

표본 평균 및 표본 비율- 이것은 랜덤 변수호스팅 다양한 의미표본에 포함된 연구된 통계 모집단의 단위에 따라 다릅니다. 따라서 샘플링 오류도 확률 변수이며 다른 값을 가질 수도 있습니다. 따라서 가능한 오류의 평균인 평균 샘플링 오류가 결정됩니다.

평균 표본 오차는 표본 크기에 따라 결정됩니다. 모집단이 클수록 다른 모든 조건이 같을수록 평균 표본 오차는 작아집니다. 증가하는 일반 인구 단위로 표본 설문 조사를 포함하여 전체 인구를 점점 더 정확하게 특성화합니다.

평균 샘플링 오류는 연구된 특성의 변이 정도에 따라 달라지며, 차례로 변이 정도는 변이로 특징지어집니다. 2 또는 승(l - w)- 대체 기호용. 특징 변동과 분산이 작을수록 평균 샘플링 오차가 작아지며 그 반대의 경우도 마찬가지입니다.

무작위 재표본의 경우 평균 오차는 이론적으로 다음 공식을 사용하여 계산됩니다.

1) 평균 양적 특성:


어디? 2 - 정량적 특성의 분산 평균값.

2) 주식의 경우(대체 기호):


그렇다면 모집단의 특성 분산은 어떻습니까? 2는 정확히 알려져 있지 않지만 실제로는 표본 크기가 충분히 큰 표본 모집단이 일반 모집단의 특성을 정확하게 재현한다는 큰 수의 법칙에 따라 표본 모집단에 대해 계산된 분산 S 2 값을 사용합니다. .

랜덤 리샘플링의 평균 샘플링 오차 공식은 다음과 같습니다. 양적 속성의 평균값의 경우: 일반 분산은 선택을 통해 다음 비율로 표현됩니다.


여기서 S 2는 분산 값입니다.

기계적 샘플링- 이것은 중립 기준에 따라 동일한 그룹으로 나누어지는 일반 샘플 세트의 단위 선택입니다. 샘플의 각 그룹에서 하나의 단위만 선택되는 방식으로 수행됩니다.

기계적 선택을 사용하면 연구 중인 통계 모집단의 단위가 사전에 특정 순서로 배열되고, 그 후 주어진 수의 단위가 특정 간격으로 기계적으로 선택됩니다. 이 경우 일반 모집단의 구간 크기는 표본 점유율의 역수와 같습니다.

모집단이 충분히 크면 결과의 정확도 측면에서 기계적 선택이 무작위에 가깝기 때문에 기계적 샘플링의 평균 오차를 결정하기 위해 무작위 비반복 샘플링의 공식이 사용됩니다.

이질적인 모집단에서 단위를 선택하기 위해 소위 전형적인 표본이 사용되며, 연구 지표가 의존하는 특성에 따라 일반 모집단의 모든 단위를 질적으로 균질하고 유사한 여러 그룹으로 나눌 수 있을 때 사용됩니다.

그런 다음 각 일반 그룹에서 무작위 또는 기계적 샘플에 의해 샘플에 대한 개별 단위 선택이 이루어집니다.

일반적인 샘플링은 일반적으로 복잡한 통계 모집단의 연구에 사용됩니다.

일반적인 샘플링은 더 정확한 결과를 제공합니다. 일반 모집단의 유형화는 그러한 표본의 대표성, 각 유형 그룹의 대표성을 보장하므로 평균 표본 오차에 대한 집단 간 분산의 영향을 배제할 수 있습니다. 따라서 일반 표본의 평균 오차를 결정할 때 그룹 내 분산의 평균이 변동의 지표 역할을 합니다.

연속 표본 추출은 모든 단위를 그러한 그룹의 관찰에 예외 없이 적용하기 위해 동일한 크기의 그룹의 일반 모집단에서 무작위 선택을 포함합니다.

모든 단위는 그룹(계열) 내에서 예외 없이 검사되므로 평균 샘플링 오류(동일 시리즈를 선택할 때)는 그룹 간(계열 간) 분산에만 의존합니다.

4. 표본 결과를 모집단으로 확장하는 방법

표본 결과에 기초한 일반 인구의 특성화는 표본 관찰의 궁극적인 목표입니다.

표본 추출 방법은 표본의 특정 지표에 대한 일반 모집단의 특성을 얻는 데 사용됩니다. 연구의 목적에 따라 이것은 일반 인구에 대한 표본 지표를 직접 재계산하거나 보정 계수를 계산하는 방법으로 수행됩니다.

직접 재계산 방법은 샘플 점유율의 지표와 함께 또는 중간 엑스표본오차를 고려하여 일반 모집단으로 확대한다.

보정 계수 방법은 샘플링 방법의 목적이 완전한 회계의 결과를 수정하는 것인 경우 사용됩니다. 이 방법은 인구의 연간 가축 센서스 데이터를 수정하는 데 사용됩니다.

견본 - 이것은:

1) 직접 연구할 연구 대상의 요소 전체

2) 연구 대상의 요소를 선택하는 방법 및 절차.

인구 - 연구 중인 문제와 관련된 완전한 개체 세트. 사회학 연구에서 G.S. 가장 자주 개인의 집합체가 행동합니다 - 인구 (도시, 국가 등), 사회 단체(청소년, 실업자, 사업가 등), 대중매체(MSK)의 관객 등. 그러나 많은 경우 G.S. 가족(가정), 학계, 기업, 종교 공동체, 개인 정착지 또는 국가 등 더 큰 요소(객체)로 구성될 수 있습니다.

표본 모집단 - 전체 인구에 대한 결론을 도출하기 위해 연구를 위해 선택된 일반 인구의 대상 중 일부.

표본을 연구하여 얻은 결론이 전체 모집단으로 확장되기 위해서는 표본이 대표성을 갖는 속성이 있어야 합니다.

대표성 연구 대상 모집단을 대표하는 표본의 능력입니다. 표본의 구성이 연구 중인 문제에 대한 모집단을 더 정확하게 대표할수록 대표성은 높아집니다.

예: 대표성은 다음 예를 통해 설명할 수 있습니다. 인구가 학교의 모든 학생이라고 가정합니다(20개 학급 600명, 각 학급 30명). 연구 주제는 흡연에 대한 태도입니다. 60명의 고등학생 표본은 각 학급의 3명의 학생을 포함하는 동일한 60명의 표본보다 훨씬 더 나쁜 인구를 나타냅니다. 그 주된 이유는 계급의 불평등한 연령 분포입니다. 따라서 첫 번째 경우에는 표본의 대표성이 낮고 두 번째 경우에는 대표성이 높습니다(ceteris paribus).

샘플 유형

1. 무작위 샘플링.

1.1 단순 무작위 선택

1.2 체계적(또는 기계적) 샘플링 방법.

1.3 직렬(중첩 또는 클러스터) 샘플링.

1.4 계층화된 샘플링.

2. 비무작위 샘플링(비확률).

2.2. 무작위 선택.

2.3. 다단계 및 단일 단계 샘플링.

1. 무작위 샘플링.

무작위 표본 추출의 특징은 일반 모집단의 모든 단위가 표본에 포함될 확률이 동일하다는 것입니다. 랜덤 샘플링의 경우, 우연의 원리. 샘플의 기초는 기업 직원 목록, 전화 번호부, 자동차 소유자 등록 목록, 투표소의 유권자 목록, 집 책뿐만 아니라 연구 목적에 따라 사회학자가 직접 작성한 다양한 목록이 될 수 있습니다. (응답자의 선택이 수행되는 거리 목록).

무작위 샘플링은 일반적으로 선거, 국민 투표 및 기타 공개 행사 전에 여론 조사에서 사용됩니다.

...을 더한이 방법의 핵심은 무작위성의 원칙을 완전히 준수하고 결과적으로 시스템 오류를 방지하는 것입니다.

이 방법의 단점:

– 인구 요소 목록이 필요합니다.

- 설문조사의 어려움.

– 비교적 큰 표본 크기.

샘플 - 연구 참여를 위해 일반 모집단에서 선택된 특정 절차를 사용하는 일련의 사례(주제, 대상, 이벤트, 샘플).

표본의 크기

표본 크기 - 표본에 포함된 케이스 수입니다. 통계상의 이유로 케이스 수는 최소 30-35개를 권장합니다.

종속 및 독립 샘플

두 개(또는 그 이상)의 샘플을 비교할 때 이들의 의존성은 중요한 매개변수입니다. 두 개의 샘플에서 각 케이스에 대해 동형 쌍(즉, 샘플 X의 한 케이스가 샘플 Y의 하나의 케이스에 해당하고 그 반대일 때)을 설정하는 것이 가능한 경우(그리고 이 관계의 기초는 특성에 중요합니다. 샘플에서 측정), 이러한 샘플을 종속이라고 합니다. 종속 선택의 예:

  1. 한 쌍의 쌍둥이
  2. 실험적 노출 전후의 모든 특징에 대한 두 가지 측정,
  3. 남편과 아내
  4. 등.

샘플 간에 이러한 관계가 없으면 이러한 샘플은 다음과 같이 독립적인 것으로 간주됩니다.

  1. 남자와 여자,
  2. 심리학자와 수학자.
  3. 따라서 종속 샘플의 크기는 항상 같지만 독립 샘플의 크기는 다를 수 있습니다.

다양한 통계 기준을 사용하여 샘플을 비교합니다.

  • 학생 t-검정
  • Wilcoxon T-검정
  • Mann-Whitney U 테스트
  • 표지판의 기준

대표성

샘플은 대표성 또는 비대표성으로 간주될 수 있습니다.

비 대표 샘플의 예

미국에서 역사적으로 가장 유명한 비대표적 표본추출의 사례 중 하나는 1936년 대통령 선거에서 일어난 사건이다. 이전 여러 선거의 사건을 성공적으로 예측한 Litreary Digest는 가입자, 전국 전화번호부에서 선정된 사람들, 자동차 등록 목록에 있는 사람들에게 천만 개의 테스트 투표지를 발송하여 예측을 잘못 판단했습니다. 반환된 투표지의 25%(거의 250만)에서 투표는 다음과 같이 분배되었습니다.

57% 선호 공화당 후보 Alf Landon

40%는 프랭클린 루즈벨트 당시 민주당 대통령을 선택했습니다.

잘 알려진 바와 같이 루즈벨트는 실제 선거에서 60% 이상의 득표로 승리했습니다. Litreary Digest의 실수는 다음과 같습니다. 샘플의 대표성을 높이고 싶었습니다. 구독자의 대다수가 스스로를 공화당원으로 생각한다는 것을 알고 있었기 때문에 전화번호부와 등록 목록에서 선택한 사람들로 샘플을 확장했습니다. 그러나 그들은 당시의 현실을 고려하지 않았고 실제로 더 많은 공화당원을 모집했습니다. 자신의 전화와 자동차.

샘플에서 그룹을 구축하기 위한 계획 유형

그룹 빌딩 계획에는 몇 가지 주요 유형이 있습니다.

  • 다른 조건에 배치된 실험군 및 대조군과 함께 연구합니다.
  • 쌍을 이루는 선택 전략을 사용하여 실험군 및 대조군과 함께 연구
  • 한 그룹만을 사용하여 연구 - 실험.
  • 혼합(요인) 계획을 사용하는 연구 - 모든 그룹이 다른 조건에 배치됩니다.

그룹 구축 전략

심리 실험에 참여할 그룹의 선택은 내부 및 외부 타당성을 최대한 존중하기 위해 필요한 다양한 전략을 사용하여 수행됩니다.

  • 무작위화(무작위 선택)
  • 실제 그룹 참여

무작위화

무작위화, 또는 무작위 선택, 단순 무작위 샘플을 생성하는 데 사용됩니다. 이러한 표본의 사용은 모집단의 각 구성원이 표본에 포함될 가능성이 동등하다는 가정을 기반으로 합니다. 예를 들어, 100명의 학생을 무작위로 추출하기 위해 모든 대학생의 이름이 적힌 종이를 모자에 넣은 다음 100개의 종이를 꺼낼 수 있습니다. 이것은 무작위 선택이 될 것입니다(Goodwin J., p. 147).

쌍별 선택

쌍별 선택- 실험에 중요한 부수적 매개변수 측면에서 동일한 피험자로 피험자 그룹을 구성하는 표본 그룹을 구성하는 전략. 이 전략은 최적의 옵션인 실험군과 대조군을 사용하는 실험에 효과적입니다.

연구는 일반적으로 사실을 포함하여 검증을 요구하는 몇 가지 가정으로 시작됩니다. 이 가정(가설)은 특정 개체 집합에서 현상이나 속성의 연결과 관련하여 공식화됩니다.

사실에 대한 이러한 가정을 테스트하려면 운송 업체의 해당 속성을 측정해야합니다. 그러나 모든 청소년의 공격성을 측정하는 것이 불가능한 것처럼 모든 여성과 남성의 불안을 측정하는 것은 불가능합니다. 따라서 연구를 수행 할 때 관련 인구 집단을 대표하는 비교적 작은 그룹으로 제한됩니다.

인구- 이것은 연구 가설이 공식화되는 것과 관련된 전체 개체 세트입니다.

예를 들어, 모든 남성; 또는 모든 여성; 또는 도시의 모든 주민. 연구자가 연구 결과를 기반으로 결론을 도출할 일반 모집단은 예를 들어 해당 학교의 모든 1학년 학생과 같이 그 수가 더 적고 더 겸손할 수 있습니다.

따라서 일반 인구는 그 수가 무한하지는 않지만 원칙적으로 지속적인 연구를 위해 접근할 수 없는 다수의 잠재적인 주제입니다.

표본 또는 표본 모집단- 이것은 속성을 연구하기 위해 일반 인구 중에서 특별히 선택된 숫자 (심리학 - 주제, 응답자)가 제한된 개체 그룹입니다. 따라서 표본에 대한 일반 인구의 특성에 대한 연구를 선택적 연구. 거의 모든 심리학 연구는 선택적이며 그 결론은 일반 인구에 적용됩니다.

따라서 가설이 공식화되고 해당 일반 모집단이 결정된 후 연구자는 표본을 구성하는 문제에 직면하게 됩니다. 표본은 표본 연구의 결론에 대한 일반화가 정당화될 수 있도록 해야 합니다. 일반화, 일반 인구에 대한 분포. 연구 결론의 유효성에 대한 주요 기준이것은 표본의 대표성과 (실증적) 결과의 통계적 타당성입니다.

표본 대표성- 다시 말해서, 대표성은 일반 모집단의 가변성 관점에서 연구된 현상을 완전히 표현하는 표본의 능력입니다.

물론 일반 인구만이 모든 범위와 가변성의 뉘앙스로 연구 중인 현상에 대한 완전한 그림을 제공할 수 있습니다. 따라서 대표성은 항상 표본이 제한된 범위 내에서 제한됩니다. 그리고 연구 결과의 일반화 경계를 결정하는 주요 기준은 표본의 대표성입니다. 그럼에도 불구하고 연구자에게 충분한 대표 표본을 얻을 수 있는 기술이 있습니다(이 기술은 "실험 심리학" 과정에서 연구됨).


첫 번째이자 주요 기술은 간단한 무작위(무작위) 선택입니다. 여기에는 모집단의 각 구성원이 표본에 포함될 동등한 기회가 있는지 확인하는 것이 포함됩니다. 무작위 선택은 일반 인구의 가장 다양한 대표자의 표본에 들어갈 가능성을 제공합니다. 동시에 선택에 규칙성이 나타나지 않도록 특별한 조치가 취해집니다. 그리고 이것은 결국 샘플에서 연구 된 속성이 전부는 아니지만 가능한 최대 다양성으로 표현되기를 희망합니다.

대표성을 확보하는 두 번째 방법은 계층화된 무작위 선택 또는 일반 모집단의 특성에 따른 선택입니다. 여기에는 연구 대상 자산의 다양성(성별, 소득 수준 또는 교육 등이 될 수 있음)에 영향을 미칠 수 있는 특성에 대한 사전 결정이 포함됩니다. 그런 다음 일반 인구에서 이러한 특성이 다른 그룹(계층) 수의 백분율 비율이 결정되고 샘플에서 해당 그룹의 동일한 백분율 비율이 제공됩니다. 또한, 표본의 각 하위 그룹에서 대상은 단순 무작위 선택의 원칙에 따라 선택됩니다.

통계적 타당도,또는 통계적 유의성, 연구 결과는 통계적 추론 방법을 사용하여 결정됩니다.

연구 결과에서 특정 결론을 내릴 때 결정을 내릴 때 실수를 하지 않도록 보장을 받습니까? 당연히 아니지. 결국 우리의 결정은 샘플 인구에 대한 연구 결과와 심리적 지식 수준을 기반으로 합니다. 우리는 실수로부터 완전히 면역되지 않습니다. 통계에서 이러한 오류는 1000개 중 1개만 발생하는 경우 허용 가능한 것으로 간주됩니다(오류 확률 α = 0.001 또는 올바른 결론의 신뢰 확률 p = 0.999의 관련 값). 100개 중 하나의 경우(오류 확률 α = 0.01 또는 올바른 결론의 신뢰 확률 p = 0.99 관련 값) 또는 100개 중 5개의 경우(오류 확률 α = 0.05 또는 다음의 신뢰 확률의 관련 값 올바른 출력 p=0.95). 심리학에서 결정을 내리는 것이 관례적인 것은 마지막 두 단계입니다.

때때로 통계적 유의성에 대해 말하면 "유의성 수준"(α로 표시됨)의 개념이 사용됩니다. p와 α의 숫자 값은 최대 1,000까지 서로를 보완합니다. 전체 이벤트 세트: 올바른 결론을 내렸거나 실수를 저질렀습니다. 이 수준은 계산되지 않고 설정됩니다. 유의 수준은 일종의 "빨간색" 선으로 이해될 수 있으며, 이 선의 교차점을 통해 이 이벤트를 무작위가 아닌 것으로 말할 수 있습니다. 모든 유능한 과학 보고서 또는 간행물에서 도출된 결론에는 결론이 내려진 p 또는 α 값의 표시가 수반되어야 합니다.

통계적 추론 방법은 "수학적 통계" 과정에서 자세히 설명합니다. 현재로서는 숫자에 대한 특정 요구 사항을 부과한다는 점에 유의하십시오. 표본의 크기.

불행히도 필요한 표본 크기의 예비 결정에 대한 엄격한 권장 사항은 없습니다. 또한, 연구원은 일반적으로 이미 조사된 샘플의 데이터를 분석한 후에만 필요하고 충분한 수에 대한 질문에 대한 답변을 너무 늦게 받습니다. 그러나 가장 일반적인 권장 사항은 다음과 같이 공식화할 수 있습니다.

1. 진단 기술을 개발할 때 가장 큰 표본 크기가 필요합니다(200명에서 1000-2500명).

2. 2개의 표본을 비교할 필요가 있는 경우에는 총 인원이 50명 이상이어야 합니다. 비교 샘플의 수는 거의 같아야 합니다.

3. 속성 간의 관계를 연구하는 경우 표본 크기는 최소 30-35명이어야 합니다.

4. 더 변동성연구된 속성의 크기가 클수록 표본 크기가 커야 합니다. 따라서 성별, 연령 등에 따라 표본의 동질성을 증가시켜 변동성을 줄일 수 있습니다. 물론 이는 결론을 일반화할 가능성을 줄입니다.

종속 및 독립 샘플.일반적인 연구 상황은 추가 비교를 위해 두 개 이상의 샘플에서 연구자의 관심 속성을 연구하는 경우입니다. 이러한 샘플은 조직의 절차에 따라 비율이 다를 수 있습니다. 독립 샘플 한 표본의 주제 선택 확률이 다른 표본의 주제 선택에 의존하지 않는다는 사실이 특징입니다. 에 맞서, 종속 표본한 표본의 각 주제가 특정 기준에 따라 다른 표본의 주제와 일치한다는 사실이 특징입니다.

일반적으로 종속 표본은 비교 표본에서 대상을 쌍으로 선택하고 독립 표본 - 대상을 독립적으로 선택합니다.

"부분적으로 종속된"(또는 "부분적으로 독립된") 표본의 경우는 허용되지 않습니다. 이는 예측할 수 없는 방식으로 표본의 대표성을 위반합니다.

결론적으로 우리는 심리학 연구의 두 가지 패러다임이 구별될 수 있음을 주목한다.

소위 R-방법론어떤 영향, 요인 또는 기타 속성의 영향을 받는 특정 속성(심리적)의 가변성에 대한 연구를 포함합니다. 샘플은 주제 세트입니다.

또 다른 접근법 Q-방법론,다양한 자극(조건, 상황 등)의 영향 하에 주제(단일)의 가변성에 대한 연구를 포함합니다. 하는 상황에 해당한다. 샘플은 자극의 집합입니다.