미니탭 두 표본의 평균 검정

미니탭 2-표본 t-검정

통계적 품질관리 기법 중에서, 두 그룹을 비교하는 방법 중에서 가장 많이 쓰이는 방법이 t-검정입니다. 예를 들어, 공정을 개선하여 효과를 파악하고자 하는 경우 개선 전 공정에서의 측정치와 개선 후 공정에서의 측정치 평균이 변화가 있는지 여부를 파악하는 기법이 되겠습니다. 단순하게 두 그룹의 평균만 가지고, 차이가 있다 또는 없다고 판단하는 것은 통계을 통한 접근 방식이 아닙니다. 중요한 것은 

"두 그룹의 평균과 분산을 통하여 통계적 이론을 기반으로 해석해야 한다."

모집단의 표준편차를 알고 있는 경우 z-검정(정규 분포를 이용)하는 방법을 사용하지만, 보통은 표준편차를 알고 있는 경우가 드물기 때문에 실질적으로는 t-검정이 더 많이 사용된다고 할 수 있습니다. 아래 사진은 미니탭에서 제공하는 분석 목적에 따른 가설 검정 방법 선택 가이드입니다. 미니탭 메뉴 "보조도구 > 가설검정"에서 확인 하실 수 있습니다.

가설 검정 선택

여기서 두 표본의 평균 검정하는 방법이 2가지가 있습니다. 2-표본 t 검정과 쌍체 t 검정입니다. 이 두 가지 방법의 차이는 쌍체 검정의 경우는 각각의 데이터가 쌍을 이루는 경우에 사용되는 검정 방법입니다. 예를 들어 강판(철판)의 두께 비교를 하는데, 동일한 위치에서 A그룹은 폭 기준으로 중앙부에서 측정을 하고, B그룹은 폭 기준으로 사이즈(엣지)에서 측정을 한 데이터라고 한다면 두 데이터는 쌍을 이루게 됩니다. 이러한 경우에 사용하는 것이 쌍체 t 검정입니다. 

1. 데이터 입력하기

미니탭에서 분석을 하기 위해 가장 먼저 해야할 것은 데이터를 입력하는 것입니다. 측정된 데이터를 각 열에 입력을 합니다. 두 그룹의 데이터를 각 열에 입력을 합니다. 두 그룹의 데이터를 하나의 열에 입력하는 방식도 있으나, 구분하여 입력하는 것이 헷갈리지 않고 편리하게 구분할 수 있습니다.


2. 등분산 검정

2-표본 t-검정을 하기 위해서는 두 그룹의 분산이 동일한지 "등분산 검정"을 실시해야 합니다. 그 그룹의 분산이 다르면, 분석하는 방법이 달라지기 때문인대요. (정확히는 자유도가 달라집니다. 우선, 등분산이라는 가정하에 진행하도록 하겠습니다. 등분산 검정에 대해서는 다음에 별도로 다루도록 하겠습니다.

3. 2-표본 t-검정

미니탭에서 분석을 실시하는 것은 매우 간단합니다. 통계분석 > 기초통계 > 2-표본 t-검정 메뉴를 선택합니다. 데이터 입력을 각각 다른 열에 입력했기 때문에 "각 표본이 자체적인 열에 있는 경우"를 선택합니다. 그렇지 않고 하나의 열에 입력을 한 경우에는 별도의 열에 그룹 구분을 해주어야 하니, 각각의 열에 데이터를 입력하는 것이 편리합니다.
미니탭 t-검정

다음은 "옵션"버튼을 클릭하여 옵션을 선택해 줍니다. 신뢰수준은 일반적인 "95.0"또는 "99.0"을 입력하면 됩니다. 대립 가설은 두 그룹의 차이를 분석하기 위함이기 때문에 "차이 =/ 귀무 가설에서의 차이"를 선택합니다. 대립가설은 두 그룹간의 평균이 큰지 작은지(한쪽 검정) 다른지(양쪽 검정)를 선택하는 것이라고 생각하시면 됩니다. 마지막으로 "등분산 가정"을 선택하여 줍니다.


다음은 "그래프" 옵션을 선택하여 상자 그림(Box-plot)을 선택합니다. 두 그룹의 산포가 어떻게 구성되어 있는지 쉽게 볼 수 있는 그래프가 상자그림입니다. 


4. 분석 결과 및 해석

분석을 실시하고, 결과를 해석해 보도록 하겠습니다.
t-검정
가장 중요하게 보아야 할 값은 하단의 P-값(p-value)입니다. 이 값이 유의수준(아까 신뢰수준을 95.0을 선택하였으므로, 0.05가 되겠습니다.)보다 작으면 대립 가설을 채택합니다. 쉽게 말씀드리면 이 경우 P-값이 0.000 < 0.05 이므로, 두 그룹의 평균이 서로 다르다고 말할 수 있닫는 의미입니다. 사실 이 데이터의 경우, 두 그룹의 차이가 하기 상자 그림을 보면 알 수 있듯이 차이가 매우 큰 경우이므로, P-값이 0.000으로 나타났습니다. 


미니탭의 예제를 다운로드 받아서, 테스트 해보셔도 됩니다.


중요한 것은 평균을 단순히 비교하는 것이 아니라, 두 집단의 평균과 분산을 이용하여 통계적인 추론을 해야한다는 것입니다.