답변함
김경진 강사님 질문이 있습니다
-
과정명: Quant
-
강사명: 김경진
강사님 안녕하세요. 다름이 아니라 강의를 몇번이나 봐도 제대로 Z-test와 T-statistic의 의미에 대해서 설명을 안해주셔서 그냥 단순히 문제만 푸는것 같은데, handout을 보면 "t-test, z-test (모집단의 평균에 대해서 test하는것)"이라고 하셨는데, 여기서 평균의 특정 지점에서의 값을 말씀하시는건지 아니면 평균의 면적에 대해서 말씀하시는건지 지금까지 헷갈립니다.
두번째 질문은 Z-distribution는 Normal distribution의 표준화라고 하셨는데, 여기서 값들이 1,2...등등 작은 수로 나오는데 이 의미들이 뭔지 해석좀 제발 부탁드립니다. 빠른 답변 부탁드리겠습니다.
0
댓글
안녕하세요. 강의해서 주요 분포에 대해서 충분히 설명을 했다고 생각했는데, 충분하게 다가오지 못해서 죄송합니다.
1. T-Test와 Z-Test의 차이와 같은점
- 두 test의 같은점은 가설검정을 할때 쓰는 통계량입니다.
- 보통 Level1에서 나오는 가설검정은 두 집단의 평균이 같냐 다르냐에서 사용합니다.
- 다른점은 T-test는 t분포를 이용하여 통계값을 정하는 것이고, z-test는 정규분포를 이용하여 통계값을 정합니다.
- 사실상 두 통계값은 두 집단이 평균이 같냐? 다르냐라는 가설검정에서 사용할 수 있습니다.
- 그러나, 평균이 같은지 혹은 다른지에 대한 설명을 할 경우, 표본이나 우리가 알고 있는 변수에 따라 t값을 사용할지 z값을 사용할지 결정이 됩니다.
- 예를들어 두 집단의 분산을 모르지만, 표본이 30이상으로 큰 경우에는 t-값을 사용합니다.
- 좀더 쉽게 비유하자면, t값이나 z값이나 길이를 재는 자라고 보시면 됩니다. t 값은 눈금이 미리미터 단위고, z값은 눈금이 센티미터단위라고 보는 정도입니다.
- 엄밀하게 혹은 좀더 정밀하게 측정하고 싶을 때는 t값을, 그렇지 않을 때는 z값을 사용하는것으로 비유를 할 수 있습니다.
- 둘다, '자'이지만 사용하는 환경이 다를 뿐입니다
2. 평균의 차이가 무엇이냐?
- 예를 들어 1,000명의 학생이 있는 중학교의 평균키가 150cm라고 알려져 있습니다. 키의 표준편차가 10cm라고 알려져 있습니다.
- 3학년 1반 학생 50명의 키를 재보니 평균키가 165cm였습니다. 3학년 1반 학생의 평균키는 중학교 전체 평균키보다 신뢰구간 95%수준에서 학교 전체 평균키와 같다고 할 수 있나요?
- 이 경우 3-1반 학생의 평균키가 학교 전체의 평균키와 같냐? 다르냐?를 물어보는거죠.
- 표본이 30이상, 모집단의 분산을 알기 때문에 Z-값을 사용하여 평균을 검정할 수 있죠.
- Z = X-모집단평균/(표준편차/표본의수의 루트)
(165-155)/10/루트 50 = 10/루트50 = 7.07입니다. Z값은 7.07이죠. 표준정규분포에서 Z 값이 7.07이면 95%에 해당하는 (양측검정일경우)+-1.96이죠. 7.07은 오른쪽으로 1.96보다크죠. 결과적으로 3-1반 학생의 키는 그 중학교 평균키보다 크다고 말할 수 있죠?
- 여기서 말하는 평균은 오차를 감안했을 때 가질 수 있는 평균의 범위입니다. 모집단의 평균은 정해져 있고, 샘플의 평균의 오차를 감안했을 때 그 오차범위안에 모집단의 평균이 들어가면 모집단과 샘플의 평균이 같다는 것이며, 반대로 샘풀 평균의 오차를 감안했고, 그 샘플평균의 오차범위안에 모집단의 평균이 들어가지 않으면, 모집단과 샘플의 평균이 다르다고 말하는 거죠.
- 다르게 표현하면 주어진 모집단의 평균이라는 값이, 샘플의 오차범위까지 계산한 그 값의 범위가 모집단에 포함되어 있느냐 아니냐이죠.
- 직관적으로 설명을 드리면, 모집단 평균은 10이에요. 그리고 모집단의 표준편차가 2에요. 샘플을 꺼내보니 샘플의 평균이 9에요, 그런데, 이것은 샘플이기 때문에 오차가 존재하잖아요.
그 오차까지 감안하니, 신뢰구간 95% 수준에서 샘플의 최하의 값이 8이고, 샘플의 최상의 값이 11이라고 하면, 샘플의 오차범위안에 모집단 평균이 들어가기 때문에, 이는 샘플의 평균과 모집단의 평균이 다르다고 말하지 못합니다.
3. Z값고, 정규분포
- Z값은 정규분포를 표준화 한것입니다. 중학교 학생 1000명의 키가 정규분포를 따른다. 이때 키의 평균이 150센티이고, 표준편차가 10센티이다.
다른 집단은 중학교 학생 1000명의 몸무게가 정규분포를 따른다. 이때 몸무게의 평균이 50킬로이고, 표준편차가 5킬로이다.
두 집단의 단위의 차이때문에 바로 비교할 수 없죠? 예를 들어 1000명의 학생중에 키가 170이면, 이는 몸무게를 측정한 1000명의 학생과 어느 수준에서 비슷하냐라고 물으면 말할 수가 없죠?
만약, 170센티의 키가 1000명중에 키큰 순서로 100등이라면, 그리고 몸무게 1000명중에 100등에 해당하는 몸무가게 60킬로라면, 170센티와 대응되는 수준의 몸무게는 60이구나라고 알수 있죠?
근데 이것은 두 집단 내에서 각각의 등수를 알기 때문에 비교가 가능한건데, 현실에서 이를 모르죠. 서로 단위가 다른 집단끼리 비교를 하고 싶고, 그 비교를 표준화시켜서 가능하게 만든게 표준정규분포고 이때 통계량이 Z값이죠.
Z =( X-모집단평균)/모집단 표준편차, 그 결과 모든 정규분포는 표준화 시키면, 평균이 0, 분산이 1인 분포로 표준화되죠. 그러면 서로 단위가 다르더라도 각각의 값의 위치가 그 집단에서 어느 수준인지 대응해서 비교 가능하게 됩니다.
신뢰구가 99%일경우 (양측검정) Z값은 2.56입니다. 평균 0을 중심으로 -2.56, 0을 중심으로 +2.56이죠. 즉 표본의 Z값이 -2.56 ~ +2.56사이에 있다면 표본의 값은 모집단의 값과 다르지 않다라고 (99%의 신뢰구간에서)말하는 것이며
그 범위 밖에 있으면 표본의 평균과, 모집단의 평균이 다르다고 말하는거죠.
Z값이 작아지는 이유는 모두 표준호해서 평균이 0, 분산이 1인 분포로 만들기 때문입니다.
위의 설명을 읽으시고서도 잘 이해가 안가시면, sungeom1@gmail.com으로 따로 문의부탁드립니다.
감사합니다.
댓글을 남기려면 로그인하세요.