안녕하세요 ㅎ 이번에는 제일 중요한 비교에대해서 정리를 해보고자 합니다. 

이번주도 발표를 준비한다고 늦게 글을 올리네요 


여러분들도 연관성, 비교는 어떠한 차이가 있는지를 확인하는 것을 알아보고자 한다고 알고있을겁니다. 

이러한 비교를 알기 위해서는 통계학적 방법론을 적용하여서 과학에서 매우매우매우 중요한 주제가 됩니다. 


그렇다면 2개의 통게량이 있을때 가장 중요한것은 평균 or 점유율입니다.


이런 비교를 하기 위해서는 항상 기본원리는 같으므로 전에서 설명하였던 P값을 이용해서 표본분포를 구하고 유의수준과 비교하여 귀무가설 기각 여부를 판단하는것은 항상 같습니다. 


이번에는 상관분석, 회귀분석으로 불리는 연관성 분석과 Z검정 or t검정으로 두 평균의 비교, F검정을 이용해서 3개 이상의 평균을 비교하는 분산분석, Z분석을 이용한 두 분율의 비교, 카이제곱검정에 대해서 정리를 하겠습니다. (너무 많아서 따로 분리해서 정리를 하도록 하겠습니다;;; ㅎㅎ)


두 변수간의 연관성 분석


자 시작해봅시다. 연관성이란 무엇일까요? 

연관성이란 둘 또는 그 이상의 변수들 사이의 관계를 표현한다는 개념을 나타내고 있습니다. 

예로들어서 키가 클수록 몸무개가 많이 나간다. 이런것을 예로 들수가 있죠 공대생이라면 물리학을 비례한다 반비례한다를 예로들수 있겠네요 ^^

그러나 항상 연관성이 있지는 않습니다. 대신 "경향을 띈다", "평균적으로~~~"이렇게 연관성의 강도를 나타내줄수가 있죠 


이 두변수 사이의 연관성의 강도 즉 측도로 설명되는 관계중에는 종속관계(dependent relationship)이라는 특이한 형태가 있습니다. 

종속관계어느 한 변수 값의 변동에 따라 다른 한변수 값이 변화하는 경향이 있지만!! 지식이나 논리로 역은 맞지가 않는 것입니다.(즉 변수를 반대로 하면 안된다는 거죠)

지식이나 논리로 맞아서 먼저 생긴 변수는 독립변수라고 합니다. 논리적으로 나중에 생긴 변수는 종속변수라고 합니다.

또 이렇게 종속관계가 맞지 않는 두 변수간의 관계를 비종속관계 또는 상호의존관계라고 합니다.


두변수간의 관계가 종속관계냐 비종속관계냐 에 따라서 회귀계수, 상관계수를 사용합니다. 


회귀계수와 상관계수에 대해서 설명하기 전에 연관성의 측도를 어떻게 구성할수 있는가에 대해서 설명을 하겠습니다. 


산점도


연관성 측도는 두 변수 값들의 규칙, 비례, 패턴 이런것과 관련을 가지고 있습니다. 간격 도는 비척도로 측정된 이변량 자료를 그래프로 표시하려면 산점도를 사용해야된다. 


저번에도 설명했지만 이것은 가로축과 세로축에서 가로 변수와 세로 변수에서 교차하는 지점의 좌표를 표시하는 그래프입니다. 이러한 산점도에서는 외딴점(Outlier)이 있는 경우가 있습니다. 이 경우는 전체적인 경향에서 벗어난 측정치라고 합니다. 

이 산점도의 장점은 전반적인 양상을 얻을수가 있고 외딴점은 집중적인 탐색을 가능할수가 있는 장점이 있습니다. 

그림 산점도의 예시이다. 가로축은 국어 점수이고 세로축은 영어 점수로 서로 교차하는 부분에 좌표를 표시하였다. 


공분산= 상관계수

이러한 두 변수가 상호의존관계에 있을때에는 공분산 (covariance) 이 발생합니다. 

공분산이란 두 변수가 상호의존관계에 있을때 두 변수가 동시에 변하는 정도를 나타내는 측도입니다

이러한 공분산의을 구하기 위해서 두 변수를 각각 X,Y라고 정한후에 각각의 표준편차를 구하면 Sx, Sy라고 합시다.


 이 표준편차에 있는 수식에 있는 편차의 제곱을 모두 더한 값이탈도라고 합니다. 

옆의 식은 x변수에 의한 이탈도와 y변수에 의한 이탈도를 말합니다. 

두 변수에 대한 공이탈도는 로 정의가 된다. 


이때 각각의 개별 편차가 서로 양양이거나 음음 이면 공 이탈도는 크게 된다. 

이때 개별편차의 관계에서 한 변수 값이 커지면 다른 변수도 값이 커지고, 서로 두 변수의 양의 관계가 있는다는것을 의미한다. 반대로 한변수가 커지면 다른변수가 작아지는 관계를 음의 관계라고 한다. 이러한 양의 관계는 두 변수의 직접적인 관계를 음의 관계는 역의 관계를 가집니다.


결국에는 공이탈도의 절대값은 두 변수 사이에 존재하는 연관성의 크기를 의미한다. 


이때 산술평균을 공분산으로 정의를 한다. 

두 변수 xy의 공분산은 다음과 같이 나타난다. 공이탈도/조사대상의수

결국에는 연관성의 크기와 방향을 동시에 표현해주는 연관성의 측도로 공분산을 이용할수가 있따.

이러한 공분산 자체가 한가지 단점을 가지는데 츠겆으이 단위에 이ㅡ해서 값들이 크게 바뀐다는 단점을 가지고 있다. 

이 단점은 Z값으로 변환시키는데 이것은 개별 표준편차에서 각 표준편차를 나누어주게 되면 평균이 0 표준편차가 1이되는 자료가 된다. 


이러한 각각의 변수를 Z값으로 변환시킨후 표준화된 편차 곱을 하게 되면 상관계수가된다. 

이 상관계수는 r또는 p(rho)로 표현이 된다. 


회귀계수

이때까지 상관계수는 상호의존관계에 있을때에서 공식이 나왔었다. 하지만 종속관계로 있으면 새로운 계수가 필요하다.

(^부분을 해트라고 읽는다. ,b란 회귀선의 기울기이다. ) 옆의 식처럼 최소제곱 회귀선의 공식이라고 불리는 식이다. 이것은 기울기를 원리를 이용하셔어 종속적 연관성을 요악하는 지표를 유도할수가 있다. 즉 식을 이용하여서 직선 식을 구할수가 있다. 

b의 값이 양이되면 두 변수 사이에는 직접적인 관계가 되고 b가 음이되면 역의 관게가 된다.

 

이러한 관계를 얻기 위해서는 가장 중요한 b만 구하여주면 두 변수의 관계를 알수가 있다. 

 b = 로  되어집니다. 


회귀게수 b를 구할때 residual을 가지는데 가장 작은 값을 갇도록 b를 구하는 방법을 최소제곱법이라고 합니다.



수고하셨습니다. ㅎ


반응형

+ Recent posts