안녕하세요 좀있다 올린다는게 어쩌다 보니까 하루가 지나서 올리게 되네요;;;ㅎㅎ 죄송합니다 


한쪽꼬리검정 양쪽꼬리검정


어제까지 한쪽꼬리검정와 양쪽꼬리검정까지 정리를 하였는데요.


위의 그림을 가지고 설명을 하자면 μ값이 같거나 다르면 양쪽 꼬리 검정이고 부등호가 있을때는 한쪽 꼬리 검정으로 많이 사용을합니다. 


제 1종오류 α값을 p값이라고 표현이라고도 하는데요

P값이란 귀무가설이 참이라는 가정하에 관측된 값보다 표본의 값이 더 극한 값을 가질 확률입니다.

즉 α영역보다 더 극한 값을 가지게 되는 경우라고 볼수가 있습니다. 


가설검정의 결과를 요약할때에 통계적으로 유의하였다. 유의하지 않았다라고 말하는데요 

그러면 우리가 통계적 유의성이라는 말이 무슨 말일까요? 

이런 통계적 유의성이 있다는 말은  예로들어서 고등학생 100명의 표본을 뽑아서 키의 평균을 잰 결과 180cm가 나왔다고 합니다 이는 전국 평균 고등학생의 키 175cm에 비한 결과를 유의한 차이가 있다고 말합니다. 결국 통계적 유의성가설검정의 최종 결과를 표현한 말입니다. 


모집단 평균의 검정

모집단이 σ를 알고 있을때 평균(μ)의 검정은 입니다. 

모집단이 σ를 모르고 있을때에는 입니다.


모집단 비율 검정


이항분포의 조건이 만족되어야하고 

nπ 와 n(1-π), 적어도 5이상의 값을 가져야 한다 .

검정 통계량은 이렇게 계산이 됩니다. 




아직 정리할려니까 .. 많이 어렵네요 ㅎㅎ 

수고하셨습니다. ㅎ



반응형

'공부 > 통계 정리' 카테고리의 다른 글

통계(단일 표본의 가설검정)  (1) 2017.03.13
통계(추정과 신뢰구간)  (0) 2017.03.11
통계(표본추출, 중심극한정리)  (1) 2017.03.09
통계(연속확률분포)  (0) 2017.03.08
통계(이산확률분포)  (0) 2017.03.01

안녕하세요~ㅎㅎ

오랜만에 통계학 정리를 해보네요 

저번에는 통계적 추론에 대해서 설명을 하면서 임의의 표본을 추출하는 방법과 표본으로 부터 모집단의 모수 값을 추정하는 법에 대해서 설명을 하였습니다. 

기억이 안나실까봐 예를 들어서 설명해보겠습니다. 

어떤 회사의 5명의 직원을 표본으로 선택하여서 표본으로 추출된 직원들의 월급을 이용하여서 평균 월급을 구하였습니다. 그리고 이 표본의 평균값을 이용하여서 전체 고용인들의 평균값을 구핸던 방법이였습니다. 

즉!!!! 표본 통계값을 이용하여서 모집단의 모수를 값을 추정했다고 보시면 되겠습니다. 이해되셨나요? ㅎㅎ

또 신뢰구간의 개념을 통해서 통계적 추론도 하였는데요 ㅎ 요기서 신뢰구간은 모집단의 모수 값이 가질수 있는 값의 범위입니다.


이번시간에는 가설에대해서 정리를 할껀데요 

모수 값이 가질 수 있는 값의 범위를 정하는것이 아니라 모집단 모수 값에 대한 타당성을 검증할수 있도록하는 것입니다. 

예로들면 규칙적으로 복권을 하는 사람들의 85%는 한번도 복권에서 100달러 이상을 번 적이 없다라는 타당성을 검증하도록 도와주는겁니다.


자 그러면 가설이란 무엇일까요? 

가설이란 모집단에 대한 진술이라고 합니다. 즉 데이터 진술의 합리성을 검정하기 위해서 사용됩니다. 

(의사들이 가설로 이사람은 어딘가 아플것이다 하고 여러 증상과 진단 검사를 하는것이라고 하면 이해가 될꺼같네요)


이러한 가설이 통계적 분석에서 가설을 세우가 데이터를 수집하고 그 수집한 데이터 를 이용해서 가설을 검정하는 역할을 합니다. 

그러면 가설을 검정한다는 말이 가설검정이라고하는데요 

가설검정은!! 모집단 모수에 대한 진술의 타당성을 검증하기 위한 것입니다.

만약 전자 상가의 표본의 월급평균은 190만원이라고 했을때 전체 직원의 평균은 200만원이면 이 가설이 채택될까?? 이러한 문제를 결정하는 것임돠


이문제를 결정하기 위해서 가설검정은 5가지 단계가 있습니다.

 

귀무가설과 대립가설을 수립 

유의수준 결정 

검정 통계량의 선택 

결정 규칙의 생성 

결론을 내림 

H0를 기각하지 않음 또는 H0를 기각함 그리고 H1을 채택 

잘 모르겠죠? (저도..잘 모르겠습니다.ㅎ)


1.귀무가설과 대립가설을 수립 

자 처음 단계는 귀무가설()과 대립가설()을 설정해줘야됩니다. 

이 말은 검정될 가설을 설정하는 거라고 보시면 되곘습니다. 

  • 귀무가설이란 의 수식을 가지고 있습니다. 이때 H는 hypothesis를 이미하고 문자'0'은 차이가 없음을 의미합니다. 즉 변화가 없다는 것을 의미하는것이죠 (참이라는 겁니다) 을 기각 한다는 의미는 변화가 있다는 것을 의미하겠죠 ㅎ ( μ = n% 옆의 식과 같이 참을 의미합니다)
  • 대립가설이란 귀무 가설이 기각 되었을때 어떤 결론을 내릴것인가에 대해서 기술을 합니다. 즉 표본 데이터가 귀무가설이 거짓이라는 통계적으로 충분한 증거를 제시할때 사용합니다. 대립가설은 귀무가설이 거짓이라고 결론 내릴때만 사용합니다. (μ ≠ n% 거짓을 의미합니다)
귀무가설과 대립가설에 대해서 설명을 하였는데요
그 후에는 검정의 유의수준을 결정을 하여야합니다. 왜 유의수준을 결정을 할까요?

2.유의수준 결정 
  • 결국에는 유의수준이란 귀무가설이 사실였는데도 귀무가설을 기각하게 되는 확률입니다. 유의수준은(α)로 나타냅니다. 
유의수준은 5%수준에서결정을 하거나 0과1사이의 어느 수준에서 결정을 내릴수가 있습니다. 아주 작은 차이를 결정하는 경우라고 볼수가 있죠 
그치만 표본을 뽑아서 귀무가설이 참인지 거짓인지 정했지만 모집단 즉 전체에서는 표본의 값이 맞지가 않을수고 있습니다. 
이러한 오류를 1종오류, 2종 오류라고 하는데요
  • 1종오류는 귀무가설이 참일 때 귀무가설을 기가하는 경우
  • 2종오류는 귀무가설이 거짓일 때 귀무가설을 기각하지 못하는 경우입니다. 베타라고 합니다 (β)
밑은 표로 1종오류와 2종오류를 표로 나타내었습니다.


   

 

기각 불가

기각

 (귀무 가설)

올바른 결정 (1-알파)

1종 오류 (알파)

거짓 (대립 가설)

2종 오류 (베타)

올바른 결정 (1-베타)


가설검정에서의 판정오류 α,β -출처 보건통계학의 이해


3.검정 통계량의 선택
  • 이런 결과를 가지고 귀무가설을 기각할 것인지를 결정하기 위해서 표본에서 추출된 값이 필요한데요 이것을 검정 통게량이라고 합니다.

검정통계에는 z와 t를 검정통계로 사용됩니다.   -> 나중에는 카이제곱검정 에대해서 정리를 하겠습니다. 

모집단이 σ를 알고 있을때 평균(μ)의 검정은 입니다. 

모집단이 σ를 모르고 있을때에는 입니다.


4.결정 규칙의 생성 


 

 옆의 있는 그림을 통해서 

귀무가설이 기각되지 않는 영역은 1.65를 기준으로 왼쪽 부분

기각 영역은 1.65를 기준으로 오른쪽 부분

1.65의 임계값을 가진다. 

통게량 z의 분포는 표준정규분포를 따른다. 

이렇 결정들을 알수가 있다.  


5.결론을 내림 

마지막 단게는 검정 통계량을 계산하여 그것을 임계값과 비교하여 귀무가설을 기각할 것인지 기각하지 않을것인지에 대한 결론을 내린다. 


한쪽꼬리검정과 양쪽꼬리검정

위의 표준정규분포 그림에서 보면 안쪽으로 기각 영역으로 향하고 있다 이런 분포를 한쪽꼬리검정이라고 한다. 

양쪽꼬리검정은 양쪽으로 기각영역이 속해 있는 것을 말한다. 


나머지는 좀 있다 올리도록 하겠습니다 ㅎㅎ

반응형

'공부 > 통계 정리' 카테고리의 다른 글

통계(단일 표본의 가설검정)-2  (0) 2017.03.14
통계(추정과 신뢰구간)  (0) 2017.03.11
통계(표본추출, 중심극한정리)  (1) 2017.03.09
통계(연속확률분포)  (0) 2017.03.08
통계(이산확률분포)  (0) 2017.03.01

안녕하세요 ㅎ

몇일동안 발표준비를 하느라고 정리할시간이 없었네요 

저번시간에는 다양한 표본추출 방법에 대해서 설명을 하였고 중심극한정리에 대해서 설명을 하였습니다. 


표본 추출하는 목적은 모집단에 대한 평균, 표준편차, 분포형태와 같은 모수의 특성을 파악하기 위해서 사용하는 것이라고 설명을 했는데요

이번시간에는 점추정, 신뢰구간 추정과 같은 추정 방법을 통해서 표본으로 모집단의 모수를 어떻게 추정하는 것에 대해서 설명을 하도록 하겠습니다.


추정은 모집단의 대한 유추라고합니다. 

점추정은 모집단의 특성(모수)를 추정하기 위해 사용하는 하나의 계산된 값(통계량)입니다.


이러한 점추정을 예로들어보겠습니다

피그미족의 평균 키는 μ라고 합니다. 요기서 50명을 표본으로 뽑아서 키를 조사하였더니 평균이 135cm가 나왔습니다. 

이때 이러한 135cm처럼 하나의 수치, 하나의 값으로 모수 μ를 추정하는 것이 점추정이라고 합니다. 


이러한 점추정의 결과가 모집단의 모수에 가까운 값이라는 기대는 할 수 있으나 가까운 정도를 계량적 수치로 표현할 수는 없습니다. 따라서 이를 위한 보완적 수단으로 구간추정이라는 추정방법이 필요합니다. 


음... 예를 들어보록 하죠 ㅎ

피그미족의 점추정이 135cm라고 했었습니다. 하지만 이 값은 모수에 대한 추정치일 뿐이고 실제 모평균ㅇ과는 차이를 보일 수 있습니다.

따라서 확률적 표현을 통해서 모집단의 모수가 어떤 범위내에 존재할 가능성에 대해서 기술할수가 있습니다. 

"피그미족의 평균키가 130cm~140cm사이에 있을 가능성이 있을 가능성이 90%이다"라는 표현을 할수 있습니다. 


신뢰구간은 주어진 확률로 모집단의 모수가 존재할 것으로 예상되는 값의 범위입니다.

이로인해서 표본평균의 95%는 모평균 μ를 중심으로 양쪽으로 표준편차의 1.96배가 이내에 존재한다

표본평균의 99%는 μ를 중심으로 양쪽으로 표준편차의 2.58배 이내에 존재한다. 

95%, 99%라는 말이 신뢰구간이라고 하고 신뢰수준이라고도 합니다. 


모평균에 대한 신뢰구간의 폭은 3가지 요인에 의해서 결정이 되는데 

  1. 표본에 속한 관찰값의 수 'n'
  2. 모집단의 변동성, 일반적으로 표본표준편차 s 를 통해 추정합니다. 
  3. 신뢰수준에서 모평균에 대한 경우 (σ를 아는 경우 식은) = 라고 합니다. 이경우에서는 신뢰한계를 z분포를 이용하였습니다.
  4. 또 모표준편차를 모르는 경우에 신뢰한계의 식은라고 하고 , 이경우에서는 신뢰한계를 t분포를 이용하였습니다 .




t를 구하는 식은 이러하다. 




위에서 t분포의 주요한 특징이 있다. 

  1. 1.연속활률분포이고 종모양이고 대칭이다.
  2. 표준정규분포에 비해 좀 더 평평한 모양이다.
  3. 자유도에 따라 여러 형태의 t분포가 존재한다.



비율은 모집단이나 표본에서 어떤 특성을 가진 일부분에 대한 비율, 분수, 퍼센트를 의미한다. 이에 표본비율은 p =X/n이라고 부른다. 

모비율에 대한 신뢰구간은 다음의 공식을 통해서 나뉘어집니다. 

    1.  모평균 추정을 위한 표본크기를 정할때에는 

    • 원하는 신뢰수준 Z

    • 연구자가 감내할 수 있는 오차한계 E

    • 대상 모집단의 변동성 S 이 필요하다. 

    • 결과적으로 모평균을 추정을 위한 표본크기는 다음과 같다. 

    모비율 추정을 위한 표본크기도 3가지 요인에 의해서 나타난다.

    • 원하는 신뢰수준으로 보통 간접적으로z를 사용하여 표현다. 

    • 최대허용오차 

    • 모비율에 대한 점추정치, 0.5를 사용하기도 한다. 

    • 결과적으로 모비율을 추정을 위한 표본크기는 다음와 같다. 

수고하셨습니다. ㅎ


반응형

'공부 > 통계 정리' 카테고리의 다른 글

통계(단일 표본의 가설검정)-2  (0) 2017.03.14
통계(단일 표본의 가설검정)  (1) 2017.03.13
통계(표본추출, 중심극한정리)  (1) 2017.03.09
통계(연속확률분포)  (0) 2017.03.08
통계(이산확률분포)  (0) 2017.03.01
이번에는 통계에서 표본추출에서 중심극한정리까지 정리해보겠습니다. 


표본 추출에 대해서 정리하기 전에 모수, 모집단이 있는데요.

  • 모수 (parameter) 란 모집단의 특성을 나타내는 양적 척도  모든 사람을  조사 해보는 

  • 모집단 (population)란 관심의 대상이 되는 원소들 전체의 집합

이러한 모집단에서 추출된어진 대상을 표본이라고 합니다.

그러면!!! 왜 이런 표본추출을 하게 될까요?

첫번째로는 모집단에 대한 조사는 시간이 많이 소요됩니다. 

두번째로는 비용이 많이 필요하고 , 물리적으로 불가능한 경우가 많기 때문입니다. 

그외의 여러 이유가 있습니다.


표본추출하는 방법은 총 4가지 방법이있는데요


이렇게 여러개의 추출 방법이 있습니다. 


이러한 표본은 모집단의 특성을 추론하기 위해서 사용됩니다. 

그러나 모집단의 일부분이므로 정확하게 일치하지가 않습니다. 이러한 경우 오차가 발생하는데 이걸 표본오차로 부릅니다. 

  • 표본오차는 모집단의 모수와 표본통게량과의 차이를 말합니다. 

그러면 오차가 발생하게 된다면 어떻게 표본 결과를 믿을까요...? (정확한 예측을 할수가 있을까요??)

그 궁금점을 해결하기 위해서 표본평균의 표본분포에 대해서 이해를 해야됩니다. 

  • 표본평균의 표본분포는 동일한 크기의 모든 가능한 표본들로부터 얻어진 표본평균들의 확률분포입니다.
  • 즉 표본들중에서 동일한 크기를 가진 표본들의 평균의 확률분포입니다. 

표본평균분포와 모집단분포와 중요한 관계들이 있는데요

  1. 표본평균들의 평균은 모집단 평균과 항상 일치한다. 
  2. 표본평균분포의 산포의 폭은 모집단 분포에 비해좁다. 
  3. 표본평균분포의 형태는 정규분포에 가까운 종 모양을 가집니다..

이러한 표본평균분포를 사용하여서 에 중심극한 정리를 사용할수가 있습니다.

중심극한 정리(Central Limit Theorem)란 어떤 모집단으로부터 동일한 크기의 모든 표본들을 추출하고 표본평균분포를 구하면 정규분포에 근사하게 하는 방법입니다. 

중심극한 정리의 가장 큰 장점 하나는 모집단의 분포형태에 상관없이 이러한 원리가 적용이 가능하다는 점입니다. 

정규분포를 활용한 신뢰구간의 도축과 검정을 수행하는데 결정적인 역할을 합니다.





옆의 그림처럼 다양한 모양의 모집단분포에 대해 보여주고 있습니다. 


표준평균 분포에서 최소한 30이상의 표본크기를 주면서 점차적으로 정규분포와 유사한 특성을 가지게 되는것을 볼수가 있습니다. 



중심극한 정리의 정의에 의해서 표본평균분포의 산포 폭은 모집단 보다 좁은것이 보입니다.












오늘은 요기까지 정리를 하겠습니다..ㅎㅎ 




분포

안녕하세요 정리를 하다보니까 위의 그림에서 분포에 대해서 설명을 재대로 못하기도 하고 이러한 분포에 대해서 좀더 추가적이 정리를 하기 위해서 적었습니다. ㅎ


분포란 일반적으로 흩어져 있는 정도와 경향성을 의미합니다. 

이 퍼짐정도를 인해서 예로들어서 학생들의 최고점과 최저점에 대해서 알수 있게 됩니다. 

통계학에서도 이와같이 분포를 말할때에도 퍼짐과 경향성을 의미하는 한가지 더 추가하면 분포의 모양도도 들수가 있슴니다 .


정규분포의 모양은 종형이고 좌우대칭으로 어느한쪽으로도 치우치치 않는 것을 예로 들수가 있슴니다. 따라서 분포를 바르게 사용할려면 퍼짐 경향성 분포 모양이 확실하게 나타나야된다. 
이러한 분포 모양을 표현하기 위해서는 표, 그래프 수식으로 표현을 합니다. 이런 방법을 이용해서 치우처짐을 알수가 있는것이죠 

분포의 모양에 대해서 봅시다. 
원래라면 표를 보고 만든다면 부드럽지 않고 뽀족뽀족 한 그래프가 될껍니다. 그렇지만!! 조사대상을 계속 무한히 늘리게 되면 부드러운 다각선이 되게 되죠 마치 이산주파수에서 연속주파수로 바뀌는 경우랑 비슷합니다. 
이러한 부드러운 곡선이 되면 가장 빈도가 높은 한점을 정점이라고 합니다. 이런 정점이 하나가 있으면 가운데가 불룩한 그래프가 되는거죠 흔히 자주 보던 정규 분포처럼 보입니다. 

만약에 만대로 정점이 양끝에 위치하게 되어지면 가운데가 오목해집니다. 
또 정점이 두개가 되면 봉이 두개라서 이봉성이 될수가 있슴니다. 

또 오른쪽으로 치우치거나 왼쪽으로 치우칠수가 있슴니다. 

이러한 그림의 형태로 분포에는 여러가지 형태가 존재합니다 .



반응형

'공부 > 통계 정리' 카테고리의 다른 글

통계(단일 표본의 가설검정)  (1) 2017.03.13
통계(추정과 신뢰구간)  (0) 2017.03.11
통계(연속확률분포)  (0) 2017.03.08
통계(이산확률분포)  (0) 2017.03.01
통계(확률)  (0) 2017.02.28

저번 에는 이산확률 분포에대해서 정리를 하였습니다. 

이번에는 연속확률 분포에대해서 짧게 정리를 하겠습니다. 


연속확률 분포에서는 균등확률분포(uniform probability distribution), 정규확률분포(normal probability distribution)가 있습니다.


균등확률분포(uniform probability distribution)

연속확률분포중 가장 간단한 분포입니다. 사각형 모양이고 최소값과 최대값으로 정의가 됩니다. 


 

 균등확률분포의 평균 : μ = (a+b)/2

 균등확률분포의 표준편차 : 

 균등확률분포 : 


정규확률분포(normal probability distribution)


 

 정규 확률 분포 : 

 -> 확률식은 복잡해 보인다. ;;;ㅎ

  • 정규분포의 모양은 종형이고 분포의 중간지점에 최대값의 변곡점이 나타나는 형태를 보입니다. 
  • 산술적인 평균, 중앙값, 최빈값이 모두 같은 값이되고 값은 분포의 중앙에 위치하게 됩니다. 
  • 대칭형태를 가집니다. 
  • 중앙값에서 양 극단으로 갈수로 점점0에 가까워집니다. 즉 정규분포는 점근성을 가집니다. 
  • 정규분포는 평균값 μ에 의해 결정이되고 산포 또는 퍼짐은 표준편차 σ에 의해 결정이 됩니다. 
  • 정규분포는 가우시안분포라고도 불린다. 



표준정규확률분포 

모든 정규확률분포는 정규분포를 따르는 확률변수를 X를 '평균으로 부터 떨어진 거리의 대한 표준편차의 비로 변환하면 모든 정규분포는 표준정규분포로 변환할수 있고 이계산결과를 

Z값 or Z스코어라고 한다. : 관측값 X에서 평균 μ을 뺀 값을 표준편차 σ로 나눈 수 


z의 평균은  표준편차는

이것을 통해서 Z분포는 평균이 0이고 표준편차가 1인 표준정규 분포로 변화시킬수 잇다.


이러한 정규 분포를 따르는 확률변수 X를 평균으로부터 떨어진 거리에 대한 표준편차의 비로 변환하게 되면 표준정규분포라고 불립니다. (Z-분포) 


수고하셨습니다. 



안녕하세요ㅎㅎ


연속확률 변수는 구간 내의 모든 값을 갖고 , 적분을 통하여서 구간 확률로 산출합니다. 


정규분포, T분포, X^2 F분포가 활용이 됩니다. 


위의서 설명했던 정규분포를 왜 사용할까요?

정규분포는 자체가 수학적으로 흠이 없어서 수학적으로 다루기가 쉽다고 합니다. 즉 경험적인 현상들로 얻은것이 아니라 수학적으로 유도된 식이기 때문입니다. 이러한 정규분포는 평균과 표준부표로에 의해서만 결정이 되는 분포입니다. 


위의 그림에서와 같이 표준편차와 평균으로 인해서 그래프가 나타납니다. 하지만 평균이 다른 두 정규분포가 있다면 

위의 그림처럼 됩니다. 


정규분포 추가적으로 설명할것이 있는데요 

P(μ-α ≤X ≤ μ+α) =0.683

P(μ-2α ≤X ≤ μ+2α) =0.954

P(μ-3α ≤X ≤ μ+3α) =0.997

이러한 식에 대해서 알고 있으시면 좋을꺼 같습니다.


위의 식에서 확률 변수 X가 평균으로 부터 떨어진 거리를 표준편차로 환산하여서 표준편차 단위로 환산하고 전체 분포에서 표준편차 단위 내 차지하고 있는 점유율을 할수가 있습니다.

예로 들자면 P(μ-2α ≤X ≤ μ+2α)오 부터 정규분포를 하는 확률 변수 X 값중에서 평균으로 우측으로2σ보다 큰 값은 전체 분포에서 2.3%를 차지 한다고 설명할 수 있습니다. 결국 X값이 무작위로 나타날 확률은 2.3%를 의미합니다. 


이런 분포를 대칭이냐 비대칭이냐 정도를 판단해주는 것을 왜도라고 하고. 환만한 모양을 표시해 주는 형상의 측도를 첨도라고 합니다.


반응형

'공부 > 통계 정리' 카테고리의 다른 글

통계(추정과 신뢰구간)  (0) 2017.03.11
통계(표본추출, 중심극한정리)  (1) 2017.03.09
통계(이산확률분포)  (0) 2017.03.01
통계(확률)  (0) 2017.02.28
통계  (0) 2017.02.04

확률분포: 어떤 실험의 가능한 모든 결과와 각 실험결과별 확률의 나열 확률 변수 : 어떤 실험의 결과의 숫자로 나타낸 것으로 다른 값을 가진다. 

이때 모집단의 확률 분포를 알아야 하는데 확률이 지정되는 방식에 따라 이산형과 연속형으로 구분된다. 


이산확률변수 : 오직 특정값만 다룬다. 특정값이란 어떤 정해진 값만 가질수 있다는 의미이다. 

예)다섯 명의 아이들 중에서 크리스마스선물로 한 개 이상의 장난감을 받은 아이의 수는 0, 1, 2, 3, 4, 5 중의 하나

  • 이산형 확률 변수의 특징
  1. 확률값의 합은 1이다. 
  2. 특정 결과가 나올 확률값은 0.00과 1.00 사이다. 
  3. 결과들은 상호 배타적이다. 

연속확률변수 :  특정 범위내의 모든 무한한 숫자값을 대상으로 한다. 

예) 현재 A동의 온도를 확률변수로 간주하는 경우 그 확률변수는 23.8°, 18.2°, 13.5°와 같이 다양한 값을 가짐


이산확률분포의 평균, 분산, 표준편차

  • 확률 분포의 평균 :  확률분포의 중심위치를 나타내는 전형적인 값이다. 기대값이라고 부른다. p(x) : x값의 확률이다. 

∴이산확률분포 평균은 각 값과 해당 발생 확률값을 곱한 다음 모두 합산한 결과이다. 


  • 확률 분포의 분산 : 변수들의 퍼짐 정도를 알수가 있다. 

∴각각의 확률변수 값에서 평균값을 뺀 다음 차이를 제곱하고 제곱값에 확률값을 곱한다. 그 후 곱한 모든값을 더하면된다. 

  • 확률 분포의 표준편차 

밑의 예시처럼 확률과 평균은 식에 대입하여서 구하면된다. 

판매차량 대수  x

확률  P(x)

평균 

분산 

0

0.10 

0.00

 0-2.1 

4.41

 0.441 

 1

0.20

0.20

 1-2.1

1.21

 0.242

 2

0.30

0.60

 2-2.1

0.01

 0.003

 3

0.30

0.90

 3-2.1

0.81

 0.243

 4

0.10

0.40

 4-2.1

3.61

 0.361

총계

1.00 

μ=2.10

 

 

 σ² = 1.290


이항확률분포(Binomial Probability Distribution)

정의 : 한실험 결과에서 두가지 결과만 갖는 경우를 설명하기 위한 방법,  상호배타적이다. 

  • 특징
  1. 각 시행의 결과는 상호배타적인 성공과 실패 둘 중 하난로 구분된다. 
  2. 이항분포는 특정 시행 횟수 중 성공한 횟수를 나타낸다. 
  3. 각 시행별 성공과 실패가 나타날 확률은 변하지 않는다. 
  4. 시행은 서로 독립적이다. 
  • 이항확률 게산법 : 시행횟수와 각 시행별 성공/실패 확률을 사용한다. 공식은 다음과 같이  표현이 됬다.

C는 조합이고, n은 1행 횟수, x는 성공횟수로 명명된 확률 변수, π는 각시행별 성공확률이 된다. 

  • 이항분포의 평균 : 
  • 이항분포의 분산 : 
  • 초기하분포 :  
  1. 각 시행의 결과는 오직 두개의 결과를 가진다. 
  2. 각 시행별 성공 확률은 항상 같지는 않다. 
  3. 초기하 분포는 특정 시행횟수에서 성공한 횟수를 나타낸다. 
  4. 이것은 유한 모집단에 대하여 비복원으로 추출할 때 사용된다.
  • 포아송 분포주어진 특정 간격 동안 발생하는 사건의 횟수를 설명하는 것
  1. 특정 구간동안 발생하는 사건의 횟수를 설명한다. 
  2. 성공의 확률은 구간의 길이에 비례한다. 
  3. 중복되지 않는 구간은 서로 독립적이다. 
  4. n이 크고 π가 작을 경우 이항확률분포의 추정치로 사용할 수 있다.

반응형

'공부 > 통계 정리' 카테고리의 다른 글

통계(추정과 신뢰구간)  (0) 2017.03.11
통계(표본추출, 중심극한정리)  (1) 2017.03.09
통계(연속확률분포)  (0) 2017.03.08
통계(확률)  (0) 2017.02.28
통계  (0) 2017.02.04

저번에는 기술통계에 대해서 정리를 하였습니다.

이번에는 통계학의 두 번째 측면, 미래에 무엇이 일어날 가능성을 계산하는 법을 알아보고자 합니다. 


이 부분을 통계적 추론 추측통계학이라고 한다. 

추측 통계는 모집단에서 추출한 표본 조사에 기반하여서 모집단에 대한 어떤 결론을 도출될때 사용을 합니다.

이때에 결론을 내릴 때 불확실성이 동반이 되므로 확률이론이 사용이되어지고. 이러한 확률이론으로 위험성을 줄일수가 있어진다고 합니다.  


확률이란 0과 1사이의 숫자로서 특정 사건이 일어날 가능성을 나타냅니다.

위의 그림은 0과 1까지 나타나는 확률을 표현한 것으로 소수자리에서 확률들이 나오게 된다. 

이때 확률에서는 실험(시행), 실험결과 사건(사상)이렇게 3개의 중요 키워드가 사용된다. 

  • 실험이란 어떤 행위에 관측이거나 측정을 하는 것을 일컫는다. 
  • 결과는 실험의 일부 결과이다. 
  • 사건은 실험의 하나 이상의 결과로 구성된 집합이다.

상대적 비율접근(relative frequency approach) : 계속해서 값을 증가할수록 그 값에 수련하는것 -> 빈도론자(Frequentist)

주관적 접근 (subjective approach) : 각자 생각에 있는 어떤 값에 수렴해가는것----> 베이시안(Bayesian)


  • 확률값을 부여하기 위해서는 주관적인 관점과 객관적인 관점으로 나뉘어진다.

  • 주관점 관점은 (1) 고전적 확률, (2) 경험적 확률로 나누어진다. 

(1) 고전적 확률 =관심있는 실험결과의수 / 가능한 모든 실험결과의 수 : 실험에서 n개의 동일한 가능성으로 발생 가능한 경우

(2) 경험적 확률 = 사건 발생횟수/ 전체 관측 숫자 

대수의 법칙 : 실험 관측의 횟수가 커질수록 어떤 사건의 발생 확률은 ㅈ진짜 확률에 근접한다. 

(2) 주관적 확률 = 주관적으로 확률값을 부여하는 방식, 가능한 모든 정보가 기반하여 특정한 사건의 발생 가능한 확률 값이 결정된다. 


확률 실험이란 험으로 나올 있는 결과를 모두 알고 있지만 어떤 결과가 나올지 모르는 실험


덧셈 법칙에서는 확률의 덧셈 법칙과 일반 법칙 2개로 되어진다. 

확률의 특별 법칫 구칙 : P(A U B) = P(A) + P(B) : 이러한 공식에 성립할려면 반드시 상호 베타적이여야 한다. 각각의 경우가 만나지 않는다. 

여집합 규칙 = P(A) = 1- P(~A) 

일반적 덧셈 : P(A U B) = P(A) + P(B) - P(A & B) : 일반적으로는 상호배타적이지 않는다. 


곱셈의 일반 법칙 : 두개의 사건이 독립이 아니면 종속적이라고 한다.  P(A & b) = P(A)P(BIA)

이러한 곱셈의 일반 법칙에서 첫번째의 경우를 지난후에 두번째의 경우가 생겼을때 조건부 확률이라고 부른다. 


베이즈 정리 : 어떤 조건확률을 구할때 그 조건 상황이 역으로 되어 있는 확률을 해결하기 위한 것이였다. 

즉 P(B|A)를 알고 있을 때 전제와 관심이 정반대인 조건부 확률 P(A|B)를 구하는 방법이다 .


즉 두 확률 변수의 사전확률과 사후 확률 사이의 관계를 나타내는 정리이다.  


이러한 곱샘 계신을 하기 위해서는 곱셈 공식, 순열 공식, 조합 공식을 알아야한다. 

곱생공식 : 정렬한 총 갯수 = (m)(n) = m x n

순열 공식 : n개 객체 중에서 r개를 선택하여서 정렬하는 것 n : 대상 객체 전체의 갯수, r: 선택된 객체의 갯수 

조합 공식 : 특정 개체군에서 몇개의 개체를 순서에 상관없이 정렬할 떄 조합이라고 한다. 


반응형

'공부 > 통계 정리' 카테고리의 다른 글

통계(추정과 신뢰구간)  (0) 2017.03.11
통계(표본추출, 중심극한정리)  (1) 2017.03.09
통계(연속확률분포)  (0) 2017.03.08
통계(이산확률분포)  (0) 2017.03.01
통계  (0) 2017.02.04

안녕하세요 블로그를 처음으로 해보는데요 제가 평소에 공부를 하던것을 정리하면서 올리려고 합니다..

많이 부족할꺼지만 ㅎ 도움이 되셨으면 좋겠습니다.

처음으로는 어딜가나 빠질수 없는 통계에대해서 정리를 해볼려고 합니다. 


통계학의 개념 : 자료에 근거하여 자연 또는 사회 제현상에 대한 과학적인 추론과 불확실한 미래를 대비하기 위한 합리적인 의사결정을 하고자 하는 학문입니다.

 

대표적으로 기술 통계학(일반적 통계) 추측통계학(추측을 통한 통계)으로 나누어집니다.

기술 통계학 : 수집된 자료의 특성을 쉽게 파학할 수 있도록 자료를 정리 요약 방법

추측 통계학 : 과학적으로 추론하는 방법을 다루는 것

 

  • 1모집단과 표본

모집단(population) : 마치 국민 전체와 같이 말하려는 전체!!!Ex 국민전체

  • 유한모집단(finite population) : 원소의 개수가 유한  

  • 무한 모집단(infinite population) : 무한

표본(sample) : 통계적 처리를 위하여 모집단에서 실제로 추출한 관측  모집단에서 부분적으로 조사하는 집단.지나가는 100

임의표본 (random sample) : 수학적으로 가장 다루기 쉬운 것이다.


  • 2 자료의 종류

직접자료, 간접자료

질적자료(categorical data) : 숫자로 표시 없는 자료    

양적자료 : 숫자로 표현되어있음                                

명목형 자료(nomainal data) : 이름이나 문자로 나타내는 자료이다.

순서형 자료 : 문자로 나타내는 자료이지만 순서가 있음

숫자형 자료 : 숫자로 측정한 자료이다.

시계열 자료 : 시간의 변화에 따라 얻는 자료

횡단면 자료 : 동시간 대에 얻는 자료

2-2 질적 자료의 해석

도수분포표

빈도(frequency) : 질적 자료인 경우에 자료 값이 나타나는 ex) 6 --> 상대도수(relative frequency) : 전체 자료의 숫자로 나눈 ex) 6/20 = 0.3

상대도수 막대그래프 X : DATA Y : 상대도수 RELATIVE FEREQUENCY

원형그래프

  • 2-3양적 자료의 해석

줄기잎 그림 : 줄기 부분을 분리하는 것을 뜻합니다. 

도수분포표계급 간격(class width) 설정 해주어야됨 계급폭=(가장 큰 자료값- 가장 작은 자료값)/계급의 수

히스토그램 : 도수도분포표를 구해서 그림으로 표현하는 방법 X : 계급구간 , Y : 상대도수

히스토그램에서 볼수 있는 특징 : 대칭(symmetry) 인가 왜도(swewness) 어느 방향에 있는 확인할수가 있다

 


상자 그림 초기값과 중간값과 최대값으로 이용하여 상자 그림으로 만들어짐.


아웃라이어라고도 하고 평균을 크게 변하는 값을 찾을수가 있따> 

 

 

기술통계 파트~! 이제 부터 본격적인 통계가 시작됩니다.~

  • 3.1평균 : 산술평균이라고도 불리고 양적 자료를 흔히 사용됩니다. -->양적자료로 일반적으로 (1)위치척도와 (2)분산척도로 많이 사용된다.

(1)위치척도

중앙(median)위치상의 크기가 중앙인것을 발한다(이경우는 순위척도에서 많이 사용한다. )

최빈(mode) 데이터가 가장 많은곳 빈도수가 가장 높은곳을 의미한다.  (이경우는 명목척도에서 많이 사용한다. )

산포도 : 중심위치에서 얼마만큼 떨어져 있는가를 측정하는 분포

모집단 평균 : 모집단의 모든 값의 합/ 모집단의 값의 갯수 흔히 뮤라고 말한다.

표본 평균 : 표본의 모든 값의 합/ 표본의 값의 갯수 흔히 엑스바라고 말한다.

 

범위의 중앙 - 정적 편향 데이터 그래프.jpg옆의 그림은 비대칭 분포의 팽균, 최반값, 중앙값에 해당하는 영역이다. 



분산(variance) 모든 자료가 평균을로부터 떨어져 있는 거리를 제곱하는것의 평균값이 분산이다. 즉 한자료의 변동 또는 흩어진 정도이다.

표준편차 : 분산의 제곱근.즉 산술평균과 개개의 값들의 차이를 말합니다. 외 제곱을 하느냐면 평균과의 거리가 음일때 제곱을 해준후 제곱근을 해주면 평균값의 거리가 음이라는 조건이 없어지기 떄문입니다. 즉 양으로 바꿔주는 과정입니다. 



 모집단의 평균

 모집단의 분산

 모집단의 표준 편차





    이때 분포가 넓으면 표준편차가 크다. 분포가 좁으면 표준편차가 작다라고 한다(흔히 성적에 많이 사용이 한다.)    

      표준편차는 데이터들이 평균으로부터 떨어진 거리의 평균값

    분산은 평균에서 얼마나 떨어져 있는지 알려주는


     표본의 평균

     표본의 분산

     표본의 표준 편차




    표본의 평균과 분산인 경우는 위의 표처럼 되어진다.

    수고하셨습니다.

    반응형

    '공부 > 통계 정리' 카테고리의 다른 글

    통계(추정과 신뢰구간)  (0) 2017.03.11
    통계(표본추출, 중심극한정리)  (1) 2017.03.09
    통계(연속확률분포)  (0) 2017.03.08
    통계(이산확률분포)  (0) 2017.03.01
    통계(확률)  (0) 2017.02.28

    + Recent posts