평균(mean)
• 산술평균, 기하평균, 조화평균, 평방평균
• 대표적인것 – 산술평균 – 모든 관측치의 합을 관측치의 개수로 나눈 값
• 간격척도, 비율척도로 사용
중위수(median)
• 자료를 크기순으로 나열시 중앙에 위치하는 값
• 서열척도, 간격척도, 비율척도로 측정된 자료의 중심경향치로 사용
최빈값(mode)
• 자료에서 자주 나타나는 관측치
• 모든 척도의 종류에서 사용 가능
1) 정의
– 데이터 집단에서 중심의 경향을 나타내는 수학적 척도
– 일반적으로 산술평균(단순평균)을 지칭하나, -이외에도 여러 다른 형태의 평균이 있음
2) 평균에 대한 여러 가지 종류들
* 산술평균 – 그냥 평균이라고 말하는, 자료 전체 합에 대해 자료수로 나눈 평균
* 기하평균 – 자료들을 곱하여 거듭제곱근으로 구하는 평균
* 가중평균 – 중요도 등에 따라 가중치를 곱하여 구하는 평균
* 이동평균 – 2이상의 연속된 데이터의 평균을 계속하여 구해내는 평균화 방법
– 중심 위치의 여러 측정방법중에서 가장 일반적으로 많이 쓰이는 평균은 산술평균을 말하며 자료의 총합을 표본의 크기로 나누어 준다.
1) 중위수(중앙값)
• 자료를 크기순으로 배열했을때 제일 가운데에 위치하는 값 – 50
• 백분위수라고도 불리움
2) 중위수 例)
• 1, 3, 5, 7, 9 → 중앙값은 5
3) 중위수 관련 참고용어
• 이상치(outlier) – 자료 중 전체 형태로부터 동 떨어져 있는 큰 잔차를 갖는 값들을 말함
중앙치(median) 공식
• 중앙값은 n이 홀수이면 (n+1)/2번째로 크거나 작은 숫자임
• 중앙값은 n이 짝수이면 n/2번째 숫자와 (n/2)+1번째 숫자의 평균으로 정의
예) 5주 동안 판매된 닭의 수가 42, 39, 31, 35, 38일때, 중앙치는 31이 아니라 38이다. 우선자료를 크기순으로 나열한 후 가장 중앙에 오는 값을 중앙치로 한다.
• 31, 35, (38), 39, 42
• 자료의 중심위치를 측정하는 것으로 가장 많은 관찰치를 대표치로 하는 최빈치(mode)가 있다.
예) 어떤 축구선수의 10개월간 월별 득점 데이터가 다음과 같을때
0, 1, 3, 0, 4, 3, 1, 2, 0, 3
이 자료에서 2,4점이 1번씩, 1점이 2번 0,1점이 3번으로 최빈치는 0,3점으로 유일한 값을 갖지 않는다.
• 자료는 변수로 구성된다. 자료를 요약하기 위해서 먼저 각 변수들의 분포를 도수분포표로 요약
• 명목변수는 원도표
• 서열변수는 원도표나 막대도표,
• 간격변수,비율변수를 간격변수로 변환시 – 히스토그램도표
• Lee C.Y. et al(2009)*은 한국과 미국간호대학생들을 대상으로 임상실습 만족도의 차이를 연구
(1) 명목변수의 예 : 간호대학생들의 주거형태
• SPSS : 분석 → 기술통계량 → 빈도분석 → 변수선정(주거형태) → 확인
• 간호대학생들의 주거형태분포를 227명을 대상으로 분석한 결과, 55.5%가 가족과 거주한다고 하였으며, 그 다음으로는 24.7% 가 자취, 19.8%가 기숙사에 거주한다고 응답하였다.
• 간호대학생들의 임상실습 만족도를 236명을 대상으로 분석한 결과, 만족이라고 응답한 대상자는 154명(65.3%)이었고 매우 만족이라고 응답한 대상자는 29명(12.3%)으로 전체 중 77.6%가 임상실습에 만족 이상의 응답을 보였다.
문제
– 자료의 분포를 요약하여 나타내는 방법이다.
– 산포도를 나타내는 수치로는 범위, 사분위수, 분산과 표준편차가 있다.
– 데이터의 특징 중 가장 중요한 것은 데이터 하나하나가 같지 않고 서로 다르다는 것이다.
– 중심위치의 측정 방법은 데이터의 중심점을 나타내는데는 중요한 방법이지만 데이터의 근본 특징은 나타내주지 못하고 있다.
– 데이터가 어떻게 퍼져있고 분포되어 있는가에 대한 통계적 측정방법을 변동의 측정(measure of variability)이라고 부른다.
범위(range)
• 최대값과 최소값의 차이
• 극단값의 영향을 많이 받는 한계
사분위수(quartile deviation)
• 자료의 상위 25%와 하위 25% 관측치 제외한 범위를 구한 값
분산(variance)
• 관측치들의 평균값의 분산
• 산포도의 대표적인 값
표준편차
• 평균으로부터의 떨어진 점수들의 흩어진 정도
• 분산과 함께 대표적인 산포도값
• 자료의 산포도를 나타내는 수치, 평균의 오차
• 최대값에서 최소값을 빼준값인 범위(range)는 데이터의 변동을 나타내준다.
• 범위 = 최대값 – 최소값
– minumujm
– Q1(1사분위수) * 25%에 위치하는 수
– Q2(2사분위수) * 50%에 위치하는 수
<중위수(median)>
– Q3(3사분위수) * 75%에 위치하는 수
– maximum
• 모든 관찰치(Xi)와 평균(-X)과의 차이를 제곱하여 합한 후, (표본수(n)-1)로 나눈 수치를 표본분산이라고 한다.
– 분산은 자료의 변동을 측정하는데 가장 일반적으로 많이 쓰이는 방법
– 분산은 데이터가 평균으로부터 어떻게 퍼져있는가를 나타내는 통계량 분산을 구하는 공식은 다음과같다.
분산 : 관측치들의 평균값의 분산
| 평균(mean) | 표준편차 | 분산 | |
| 모집단 | μ(뮤) 또는 m | σ시그마 | σ² |
| 표본 | x | s | s² |
• 모평균를 대신에, 대신을 쓸 경우 모집단에 대한 모분산이 되며 기호로도 σ²으로 표시한다.
• 일반적으로 표본통계량을 계산하는 목적은 모집단의 모수를 추정하기 위해서이다.
• 표본평균를 계산하여 이 표본평균들의 평균을 내면 모평균에 가까워진다.
σ²=
• 표준편차는 관측치들이 평균으로부터 얼마나 떨어져 있는지 알려줌
• 68-95법칙
• 관측치들의 약 68% 정도가 평균으로부터 1 표준편차 이내로 떨어져 있다.
• 관측치들의 약 95% 정도가 평균으로부터 2 표준편차 이내로 떨어져 있다.
1) 평균은 같으나 표준편차가 다른 경우
2) 평균은 다르나 표준편차가 같은 경우
왜도(skewness)
• 자료의 분포가 기울어진 방향과 정도
• 분포의 비대칭 정도 의미
첨도(kurtosis)
• 자료의 분포가 얼마나 중심에 집중되어 있는지 정도로 정규분포와 비교
– 자료의 분포가 기울어진 방향과 정도, 분포의 비대칭 정도
왜도(Skewness)
– 자료의 치우침 정도를 나타내는 지표.
– 이 그림은 오른쪽이 찌그러진 분포인데 왜도가 0보다 크면 우측왜곡(Right Skewness)을 나타낸다.
– 우측왜곡인 경우에는 평균이 중앙값보다 일반적으로 크다.
– 왜도가 0보다 작은 음수이면 좌측왜곡(Left Skewness)을 나타낸다.
– 좌측왜곡인 경우에는 일반적으로 중앙값이 평균보다 크다.
– 평균은 극한값에 영향을 받기 때문이다.
– 자료의 분포가 얼마나 중심에 집중되어 있는지 정도로 정규분포와 비교
– 분포모양이 위쪽으로 뽀족하게 올라갔는지 아래쪽으로 내려갔는지 나타내는 그래프, 평균과 중위수의 분포도
– 첨도가 K<0인 경우
– 정규분포보다 퍼져 있는 분포. 즉 관찰치들이 평균보다 멀리 퍼져 있는 분포로서 첨도가 0보다 적은 음수를 나타낸다.
– 첨도가 K>0인 경우
– 정규분포보다 뾰족한 분포. 즉 관찰치들이 평균에 가깝게 분포되어 있는 경우 첨도가 0보다 큰 양수이다.
기술통계량 해석
1. 아래표들은 한국과 미국간호대학생 232명의 연령분포이다
1) 평균연령, 표준편차, 범위를 구하시오.
2) 이 분포는 좌측왜도인지 우측왜도인지 설명하시오.(평균과 중앙값을 고려하여 답하시오.)
풀이
1) 평균연령,표준편차,범위를구하시오.
• 평균연령:5292/232=22.81
• 표준편차:=4.135
• 범위:19~55
2) 이분포는좌측왜도인지우측왜도인지설명하시오(평균과 중앙값을고려하여답하시오).
• 평균(22.81)>중앙값(22.00): 우측왜도
• 2.3가지변수인종교(명목변수),혈압(서열변수),비만도(비율변수)의 대표치는 어떤 것들이 가능할지 기술하시오.
• 종교(명목변수):최빈값
• 혈압(서열변수):최빈값,중앙값
• 비만도(비율변수):최빈값,중앙값,평균
예) 죽음인식정도와 임종간호태도정도는 평균과 표준편차를 구했다
(간호연구) 기술통계 01 통계학의 분류 1) 기술통계학 2) 추론통계학 기술통계(descriptive statistics) 기술통계학(descriptive statistics) - 수집된…
(간호연구) 문제 모음 03 확률 표본 추출방법 방법어떻게할까 전국중학생명단을구해서2,000명을컴퓨터로무작위선택 중1(30%), 중2(35%), 중3(35%) 비율대로각학년에서무작위추출 명단에서1,000번째간격으로2,000명선택(1번, 1001번, 2001번…) 전국에서50개학교를무작위로뽑아그학교학생2,000명모두조사 비확률 표본…