콘텐츠로 건너뛰기

(간호연구) 기술통계 01

(간호연구) 기술통계 01

통계학의 분류

1) 기술통계학

2) 추론통계학

기술통계(descriptive statistics)

기술통계학(descriptive statistics)

– 수집된 자료를 정리, 요약하여 수치, 표, 그래프로 자료의 특징을 파악하는 연구분야

– 자료가 가지고 있는 원래의 특성만을 표현

– 질적 변수 : 표, 그래프에 의한 자료정리

– 연속변수 : 수치에 의한 자료정리

기본개념 : 모집단과 표본

구분모집단(Population)표본(Sample)
정의연구대상이 되는 모든 개체의 집합모집단에서 추출한 일부 개체의 집합
크기N (고정된값)n (표본크기)
“2024년 한국 성인 남성 전체의 키”“서울시민 1000명의 키”
목적모수(parameter) 추정통계량(statistic) 계산으로 모수 추론

분산 공식의 차이 (n-1 vs n)

모집단 분산(Population Variance)

표본 분산(Sample Variance)

왜 표본 분산은 n-1로 나눌까? → 불편추정량(unbiased estimator)개념 때문입니다.

불편추정량

구분n으로 나누면n-1로 나누면
표본분산은 실제보다작게 나옴 (편향됨)적절하게 나옴
1000번 반복평균내면실제값보다계속작음실제값에수렴함
전문용어편향추정량불편추정량

자세한 이유 : 자유도(Degrees of Freedom)

– 모집단의 평균(μ)을 알 때는 편차 제곱합을 N으로 나눠도 됨

– 표본의평균(𝑥)은 표본데이터로부터 계산된 값이므로, 이미 정보를 하나 사용함

– 따라서 남은 독립적인 정보의 개수는 n-1개

– 예시로 이해하기

n=3인 표본: 2, 4, 6

𝑥=4

편차: -2, 0, 2

편차의합 = 0 (항상성립)

→ 세개의 편차 중 두개만 자유롭게 정할 수 있음(세번째는 자동결정)

자유도

비유설명
의자4명이 앉는데 마지막 사람은 선택권 없음 → 자유도 3
예산용돈 3만원으로 3개 물건 살 때, 2개는 마음대로, 마지막은 남은 돈으로 결정
줄다리기5명이 줄을 당기는데, 4명의 힘을 알면 5번째는 자동으로 결정됨
숫자 맞추기평균을 알면 마지막 숫자는 계산으로 나옴

요약

구분모집단표본
기호μ (평균), σ² (분산)𝑥ˉ( 평균), s² (분산)
분모Nn-1
목적기술(Description)추론(Inference)
편향없음불편추정량(unbiased)
데이터전수조사 가능할 때항상(모집단을모를때)

질적 변수(Qualitative Variable)의 자료정리

– 질적변수는 범주형 변수(Categorical Variable)라고도 하며, 수치로 측정되지 않고 특성이나 범주로 구분됩니다.

(예: 성별, 혈액형, 선호도, 지역)

혈액형도수(f)상대도수(%)
A4040%
B2525%
O2020%
AB1515%
합계100100%

질적 변수 문제 예

문제:어느반학생50명의혈액형이다음과같다.

A, B, O, A, AB, O, O, B, A, A, O, B, AB, A, O, B, A, O, AB, A, B, O, A, B, O, A, AB, B, O, A, A, B, O, AB, A, B, O, A, A, B, O, A, B, AB, O, A, B, O, A, A

혈액형도수(f)계산과정
A18A가나온횟수세기
B10B가나온횟수세기
O14O가나온횟수세기
AB8AB가나온횟수세기
합계5018+10+14+8=50 확인

문제풀이

혈액형도수상대도수(%)계산식
A1836%18/50×100 = 36
B1020%10/50×100 = 20
O1428%14/50×100 = 28
AB816%8/50×100 = 16
합계50100%확인완료

연속 변수(Continuous Variable)의 자료정리(수치에 의한)

– 연속변수는 측정 가능한 수치값을 가지며, 소수점 아래로도 세분화 가능합니다.

(예: 키, 몸무게, 온도, 소득)

– 연속변수의 요약은 대표값(중심경향치)과 산포도(변산성)로 나눕니다.

연속변수 – 평균, 분산, 표준편차

– 문제 : 다음은 10명의 학생시험 점수이다.

85, 90, 78, 92, 88, 76, 95, 89, 84, 91

평균, 분산, 표준편차를 구하시오.

– 풀이과정 :

1단계 : 자료의 종류 확인

• 시험점수는 연속변수(비율척도)

2단계: 평균계산

𝑥ˉ = σ𝑥𝑖𝑛=85+90+78+92+88+76+95+89+84+91 / 10

합계계산 : 85+90=175, +78=253, +92=345, +88=433, +76=509, +95=604, +89=693, +84=777, +91=868

𝑥ˉ = 868 / 10=86.8

편차

i점수(x)편차(x -평균)편차제곱s2
18585-86.8 = -1.83.24
29090-86.8 = 3.210.24
37878-86.8 = -8.877.44
49292-86.8 = 5.227.04
58888-86.8 = 1.21.44
67676-86.8 = -10.8116.64
79595-86.8 = 8.267.24
88989-86.8 = 2.24.84
98484-86.8 = -2.87.84
109191-86.8 = 4.217.64
합계8680 (반올림오차무시)333.6

분산 계산 (표본분산, n-1 사용)

표준편차 계산

해석

• 평균점수는 86.8점

• 표준편차 약6.09점 → 대부분의 학생 점수는 86.8 ±6.09 = 약 80.7 ~ 92.9점 사이에 분포

연속변수 – 중앙값, 사분위수, IQR

– 데이터를 먼저 작은 숫자부터 큰 숫자로 정렬하는 것이 첫번째 단계입니다.

– 데이터 개수가 홀수일 때 : 정확히 가운데 있는 숫자가 중앙값입니다.

예: 3, 1, 5, 8, 2

정렬: 1, 2, 3, 5, 8

중앙값: 3

– 데이터 개수가 짝수일때 : 가운데 있는 두 숫자의 평균이 중앙값입니다.

예: 4, 10, 1, 7

정렬: 1, 4, 7, 10

중앙값: 5.5

사분위

– Box Plot

– 상자 수염 그림의 주요 구성요소는 다음과 같습니다:

• 상자(Box) : 데이터의 중앙 50%가 포함되는 구간입니다.

• 1사분위수( ) : 하위25% 지점.

• 2사분위수( ) : 중앙값(Median).

• 3사분위수( ) : 상위25% 지점.

• IQR(Interquartile Range) : 사분위수 범위( )로 상자의 길이를 나타냅니다.

• 수염(Whiskers) : 상자밖으로 뻗은선 으로, 통상적으로 다음 범위를 나타냅니다.

• 최솟값:

• 최댓값:

• 이상값(Outliers) : 수염의 범위를 벗어나는 개별 데이터 포인트들입니다.

중앙값, 사분위수, IQR 실전테스트문제

문제 1

중앙값(Median) 구하기

다음은 어느 학급 학생 10명의 일주일 독서시간(단위: 시간)을 조사한 데이터입니다. 이 데이터의 중앙값은 얼마인가요?

데이터 : 2, 5, 8, 3, 4, 10, 7, 6, 4, 9

① 4.5

② 5.0

③ 5.5

④ 6.0

⑤ 6.5

[해설] 데이터를 크기순으로 정렬합니다 : 2, 3, 4, 4, 5, 6, 7, 8, 9, 10 데이터 개수가 10개(짝수)이므로, 가운데 위치한 두값(5번째와 6번째)의 평균을 구합니다. 5번째값은 5, 6번째값은 6입니다.

계산: {5 + 6}{2} = 5.5

정답: ③

문제 2

사분위수(Quartiles) 이해하기

데이터집합을 작은 값부터 크기순으로 나열했을때, 전체의 75% 지점에 위치하여 상위 25%를 구분하는 값의 명칭은 무엇인가요?

① 제1사분위수

② 제2사분위수

③ 제3사분위수

④ 사분범위

⑤ 최댓값

정답: ③

문제 3

사분범위(IQR)와 이상치 계산 어느 편의점의 일일 방문객수를 조사하여 다음과 같은 결과를 얻었습니다.

이 데이터의 사분범위(IQR)와 이상치(Outlier) 판단기준으로 옳은 것은?

조사결과: Q_1 = 120, 중앙값= 150, Q_3 = 180

① IQR = 30, 210명 이상은 이상치이다.

② IQR = 60, 240명 이상은 이상치이다.

③ IQR = 60, 270명 이상은 이상치이다.

④ IQR = 90, 315명 이상은 이상치이다.

⑤ IQR = 150, 400명이상은 이상치이다.

[해설] IQR 계산: Q_3-Q_1 = 180-120 = 60$

이상치경계(상한) 계산 : Q_3 + (1.5\times IQR) 계산: 180 + (1.5 \times 60) = 180 + 90 = 270

따라서 방문객이 270명을 초과하면 이상치로 간주합니다.

정답: ③

요약

개념한줄정의
평균모든 값을 더해서 개수로 나눈것
가중평균각 값에 중요도(가중치)를 곱해서 평균낸 것
분산평균으로부터 데이터가 얼마나 퍼져 있는지(제곱단위)
표준편차분산의 제곱근(원래 데이터 단위)

용어정리

한글영어기호
평균Meanμ 또는𝑥ˉ
가중평균Weighted Mean𝑥ˉ𝑤
분산Varianceσ² 또는s²
표준편차Standard Deviationσ 또는s
모집단PopulationN, μ, σ²
표본Samplen,𝑥ˉ,s²
편차Deviationxi−ˉ
편차제곱합Sum of Squares (SS)Σ(xi−ˉ2
자유도Degrees of Freedom (df)n-1

요약

단계확인사항
변수가 질적인가 연속인가
연속변수라면 정규분포 가정하는가? (평균±표준편차vs 중앙값±IQR)
이상치가 있는가? (상자그림또는Z-score 확인)
표본인가 모집단인가? (분산계산시n-1 vs n)
결과 해석시 단위와 실제 의미를 함께 기술할 것