1) 기술통계학
2) 추론통계학
기술통계학(descriptive statistics)
– 수집된 자료를 정리, 요약하여 수치, 표, 그래프로 자료의 특징을 파악하는 연구분야
– 자료가 가지고 있는 원래의 특성만을 표현
– 질적 변수 : 표, 그래프에 의한 자료정리
– 연속변수 : 수치에 의한 자료정리
| 구분 | 모집단(Population) | 표본(Sample) |
| 정의 | 연구대상이 되는 모든 개체의 집합 | 모집단에서 추출한 일부 개체의 집합 |
| 크기 | N (고정된값) | n (표본크기) |
| 예 | “2024년 한국 성인 남성 전체의 키” | “서울시민 1000명의 키” |
| 목적 | 모수(parameter) 추정 | 통계량(statistic) 계산으로 모수 추론 |
모집단 분산(Population Variance)
표본 분산(Sample Variance)
왜 표본 분산은 n-1로 나눌까? → 불편추정량(unbiased estimator)개념 때문입니다.
| 구분 | n으로 나누면 | n-1로 나누면 |
| 표본분산은 실제보다 | 작게 나옴 (편향됨) | 적절하게 나옴 |
| 1000번 반복평균내면 | 실제값보다계속작음 | 실제값에수렴함 |
| 전문용어 | 편향추정량 | 불편추정량 |
– 모집단의 평균(μ)을 알 때는 편차 제곱합을 N으로 나눠도 됨
– 표본의평균(𝑥)은 표본데이터로부터 계산된 값이므로, 이미 정보를 하나 사용함
– 따라서 남은 독립적인 정보의 개수는 n-1개
– 예시로 이해하기
n=3인 표본: 2, 4, 6
𝑥=4
편차: -2, 0, 2
편차의합 = 0 (항상성립)
→ 세개의 편차 중 두개만 자유롭게 정할 수 있음(세번째는 자동결정)
| 비유 | 설명 |
| 의자 | 4명이 앉는데 마지막 사람은 선택권 없음 → 자유도 3 |
| 예산 | 용돈 3만원으로 3개 물건 살 때, 2개는 마음대로, 마지막은 남은 돈으로 결정 |
| 줄다리기 | 5명이 줄을 당기는데, 4명의 힘을 알면 5번째는 자동으로 결정됨 |
| 숫자 맞추기 | 평균을 알면 마지막 숫자는 계산으로 나옴 |
| 구분 | 모집단 | 표본 |
| 기호 | μ (평균), σ² (분산) | 𝑥ˉ( 평균), s² (분산) |
| 분모 | N | n-1 |
| 목적 | 기술(Description) | 추론(Inference) |
| 편향 | 없음 | 불편추정량(unbiased) |
| 데이터 | 전수조사 가능할 때 | 항상(모집단을모를때) |
– 질적변수는 범주형 변수(Categorical Variable)라고도 하며, 수치로 측정되지 않고 특성이나 범주로 구분됩니다.
(예: 성별, 혈액형, 선호도, 지역)
| 혈액형 | 도수(f) | 상대도수(%) |
| A | 40 | 40% |
| B | 25 | 25% |
| O | 20 | 20% |
| AB | 15 | 15% |
| 합계 | 100 | 100% |
문제:어느반학생50명의혈액형이다음과같다.
A, B, O, A, AB, O, O, B, A, A, O, B, AB, A, O, B, A, O, AB, A, B, O, A, B, O, A, AB, B, O, A, A, B, O, AB, A, B, O, A, A, B, O, A, B, AB, O, A, B, O, A, A
| 혈액형 | 도수(f) | 계산과정 |
| A | 18 | A가나온횟수세기 |
| B | 10 | B가나온횟수세기 |
| O | 14 | O가나온횟수세기 |
| AB | 8 | AB가나온횟수세기 |
| 합계 | 50 | 18+10+14+8=50 확인 |
문제풀이
| 혈액형 | 도수 | 상대도수(%) | 계산식 |
| A | 18 | 36% | 18/50×100 = 36 |
| B | 10 | 20% | 10/50×100 = 20 |
| O | 14 | 28% | 14/50×100 = 28 |
| AB | 8 | 16% | 8/50×100 = 16 |
| 합계 | 50 | 100% | 확인완료 |
– 연속변수는 측정 가능한 수치값을 가지며, 소수점 아래로도 세분화 가능합니다.
(예: 키, 몸무게, 온도, 소득)
– 연속변수의 요약은 대표값(중심경향치)과 산포도(변산성)로 나눕니다.
– 문제 : 다음은 10명의 학생시험 점수이다.
85, 90, 78, 92, 88, 76, 95, 89, 84, 91
평균, 분산, 표준편차를 구하시오.
– 풀이과정 :
1단계 : 자료의 종류 확인
• 시험점수는 연속변수(비율척도)
2단계: 평균계산
𝑥ˉ = σ𝑥𝑖𝑛=85+90+78+92+88+76+95+89+84+91 / 10
합계계산 : 85+90=175, +78=253, +92=345, +88=433, +76=509, +95=604, +89=693, +84=777, +91=868
𝑥ˉ = 868 / 10=86.8
| i | 점수(x) | 편차(x -평균) | 편차제곱s2 |
| 1 | 85 | 85-86.8 = -1.8 | 3.24 |
| 2 | 90 | 90-86.8 = 3.2 | 10.24 |
| 3 | 78 | 78-86.8 = -8.8 | 77.44 |
| 4 | 92 | 92-86.8 = 5.2 | 27.04 |
| 5 | 88 | 88-86.8 = 1.2 | 1.44 |
| 6 | 76 | 76-86.8 = -10.8 | 116.64 |
| 7 | 95 | 95-86.8 = 8.2 | 67.24 |
| 8 | 89 | 89-86.8 = 2.2 | 4.84 |
| 9 | 84 | 84-86.8 = -2.8 | 7.84 |
| 10 | 91 | 91-86.8 = 4.2 | 17.64 |
| 합계 | 868 | 0 (반올림오차무시) | 333.6 |
• 평균점수는 86.8점
• 표준편차 약6.09점 → 대부분의 학생 점수는 86.8 ±6.09 = 약 80.7 ~ 92.9점 사이에 분포
– 데이터를 먼저 작은 숫자부터 큰 숫자로 정렬하는 것이 첫번째 단계입니다.
– 데이터 개수가 홀수일 때 : 정확히 가운데 있는 숫자가 중앙값입니다.
예: 3, 1, 5, 8, 2
정렬: 1, 2, 3, 5, 8
중앙값: 3
– 데이터 개수가 짝수일때 : 가운데 있는 두 숫자의 평균이 중앙값입니다.
예: 4, 10, 1, 7
정렬: 1, 4, 7, 10
중앙값: 5.5
– Box Plot
– 상자 수염 그림의 주요 구성요소는 다음과 같습니다:
• 상자(Box) : 데이터의 중앙 50%가 포함되는 구간입니다.
• 1사분위수( ) : 하위25% 지점.
• 2사분위수( ) : 중앙값(Median).
• 3사분위수( ) : 상위25% 지점.
• IQR(Interquartile Range) : 사분위수 범위( )로 상자의 길이를 나타냅니다.
• 수염(Whiskers) : 상자밖으로 뻗은선 으로, 통상적으로 다음 범위를 나타냅니다.
• 최솟값:
• 최댓값:
• 이상값(Outliers) : 수염의 범위를 벗어나는 개별 데이터 포인트들입니다.
문제 1
중앙값(Median) 구하기
다음은 어느 학급 학생 10명의 일주일 독서시간(단위: 시간)을 조사한 데이터입니다. 이 데이터의 중앙값은 얼마인가요?
데이터 : 2, 5, 8, 3, 4, 10, 7, 6, 4, 9
① 4.5
② 5.0
③ 5.5
④ 6.0
⑤ 6.5
[해설] 데이터를 크기순으로 정렬합니다 : 2, 3, 4, 4, 5, 6, 7, 8, 9, 10 데이터 개수가 10개(짝수)이므로, 가운데 위치한 두값(5번째와 6번째)의 평균을 구합니다. 5번째값은 5, 6번째값은 6입니다.
계산: {5 + 6}{2} = 5.5
정답: ③
문제 2
사분위수(Quartiles) 이해하기
데이터집합을 작은 값부터 크기순으로 나열했을때, 전체의 75% 지점에 위치하여 상위 25%를 구분하는 값의 명칭은 무엇인가요?
① 제1사분위수
② 제2사분위수
③ 제3사분위수
④ 사분범위
⑤ 최댓값
정답: ③
문제 3
사분범위(IQR)와 이상치 계산 어느 편의점의 일일 방문객수를 조사하여 다음과 같은 결과를 얻었습니다.
이 데이터의 사분범위(IQR)와 이상치(Outlier) 판단기준으로 옳은 것은?
조사결과: Q_1 = 120, 중앙값= 150, Q_3 = 180
① IQR = 30, 210명 이상은 이상치이다.
② IQR = 60, 240명 이상은 이상치이다.
③ IQR = 60, 270명 이상은 이상치이다.
④ IQR = 90, 315명 이상은 이상치이다.
⑤ IQR = 150, 400명이상은 이상치이다.
[해설] IQR 계산: Q_3-Q_1 = 180-120 = 60$
이상치경계(상한) 계산 : Q_3 + (1.5\times IQR) 계산: 180 + (1.5 \times 60) = 180 + 90 = 270
따라서 방문객이 270명을 초과하면 이상치로 간주합니다.
정답: ③
| 개념 | 한줄정의 |
| 평균 | 모든 값을 더해서 개수로 나눈것 |
| 가중평균 | 각 값에 중요도(가중치)를 곱해서 평균낸 것 |
| 분산 | 평균으로부터 데이터가 얼마나 퍼져 있는지(제곱단위) |
| 표준편차 | 분산의 제곱근(원래 데이터 단위) |
| 한글 | 영어 | 기호 |
| 평균 | Mean | μ 또는𝑥ˉ |
| 가중평균 | Weighted Mean | 𝑥ˉ𝑤 |
| 분산 | Variance | σ² 또는s² |
| 표준편차 | Standard Deviation | σ 또는s |
| 모집단 | Population | N, μ, σ² |
| 표본 | Sample | n,𝑥ˉ,s² |
| 편차 | Deviation | xi−ˉ |
| 편차제곱합 | Sum of Squares (SS) | Σ(xi−ˉ2 |
| 자유도 | Degrees of Freedom (df) | n-1 |
| 단계 | 확인사항 |
| ① | 변수가 질적인가 연속인가 |
| ② | 연속변수라면 정규분포 가정하는가? (평균±표준편차vs 중앙값±IQR) |
| ③ | 이상치가 있는가? (상자그림또는Z-score 확인) |
| ④ | 표본인가 모집단인가? (분산계산시n-1 vs n) |
| ⑤ | 결과 해석시 단위와 실제 의미를 함께 기술할 것 |
(간호연구) 문제 모음 03 확률 표본 추출방법 방법어떻게할까 전국중학생명단을구해서2,000명을컴퓨터로무작위선택 중1(30%), 중2(35%), 중3(35%) 비율대로각학년에서무작위추출 명단에서1,000번째간격으로2,000명선택(1번, 1001번, 2001번…) 전국에서50개학교를무작위로뽑아그학교학생2,000명모두조사 비확률 표본…
(성인간호학) 콩팥 요로계 건강문제와 간호 – 배뇨장애 요정체=요폐(Urinary retention) - 신장에서 소변이 형성되지만 방광에서 소변을…
간호사 : 저기 대기 중인 사람들 보이세요? https://nurseyong.com/%EC%9C%A0%EB%A8%B8-%EC%9E%90-%ED%99%98%EC%9E%90%EB%B6%84-%EC%95%84%ED%94%84%EB%A9%B4-%EB%A7%90%ED%95%98%EC%84%B8%EC%9A%94/