41회 3과목 30문제
21~22. 결측값 처리


결측값
- 존재하지 않는 값: 측정되지 않았거나, 응답하지 않았거나, 기록되지 않은 데이터
- NULL, NA(Not Available), NaN(Not a Number), 빈 칸 등으로 표시
- NA (Not Available): 값이 없거나 사용 불가능한 상태 (일반적인 결측값)
- NaN (Not a Number): 수학적으로 정의되지 않은 연산 결과 (예: 0/0, ∞-∞)
- 통계적 편향 발생 가능: 결측값이 무작위가 아닐 경우 분석 결과 왜곡
- 분석 속도 및 정확도 저하: 결측값 처리 여부가 분석 성능에 영향
| 완전분석법 (Complete Case Analysis) |
결측값이 존재하는 행을 삭제 |
| 평균 대치법 (비조건부 평균 대치) |
단순 평균으로 대치 |
| 회귀 대치법 (조건부 평균 대치) |
회귀 분석의 결과로 대치 |
| 단순 확률 대치법 | 확률적으로 선택하여 대치 • Nearest Neighbor: 바로 가까운 응답으로 대체 • Hot-Deck: 현재 데이터셋에서 비슷한 성향으로 대체 • Cold-Deck: 유사한 외부 출처에서 비슷한 성향으로 대체 |
| 다중 대치법 | m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법 대치 → 분석 → 결합 |
23. 측도 용어 정리

1. 평균 = (모든 관측값의 합) / (관측값 개수)
2. 표준편차 = √분산
- 분산 = 각 값과 평균의 차이를 제곱한 값들의 평균
3. 중앙값
- 중앙값(Median)은 자료를 크기 순서대로 나열한 것의 가운데 값
- 평균과 달리 이상값에 영향을 적게 받음
4. 평균절대편차
- 각 측정값과 평균 사이의 거리의 평균
24. 자료의 척도 구분

1. 질적 척도
① 명목 척도 - 어느 집단에 속하는지 나타내는 자료(대학, 성별)
② 서열 척도(순서 척도) - 서열이나 순서가 존재하는 척도(학년, 순위)
2. 양적 척도
① 등간 척도 - 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈만 가능(온도, 지수)
② 비율 척도 - 절대적 기준 0이 존재하고 사칙연산이 가능한 자료(무게, 나이)
25. 모수 검정, 비모수 검정

1. '모수'란?
모집단의 측도(평균, 분산 등)을 의미함.
2. 모수적 검정: 정규성을 갖는 모수적 특징(표본 통계량)을 이용한 검정 방법
• 데이터가 정규 분포를 따른다고 가정
• t-검정, ANOVA, 회귀분석
• 표본 크기가 크고 데이터가 연속형일 때 적합
3. 비모수적 검정
• 데이터 분포에 대한 가정 X
• 부호 검정, 윌콕슨 부호순위 검정, 크루스칼-왈리스 검정, run 검정, 카이제곱 검정, 만-휘트니 U검정, 프리먼드 검정
• 표본 크기가 작거나, 순위/명목형 데이터일 때 적합
26. 귀무가설과 대립가설

복원 사이트 문제 오류
정답은 "귀무가설: 상관계수는 0이다. 대립가설: 상관계수는 0이 아니다." 입니다.
1. 귀무가설: 일반적으로 생각하는 가설 (A와 B가 차이가 없다. = 상관계수가 0이다.)
2. 대립가설: 귀무가설을 기각하는 가설, 증명하고자 하는 가설
3. 상관계수
- 상관계수 = 1 : 정비례 관계
- 상관계수 = 0 : 상관없음
- 상관계수 = - 1: 반비례 관계
27. Summary 함수 결과의 해석

2번의 75%는 3rd Qu.~Max. 까지의 표본을 의미하는 것 같습니다.
1. extra 변수
- Mean, Median 등 존재 → 수치형 변수
- 25% 지점: -0.025, 75% 지점: 3.400
- Mean>Median → 왜도>0 평균이 크면 왜도가 크다.
2. group 변수
- 집단의 빈도 수 → 범주형 변수
3. ID 변수
- 각 빈도 수 → 범주형 변수
- (Other): 8 의 의미 = 나머지 4명의 환자로 추정
28. Summary 함수 결과의 해석

head()는 첫 6개 행만 보여주는 함수.
5개 각 범주 당 7그루 이므로 5 * 7 = 35개의 관측값이 있다.
1. Tree 변수
- 범주형 변수
- 단순 이름짓기: 명목 척도
- 한 범주 당 7 그루
2. age 변수
- Mean, Median 존재 → 수치형 변수
- Mean < Median → 왜도 < 0
3. cirumference 변수
- Mean, Median 존재 → 수치형 변수
- Mean > Median → 왜도 > 0
29. 선형회귀분석의 가정

선형회귀분석의 가정
1. 선형성: 종속변수와 독립변수는 선형관계
2. 등분산성: 잔차의 분산이 고르게 분포
3. 정상성(정규성): 잔차가 정규분포의 특성을 지님
4. 독립성: 오차가 서로 독립이며, 독립변수들간 상관관계가 없음
선형성과 나머지 가정의 차이점
| 선형성 | Y와 X의 관계 | 모형 구조 |
| 등분산성, 정상성, 독립성 | 오차항 | 오차항 가정 |
29번은 모형이 아닌 오차항을 묻는 문제이기 때문에 정답은 등분산성, 정상성, 독립성.
30. 의사결정나무 알고리즘

분할방법
| 의사결정나무 | 범주형(분류) 종속변수 | 연속형(회귀) 종속변수 |
| CHAID 알고리즘 | 카이제곱 통계량 | ANOVA, F-통계량 |
| CART 알고리즘 | 지니지수 | 분산 감소량 |
| C4.5 / C5.0 알고리즘 | 엔트로피 지수 |
과적합 방지 방안
1. 정지규칙: 분리를 더 이상 수행하지 않고 나무의 성장을 멈춤
2. 가지치기: 일부 가지를 제거하여 과대적합을 방지
31. 회귀분석의 영향력 진단

회귀분석의 영향력 진단
적합된 회귀모형의 안전성(stability)을 평가하는 과정
1. Leverage H
- 레버리지 : 𝐻=𝑋(𝑋^𝑇 𝑋)^(−1) 𝑋^𝑇(Hat Matrix)의 i번째 대각원소로 관측치가 다른 관측치 집단으로부터 떨어진 정도
- 2 x (p+1)/n보다 크면 영향치이거나 이상치로 판단
2. Cook's Distance
- Full Model에서 i번째 관측치를 포함하여 계산한 적합치와 i번째 관측치를 포함하지 않고 계산한 적합치 사이의 거리
- 기준값인 1보다 클 경우에 영향치로 판단
3. DFBETAS
- DFBETAS의 절대값이 커지면 i번째 관측치가 영향치 혹은 이상치
- 기준값은 2나 2/√n(표본을 고려한 경우) 사용
- DFBETAS값이 기준값보다 클 경우 영향치로 판단
4. DFFITS
- i번째 관측치 제외시 종속변수 예측치의 변화정도를 측정한 값
- DFFITS의 절대값이 기준값인 2x(p+1)/n보다 클수록 영향치로 판단
32. 계층적 군집분석

복원 사이트 문제 오류: 답 없음
1. 거리 측정 방법
① 최단 연결법(단일 연결법): 군집간 가장 가까운 데이터
② 최장 연결법(완전 연결법): 군집간 가장 먼 데이터
③ 평균 연결법: 군집의 모든 데이터들의 평균
④ 중심 연결법: 두 군집의 중심
⑤ 와드 연결법: 두 군집의 편차 제곱합이 최소가 되는 위치
2. 덴드로그램
- 계층적 군집화를 시각적으로 나타내는 Tree 모양의 그래프
33. 시계열 분석
