자격증 따기/ADSP

[ADsP 공부] [41회 3과목-데이터 분석 개념]

맹꽁이+ 2026. 2. 5. 18:17

41회 3과목 30문제


21~22. 결측값 처리

결측값
   - 존재하지 않는 값: 측정되지 않았거나, 응답하지 않았거나, 기록되지 않은 데이터
   - NULL, NA(Not Available), NaN(Not a Number), 빈 칸 등으로 표시
   - NA (Not Available): 값이 없거나 사용 불가능한 상태 (일반적인 결측값)
   - NaN (Not a Number): 수학적으로 정의되지 않은 연산 결과 (예: 0/0, ∞-∞)
   - 통계적 편향 발생 가능: 결측값이 무작위가 아닐 경우 분석 결과 왜곡
   - 분석 속도 및 정확도 저하: 결측값 처리 여부가 분석 성능에 영향
완전분석법
(Complete Case Analysis)
결측값이 존재하는 행을 삭제
평균 대치법
(비조건부 평균 대치)
단순 평균으로 대치
회귀 대치법
(조건부 평균 대치)
회귀 분석의 결과로 대치
단순 확률 대치법 확률적으로 선택하여 대치
  • Nearest Neighbor: 바로 가까운 응답으로 대체
  • Hot-Deck: 현재 데이터셋에서 비슷한 성향으로 대체
  • Cold-Deck: 유사한 외부 출처에서 비슷한 성향으로 대체
다중 대치법 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법
대치 → 분석 → 결합

 

 

23. 측도 용어 정리

1. 평균 = (모든 관측값의 합) / (관측값 개수)
2. 표준편차 = √분산
     - 분산 = 각 값과 평균의 차이를 제곱한 값들의 평균
3. 중앙값
   - 중앙값(Median)은 자료를 크기 순서대로 나열한 것의 가운데 값
   - 평균과 달리 이상값에 영향을 적게 받음
4. 평균절대편차
   - 각 측정값과 평균 사이의 거리의 평균

 

 

24. 자료의 척도 구분

1. 질적 척도
   ① 명목 척도 - 어느 집단에 속하는지 나타내는 자료(대학, 성별)
   ② 서열 척도(순서 척도) - 서열이나 순서가 존재하는 척도(학년, 순위)
2. 양적 척도
   ① 등간 척도 - 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈만 가능(온도, 지수)
   ② 비율 척도 - 절대적 기준 0이 존재하고 사칙연산이 가능한 자료(무게, 나이)

 

 

25. 모수 검정, 비모수 검정

1. '모수'란?
   모집단의 측도(평균, 분산 등)을 의미함.

2. 모수적 검정: 정규성을 갖는 모수적 특징(표본 통계량)을 이용한 검정 방법
   • 데이터가 정규 분포를 따른다고 가정
   • t-검정, ANOVA, 회귀분석
   • 표본 크기가 크고 데이터가 연속형일 때 적합

3. 비모수적 검정
   • 데이터 분포에 대한 가정 X
   • 부호 검정, 윌콕슨 부호순위 검정, 크루스칼-왈리스 검정, run 검정, 카이제곱 검정, 만-휘트니 U검정, 프리먼드 검정
   • 표본 크기가 작거나, 순위/명목형 데이터일 때 적합

 

 

26. 귀무가설과 대립가설

복원 사이트 문제 오류
정답은 "귀무가설: 상관계수는 0이다. 대립가설: 상관계수는 0이 아니다." 입니다.

1. 귀무가설: 일반적으로 생각하는 가설 (A와 B가 차이가 없다. = 상관계수가 0이다.)
2. 대립가설: 귀무가설을 기각하는 가설, 증명하고자 하는 가설
3. 상관계수
   - 상관계수 = 1 : 정비례 관계
   - 상관계수 = 0 : 상관없음
   - 상관계수 = - 1: 반비례 관계

 

 

27. Summary 함수 결과의 해석

2번의 75%는 3rd Qu.~Max. 까지의 표본을 의미하는 것 같습니다.

1. extra 변수

   - Mean, Median 등 존재 → 수치형 변수
   - 25% 지점: -0.025, 75% 지점: 3.400
   - Mean>Median → 왜도>0 평균이 크면 왜도가 크다.

2. group 변수
   - 집단의 빈도 수 → 범주형 변수

3. ID 변수
   - 각 빈도 수 → 범주형 변수
   - (Other): 8 의 의미 = 나머지 4명의 환자로 추정

 

 

28. Summary 함수 결과의 해석

head()는 첫 6개 행만 보여주는 함수.
5개 각 범주 당 7그루 이므로 5 * 7 = 35개의 관측값이 있다.

1. Tree 변수
   - 범주형 변수
   - 단순 이름짓기: 명목 척도
   - 한 범주 당 7 그루

2. age 변수
   - Mean, Median 존재 → 수치형 변수
   - Mean < Median → 왜도 < 0

3. cirumference 변수
   - Mean, Median 존재 → 수치형 변수
   - Mean > Median → 왜도 > 0

 

 

29. 선형회귀분석의 가정

선형회귀분석의 가정
1. 선형성: 종속변수와 독립변수는 선형관계
2. 등분산성: 잔차의 분산이 고르게 분포
3. 정상성(정규성): 잔차가 정규분포의 특성을 지님
4. 독립성: 오차가 서로 독립이며, 독립변수들간 상관관계가 없음

 

선형성과 나머지 가정의 차이점

선형성 Y와 X의 관계 모형 구조
등분산성, 정상성, 독립성 오차항 오차항 가정

 

29번은 모형이 아닌 오차항을 묻는 문제이기 때문에 정답은 등분산성, 정상성, 독립성.

 

 

30. 의사결정나무 알고리즘

 

분할방법

의사결정나무 범주형(분류) 종속변수 연속형(회귀) 종속변수
CHAID 알고리즘 카이제곱 통계량 ANOVA, F-통계량
CART 알고리즘 지니지수 분산 감소량
C4.5 / C5.0 알고리즘 엔트로피 지수  
과적합 방지 방안
   1. 정지규칙: 분리를 더 이상 수행하지 않고 나무의 성장을 멈춤
   2. 가지치기: 일부 가지를 제거하여 과대적합을 방지

 

 

31. 회귀분석의 영향력 진단

회귀분석의 영향력 진단
   적합된 회귀모형의 안전성(stability)을 평가하는 과정

1. Leverage H
   - 레버리지 : 𝐻=𝑋(𝑋^𝑇 𝑋)^(−1) 𝑋^𝑇(Hat Matrix)의 i번째 대각원소로 관측치가 다른 관측치 집단으로부터 떨어진 정도
   - 2 x (p+1)/n보다 크면 영향치이거나 이상치로 판단

2. Cook's Distance
   - Full Model에서 i번째 관측치를 포함하여 계산한 적합치와 i번째 관측치를 포함하지 않고 계산한 적합치 사이의 거리
   - 기준값인 1보다 클 경우에 영향치로 판단

3. DFBETAS
   - DFBETAS의 절대값이 커지면 i번째 관측치가 영향치 혹은 이상치
   - 기준값은 2나 2/√n(표본을 고려한 경우) 사용
   - DFBETAS값이 기준값보다 클 경우 영향치로 판단

4. DFFITS
   - i번째 관측치 제외시 종속변수 예측치의 변화정도를 측정한 값
   - DFFITS의 절대값이 기준값인 2x(p+1)/n보다 클수록 영향치로 판단

 

 

32. 계층적 군집분석

복원 사이트 문제 오류: 답 없음

1. 거리 측정 방법

   ① 최단 연결법(단일 연결법): 군집간 가장 가까운 데이터
   ② 최장 연결법(완전 연결법): 군집간 가장 먼 데이터
   ③ 평균 연결법: 군집의 모든 데이터들의 평균
   ④ 중심 연결법: 두 군집의 중심
   ⑤ 와드 연결법: 두 군집의 편차 제곱합이 최소가 되는 위치

2. 덴드로그램
   - 계층적 군집화를 시각적으로 나타내는 Tree 모양의 그래프

 

 

33. 시계열 분석