📌 1과목 (데이터 이해)
# DIKW
⓵ 데이터 : 가공되지 않은 있는 그대로의 사실
⓶ 정보 : 여러 데이터 간 상호 관계 속에서 얻은 의미 있는 자료
⓷ 지식 : 여러 정보의 종합적인 결과로 개인의 결정에 기준이 되는 가치 있는 자료
⓸ 지혜 : 개인에게 가장 깊이 내재화된 것으로, 타인과 쉽게 공유하기 어렵다.
# 데이터 마트 / 데이터 웨어하우스
- 데이터 웨어하우스는 기업의 전체 데이터를 통합하여 저장하는 중앙 저장소이다.
- 데이터 마트는 데이터 웨어하우스에서 특정 부서나 기능에 필요한 데이터만을 추출하여 구성한 소규모 데이터베이스이다.
- 데이터 마트는 특정 목적을 달성하기 위해 개인 또는 조직에게 전달되기 위한 최종 데이터 형태이다.
# 동의에서 책임으로 (예시)
- SNS 사용자의 게시글은 누구나 접근 가능하며 수집 가능하다는 특징이 있어 악용되는 사례가 빈번하다.
- 구글은 사용자의 인터넷 기록 및 검색을 분석하여 인터넷 종료 이후 사용자의 행동을 87%의 정확도로 예측할 수 있다.
# 빅데이터 활용 기본 테크닉과 사례
⓵ 유형분석 : 기업의 경영 상태, 채권 관련 재무 상태 등으로 기업의 파산(Yes)/회생(No) 여부를 분류
⓶ 회귀분석 : SNS 이용 시간 대비 온라인상에 흩어져 있는 개인정보 데이터 양의 관계
⓷ 연관분석 : A를 시청한 고객이 B를 시청할 가능성을 파악하여 추천 여부를 결정
# 전략도출 가치기반 분석
: 사회 변화 및 고객의 니즈 변화를 빠르게 파악하고 그에 대한 새로운 기회를 포착할 수 있다.
📌 2과목 (데이터 분석 기획)
# 데이터 거버넌스의 3가지 구성요소
⓵ 원칙
⓶ 조직
⓷ 프로세스
# 데이터 거버넌스의 체계의 순서
데이터 표준화 → 데이터 관리 체계 → 데이터 저장소 관리 → 표준화 활동
# 단순선형 회귀분석의 가정사항
⓵ 선형성
⓶ 독립성
⓷ 등분산성
⓸ 정규성
# 과적합의 예시
- 인공신경망을 활용한 분류분석에 많은 수의 은닉층과 은닉노드를 사용
- 5개의 변수를 갖는 데이터로 구축한 의사결정나무의 깊이가 10층 이상이다.
- 5개의 변수를 갖는 데이터에서 각 변수에 대한 2차항과 3차항을 만들어 총 15개의 독립변수를 사용하여 설명력을 높혔다.
# 기업의 데이터 분석 수준 진단을 위한 분석 준비도의 항목
⓵ 분석 문화
⓶ 분석 데이터
⓷ 분석 인프라
⓸ 분석 기법
⓹ 분석 업무
⓺ 분석 조직 및 인력
# 분석 마스터 플랜
- 탐색한 문제에 대한 해결 방안들을 총체적인 관점에서 적용 우선순위를 설정하기 위함이다.
- 우선순위 결정을 위해서는 전략적 중요도, ROI 관점 등의 요소를 고려한다.
- 우선순위를 고려하기 위해 실행 용이성을 고려한다.
- 분석 마스터플랜은 분석 과제 도출 , 우선순위 평가, 이행계획 수립 순서로 수행된다.
📌 3과목 (데이터 분석)
# 자기조직화지도(SOM)
가까운 뉴런은 더 가깝게, 먼 뉴런은 더 멀게 가중치를 조정해가며 군집을 형성하는 방법
: 승자독식 방식으로 입력벡터와 가장 가까운 가중치 벡터를 가지는 경쟁층의 뉴런이 승자로 선택되고, 승자 뉴런의 가중치 벡터가 입력벡터와 더 가까워지도록 가중치를 조정한다. 승자 뉴런 뿐만 아니라 승자 뉴런의 이웃 뉴런 또한 가중치가 조정되는데, 승자 뉴런에 가까운 이웃일수록 가중치가 크게 조정되고 먼 이웃일수록 작게 조정된다.
# 자기조직화지도(SOM) 수행 절차
⓵ 초기 학습률 및 가중치를 결정한다.
⓶ 입력벡터와 가장 가까운 경쟁층에 승자노드를 나타내고 해당 가중치를 변경한다.
⓷ 위 과정을 반복하여 모든 데이터에 대한 승자노드를 표시한다.
⓸ 학습률을 변경한다.
⓹ 특정 반복 수에 도달할 때까지 위 과정을 반복한다.
# K-평균 군집
- 비계층적 군집분석으로 최단 연결법이 존재하지 않는다.
- 잡음이나 이상값에 민감하기 때문에 평균 대신 중앙값을 사용하기도 한다.
- seed의 변경에 따라 데이터들은 다른 군집으로 이동할 수 있다.
- 분석을 수행하기에 앞서 사전에 주어진 목적이 없기 때문에 결과의 해석이 어렵다.
# 랜덤 포레스트
- 앙상블 기법 중 하나로 여러 개의 의사결정나무로 구성된다.
- 의사결정나무의 단점인 분산이 크다는 것을 고려하여 배깅보다 더 많은 무작위성을 주어 분산을 감소시킨다.
- 각 트리가 서로 높은 비상관성을 가진다.
- 여러 개의 트리들의 선형 결합으로 최종 분류기를 만드는 방법이다.
# 데이터프레임
: R에서 가장 많이 사용하는 2차원 구조로, 각 열이 서로 다른 타입을 가지고 정형 데이터 분석에 가장 많이 활용되는 데이터 구조
# 제곱합 그래프
: 이상적인 K값 결정을 위해서 사용하는 그래프
# 향상도 곡선
: 랜덤모델과 비교하였을 때 일부 상위 데이터에서 모델의 성능이 얼마나 우수한지(향상되는지) 평가하기 위한 그래프
# C4.5
: 의사결정나무 구축을 위한 알고리즘으로 불순도의 측도로는 엔트로피 지수를 활용한다.
# 와드연결법
: 군집 내 자료들의 편차제곱합이 최소가 되도록 하는 방법
# 연관분석
- 최소 지지도를 사용한다.
- 품목 세분화의 어려움이 있다.
- 연관분석에 시간의 개념을 추가하여 순차패턴분석을 수행할 수 있다.
- 연관분석의 결과를 확인하기 위해서는 inspect를 사용한다.
# 지도학습 / 비지도학습
⓵ 지도학습 : 의사결정나무, 회귀분석
⓶ 비지도학습 : 자기조직화지도, 연관분석, 혼합 분포 군집, 코호넨 맵
# inspect함수
: R에서 apriori 알고리즘을 통한 연관분석을 수행한 뒤 연관 규칙에 대한 결과를 확인하기 위한 함수
# 민감도 / 특이도
⓵ 민감도 : 실제 True 중 True의 비율
⓶ 특이도 : 실제 False 중 False의 비율
# 분류기준값(cutoff value)
: 이진분류의 YES에 속할 최소확률 값을 나타낸다.
# 주성분분석
- 서로 상관성이 높은 변수들의 선형결합으로 새로운 주성분을 만들어 변수를 요약 및 축소하는 기법
- 회귀분석에서 다중공선성이 우려되는 경우 주성분분석 수행 이후 각 주성분을 독립변수로 회귀분석을 수행하기도 한다.
- 데이터를 가장 잘 설명할 수 있도록 분산이 가장 큰 축을 찾아 주성분으로 결정한다.
- 주성분의 개수를 선택하기 위해 누적 설명률과 함께 scree plot을 활용한다.
# ROC커브
: 분류모형의 성과를 평가하기 위해 사용한다.
-- ★ 가장 좋은 모형
- (0,0)에서 시작하여 (1,1)에서 종료되는 우상향 그래프
- 민감도 1, 특이도 1일수록 좋음
- AUC (ROC 곡선 아래 면적)이 넓을수록(최대값인 1인 가까울수록) 분류를 잘하는 모형이다.
'📍 자격증' 카테고리의 다른 글
[ 리눅스마스터 2급 ] 제2404회차 합격후기 (1차/2차) (3) | 2024.12.17 |
---|---|
[ Adsp(데이터분석 준전문가) ] 제43회차 합격후기 (2) | 2024.11.23 |
[ Adsp / 공부 ] Adsp 기출 오답정리 (40회차 ~ 42회차) (0) | 2024.10.31 |
[ SQLD(SQL Developer) ] 제54회차 합격후기 (14) | 2024.10.08 |