📌 1과목 (데이터 이해)
# 데이터의 가치 패러다임 변화에 있어서 디지털된 정보들을 서로 효과적인 연결을 통해 관리하는 단계는 ?
: 에이전시
→ 빅데이터의 가치 패러다임 시간 순서 : Digitalization - Connection - Agency (Di C A(디카) 의 가치는 점점 중요해지고 있어!)
Agency: 복잡한 연결을 효과적이고 믿을 만하게 관리하는 것이 중요해지는 시기
# DIKW 피라미드의 구성요소의 예시 (데이터, 정보, 지식, 지혜)
⓵ 지혜 : A사이트보다 B사이트가 다른 물건도 비싸게 팔 것이다.
⓶ 지식 : B사이트보다 가격이 상대적으로 저렴한 A사이트에서 USB를 사야겠다.
⓷ 데이터 : A사이트는 10,000원에, B사이트는 15,000원에 USB를 팔고 있다.
⓸ 정보 : B사이트의 USB판매가격이 A사이트보다 더 비싸다.
# 빅데이터의 효능으로 올바르지 않은 것은 ?
⓵ 고객에게 획일화된 서비스를 제공
⓶ 기업의 혁신 제고
⓷ 정보 미래 대응 정책
⓸ 알고리즘을 활용한 의사결정 및 보조
→ 획일화된 서비스가 아닌 고객 세분화를 통해 고객에게 맞춤 서비스를 제공함.
# 데이터 사이언스의 구성요소로 부적절한 것은?
⓵ 네트워크 구축
⓶ 데이터 웨어하우징
⓷ 스토리텔링
⓸ 패턴 인식과 학습
# 다양한 의미 전달 매체에 의해 표현된 데이터, 정보, 지식, 저작물 등의 집합체로 올바른 것은 ?
: 콘텐츠
# 빅데이터의 가치 선정이 어려운 이유로 부적절한 것은 ?
⓵ 데이터 활용 방식
⓶ 새로운 가치 창출
⓷ 폐쇄적 특성
⓸ 분석기술 발전
# 빅데이터의 위기요인과 그에 따른 통제방안
⓵ 사생활 침해 - 사용자 책임
⓶ 책임 원칙 훼손 - 결과 기반 책임 원칙 고수
⓷ 데이터 오용 - 알고리즘 접근 허용
📌 2과목 (데이터 분석 기획)
# KDD 분석 방법론의 프로세스를 올바르게 나열한 것은 ?
: Selection → Preprocessing → Transformation → Data Mining → Evaluation
# CRISP-DM 분석 방법론 중 업무이해 단계에 수행해야하는 업무 ?
: 데이터 마이닝 목표 설정
# 분석의 대상과 분석 방법에 따른 4가지 분석 주제
⓵ 발견 : 대상X 방법X
⓶ 통찰 : 대상X 방법O
⓷ 해결책 : 대상O 방법X
⓸ 최적화 : 대상O 방법O
# 이상치 데이터를 활용한 시스템으로 적절한 것은 ?
: 부정 구매 방지 시스템
# 회귀모형의 성능을 판단하기 위한 오차함수들에 대한 설명
⓵ SSE : 오차 제곱합
⓶ MSE : 평균 제곱 오차
⓷ RMSE : 평균 제곱근 오차
⓸ MAE : 평균 절대 오차
# 혼합분포군집을 수행하는 알고리즘은 ?
: EM 알고리즘
# 회귀모형의 유의성을 판단하는 기준으로 올바른 것은 ?
: F검정
# 분석 과제를 관리할 때의 고려사항 ?
⓵ 데이터 규모(양)
⓶ 데이터 복잡도
⓷ 분석 속도
⓸ 분석 복잡도
⓹ 분석 정확도
# 이상치 데이터를 활용한 시스템으로 적절한 것은 ?
: 부정 구매 방지 시스템
# 준비도와 성숙도에 따른 유형 구분
⓵ 도입형 : 준비도⬆ , 성숙도⬇
⓶ 준비형 : 준비도⬇ , 성숙도⬇
⓷ 정착형 : 준비도⬇ , 성숙도⬆
⓸ 확산형 : 준비도⬆ , 성숙도⬆
# 단계별 분석 로드맵을 수립할 때 분석 유효성 검증 단계에서 수행해야하는 과제는 ?
- 파일럿테스트
📌 3과목 (데이터 분석)
# 가설검정에서 귀무가설이 사실일 때 관측된 결과와 같거나 이보다 더 극단적인 값을 갖게 될 확률은 ?
: p-value
# 모집단이 정규분포를 따르고 모집단의 분산을 알고 있을 때 ~ 잘못 설명하고 있는 것은 ?
: 동일한 모집단에 대해서 같은 방식으로 표본을 재추출하여 신뢰구간을 추정하면 동일한 값을 얻는다.
→ 동일한 표본집단이 추출되지 않는 한 신뢰구간은 달라진다.
# 앙상블 기법으로 적절하지 않은 것은 ?
⓵ 시그모이드
⓶ 배깅
⓷ 부스팅
⓸ 스태킹
# 회귀분석의 변수선택법에 대한 설명으로 잘못된 것은 ?
⓵ 전진선택법 : 상수형에서부터 변수를 하나씩 추가하면서 최종 모형을 구축하는 방법이다.
⓶ 후진제거법 : 모든 독립변수를 포함한 모형에서 시작해서 최종 모형에 상수항만 남을 때까지 변수를 제거한다.
⓷ 단계적 선택법 : 상수항에 변수를 추가하면서 벌점이 증가하면 해당 변수를 제거하는 방법으로 모형을 구축한다.
⓸ 라쏘 회귀 : L1 규제를 활용하여 가중치들의 절댓값의 합을 최소화하는 제약 조건을 활용하여 모형을 구축하는 방법이다.
→ 후진제거법 : 변수를 하나씩 제거함에 따라 벌점이 감소하지 않을 때까지 변수의 제거를 멈추는 방법
# K Means Clustering을 수행할 때 최적의 군집수를 선정하기 위해 활용할 수 있는 방법은 ?
: 엘보메소드
# 결측값 처리방법에 대한 설명으로 잘못된 것은 ?
⓵ 완전연결법을 활용하여 결측값을 완전히 삭제할 수 있다.
⓶ 평균대치법은 적절한 평균값으로 결측값을 대치하는 방법으로 조건부 평균대치법과 비조건 평균대치법으로 나누어볼 수 있다.
⓷ 단순확률대치법은 평균대치법의 추정량 표준 오차의 과소추정 문제를 보완하기 위한 방법이다.
⓸ 다중대치법은 여러 번의 대치된 자료들을 통해 최종값을 선정한다.
→ 결측값을 완전히 삭제하는 것은 "단순대치법"이다.
# DBSCAN에 대한 설명으로 잘못된 것은 ?
⓵ 임의 형태의 군집을 분류하는데 유용하다.
⓶ 다차원 자료의 경우 차원의 저주로 인해 비효율적일 수 있다.
⓷ 이상치에 민감하지 않은 장점이 있다.
⓸ 군집의 수 K의 초기값을 설정해야한다.
→ DBSCAN은 밀도에 기반한 군집분석으로 특정 밀도를 유지하면 하나의 군집으로 묶일 수 있기 때문에 초기값 K를 설정할 필요가 없다.
# 신용카드사가 고객 데이터를 활용하여 신규 가입자의 파산 여부를 Yes/No로 예측하기 위한 기법으로 적절하지 않은 것은 ?
⓵ 회귀분석
⓶ 로지스틱 회귀분석
⓷ 랜덤포레스트
⓸ SVM
# 시계열 모형에 대한 설명으로 올바른 것은 ?
: AR(1)은 1개의 시점을, AR(2)은 2개의 시점을 대상으로 모형을 구축한다.
# 인공신경망에 대한 설명으로 잘못된 것은 ?
⓵ 은닉층이 적으면 과대적합, 은닉층이 많으면 과소적합이 발생한다.
⓶ 잡음에 민감하지 않으며 비선형적 데이터에 유용하다.
⓷ 모형의 결과에 대한 해석이 어렵다.
⓸ 초기 가중치에 따라 전역해가 아닌 지연해로 수렴할 수 있으므로 최적의 은닉층의 수와 은닉 노드의 수와 결정이 매우 어렵다.
→ 과소적합: 은닉층이 적음 / 과대적합 : 은닉층이 많음
# Apriori 알고리즘에 대한 설명은 ?
- 최소 지지도를 활용하여 빈발 집합을 판별한다.
# 의사결정나무의 분류기준이 되는 지니지수에 대한 설명으로 올바른 것은?
⓵ 단일 원소로 구성될 때 지니지수 값은 1이다. → 지니지수값 : 0
⓶ 연속형 변수를 분류하기 위해 활용된다. → 이산형 변수 분류
⓷ 지니지수 값이 0일 때 순수도는 최대이다.
⓸ 불순도의 측도로써 log를 활용하여 값을 계산한다. → log활용 : 엔트로피 지수
# 모수검정과 비모수검정에 대해 잘못 설명하고 있는 것은 ?
⓵ 표본의 수가 지극히 적을 경우 비모수 검정이 효과적이다.
⓶ 모수검정은 모집단에 대해 어떤 가정도 하지 않는다.
⓷ 부호 검정, 순위 검정은 비모수 검정의 예시이다.
⓸ 숫자로는 표현되지만 수량화가 불가능하다면 비모수 검정이 효과적이다.
# 통계기법과 그에 대한 자유도
⓵ 일표본 t검정의 자유도 = 전체 데이터의 개수 - 1
⓶ 이표본 t검정의 자유도 = 전체 데이터의 개수 - 2
⓷ 단순선형회귀분석의 총 자유도 = 전체 데이터의 개수 - 1
⓸ 분산분석의 처리 자유도 = 집단 수 - 1
# 결측값에 대한 설명으로 부적절한 것은 ?
⓵ 결측값은 데이터 분석 속도에 영향을 미치지 않는다.
⓶ 결측값은 존재하지 않는 값으로 사람의 실수 등 다양한 이유로 인해 발생하게 된다.
⓷ KNN을 활용하여 결측값을 처리할 때에는 K값의 선정이 매우 중요한 요인 중 하나이다.
⓸ 다중 대치법은 대치, 분석, 결합의 순으로 결측값을 처리한다.
→ 결측값이 많을수록 데이터 전처리에 많은 시간이 투자되어 데이터 분석도 지연된다.
# 군집분석에 대한 설명으로 잘못된 것은 ?
⓵ 계층적 방법과 비계층적 방법으로 나누어볼 수 있다.
⓶ DBSCAN은 대표적인 밀도기반군집분석의 일종이다.
⓷ 비지도학습이기에 뚜렷한 목적이 없으면 활용할 수 없는 단점이 있다.
⓸ SOM은 군집분석의 결과는 시각화가 가능하여 그 결과를 한눈에 파악할 수 있다.
→ 군집분석은 비지도 학습의 일종으로 뚜렷한 목적없이 단순 데이터 탐색을 위해 활용가능하다.
# 통계용어
⓵ 산술평균 : 모든 값들의 합을 데이터의 개수로 나눈 것
⓶ 중앙값 : 자료를 크기순으로 나열할 때의 가운데 값으로 이상치에 영향을 적게 받는다.
⓷ 왜도 : 데이터가 한쪽으로 쏠린 정도를 의미, 왜도값이 양수일 경우 왼쪽으로 치우진 데이터 ( 오른쪽으로 긴 꼬리 )
⓸ 첨도 : 평균에 얼마나 많은 데이터가 몰려있는지를 의미하고 값이 클수록 평균에 많이 몰려있다.
# 다차원척도법에 대한 설명으로 잘못된 것은 ?
⓵ 데이터들간의 상대적 거리를 실수 범위에서 완전히 보존할 수 있는 분석기법이다.
⓶ 데이터를 저차원 공간에 배열하는 시각화 기법이다.
⓷ 결과를 통해 유사한 데이터들을 파악할 수 있어 군집분석과 유사하다고 할 수 있다.
⓸ 데이터가 서열척도인 경우 비계량적 방법으로 수행할 수 있다.
→ 다차원척도법은 데이터들간의 상대적 거리를 완전히 보존할 수 없다.
# 시계열 분석에 대한 설명으로 잘못된 것은 ?
⓵ 지수평활법은 미래 예측을 위해 과거자료가 현재자료보다 더 많은 정보를 갖고 있다는 가정하에 분석을 수행하는 기법이다.
⓶ 이동평균법은 일정 기간의 자료들의 평균값을 분석하여 다음 자료를 예측하는 방법이다.
⓷ 자귀회귀모형은 현재 시점의 데이터는 이전 데이터 n개에 의해 설명될 수 있는 모형을 의미한다.
⓸ ARIMA(p,d,q) 모형에서 d는 비정상시계열이 정상시계열이 되기 위한 차분의 횟수를 의미한다.
→ 지수평활법은 과거자료보다 현재자료가 더 많은 정보를 갖고 있다고 가정한다.
# 시계열 분석의 자기상관함수
→ PACF, ACF는 모두 시차가 증가함에 따라 감소하는 그래프를 가진다.
# 연관분석의 측도에 대한 설명으로 잘못된 것은 ?
⓵ 지지도 값이 1인 경우 모든 거래에 반드시 포함되는 것을 의미한다.
⓶ 모든 품목에 대한 지지도의 합은 1보다 클 수 있다.
⓷ 두 품목이 독립일 경우 신뢰도는 1이다.
⓸ 두 품목에 대한 향상도 값은 0 이상이다.
→ 두 품목이 독립인 경우 "향상도" 는 1이다.
# 로지스틱 회귀분석에 대한 설명으로 잘못된 것은 ?
⓵ 오즈값을 종속변수로 활용하여 회귀계수를 추정한다.
⓶ 범주가 3개 이상인 경우 다항 로지스틱 회귀분석을 통해 예측이 가능하다.
⓷ 종속변수자체가 확률값이므로 직관석 해석이 가능하다.
⓸ 회귀계수를 통해 각 변수간 중요도를 판단할 수 있다.
→ 종속변수는 로그 형태이므로 지수식으로 치환해야 확률의 변화를 확인할 수 있다.
# 단순선형회귀분석을 수행한 뒤 결과를 해석하는 데 있어서 올바르지 않은 것은 ?
⓵ 회귀모형의 통계적 유의성 검증
⓶ 회귀계수의 통계적 유의성 검증
⓷ 결정계수의 통계적 유의성 검증
⓸ 선형성, 정상성 등 가정사항의 만족 여부
# 의사결정나무와 관련이 없는 용어는 ?
⓵ 분산감소량 : CART 알고리즘에서 활용
⓶ 정지규칙 : 의사결정나무의 과대적합을 방지하기 위해 활용
⓷ 카이제곱 통계량 : CHAID 알고리즘에서 활용
⓸ 퍼셉트론
→ 퍼셉트론은 인공신경망을 구성하는 가장 작은 단위로 여러 개의 입력층과 하나의 활성화 함수 하나의 출력값으로 구성되어 있다.
'📍 자격증' 카테고리의 다른 글
[ 리눅스마스터 2급 ] 제2404회차 합격후기 (1차/2차) (3) | 2024.12.17 |
---|---|
[ Adsp(데이터분석 준전문가) ] 제43회차 합격후기 (2) | 2024.11.23 |
[ Adsp / 공부 ] Adsp 헷갈리는 개념 정리 (2) | 2024.11.02 |
[ SQLD(SQL Developer) ] 제54회차 합격후기 (14) | 2024.10.08 |