안녕하세요 퇴근후딴짓 입니다🤗 빅데이터 분석기사 실기 준비를 위한 데이터 셋과 튜토리얼을 공유합니다. 입문자라서 이 자료를 보고 시작할 수 없다면 저의 퇴근후딴짓 유튜브 또는 입문자를 위한 실기 강의를 추천합니다. 더 좋은 코드를 만든다면 많은 공유 부탁드려요🎉 (Python과 R모두 환영합니다.)
해당 자료가 성장(학습)에 도움이 되었다면 링크를 통해 후기(피드백)를 부탁해요 ✏️
작업형3 updated 2023.11
- 로지스틱 회귀: 파이썬 링크, R 링크
- 두 그룹 평균비교 (t통계량, f통계량): 파이썬 링크, R 링크
- 적합도 검정: 파이썬 링크, R 링크
- 지지도, 신뢰도, 향상도: 파이썬 링크, R 링크
- 포아송분포: 파이썬 링크, R 링크
- 독립성 검정: 파이썬 링크, R 링크
- 베르누이분포와 이항분포: 파이썬 링크, R 링크
- 점추정 및 구간추정: 파이썬 링크, R 링크
작업형1 updated 2023.11
- 대응(쌍체)표본 T검정:
파이썬 링크, R 링크
풀이 영상:
🖥️ 작업형3 - 독립표본 T검정: 파이썬 링크, R 링크
- 단일표본 T검정: 파이썬 링크, R 링크
- 일원배치법: 파이썬 링크, R 링크
- 정규성 검정 Shapiro-Wilks 파이썬 링크, [R 링크] (https://www.kaggle.com/agileteam/t3-shapiro-wilk-r)
- 회귀모형(상관계수): 파이썬 링크, R 링크
풀이 영상:
🖥️ 작업형2
- 작업형2 유형 데이터 및 컴피티션: [링크] (https://www.kaggle.com/competitions/big-data-analytics-certification-kr-2023-5th/)
- 작업형1 유형: 파이썬 링크, R 링크
- 작업형2 유형: 파이썬 풀이 R풀이
- 작업형2: 컴피티션/데이터 링크 -> 작업형2 데이터셋 제공, 최종 답안 제출시 점수 확인 가능
- 필답형: 가답안 링크
- 시험환경에서 작업형 풀어보기 📝작업형1-1, 📝작업형1-2, 📝작업형1-3
풀이 영상:
🖥️ 작업형1,2
- 작업형1 유형: 문제1, 문제2, 문제3
- 작업형2 유형: 풀이 링크
- 작업형2: 컴피티션/데이터 링크 -> 작업형2 데이터셋 제공, 최종 답안 제출시 점수 확인 가능
풀이 영상:
🖥️ 작업형1
📌 위 N회 문제는 기출 문제가 아닌 "기출 유형"임을 꼭 참고해주세요!
- 작업형1: P: https://www.kaggle.com/agileteam/tutorial-t1-python R: https://www.kaggle.com/limmyoungjin/tutorial-t1-r
- 작업형2: 백화점고객의 1년간 데이터 (dataq 공식 예제) P: https://www.kaggle.com/agileteam/t2-exercise-tutorial-baseline
- https://inf.run/XnzT
- 빅데이터 분석기사 실기는 혼자서도 충분합니다. 다만 시간이 부족하거나 파이썬을 모르는 입문자라면 추천해요:)
- 작업형1,2,3과 기출 2~6회까지, 실기 준비에 필요한 내용만 친절하게 알려드려요🎉
Tasks 탭에서 문제 및 코드 확인
-
T1-1.Outlier(IQR) / #이상치 #IQR P: https://www.kaggle.com/agileteam/py-t1-1-iqr-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-1-iqr-expected-questions-2
-
T1-2.Outlier(age) / #이상치 #소수점나이 P: https://www.kaggle.com/agileteam/py-t1-2-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-2-expected-questions-2
-
T1-3. Missing data / #결측치 #삭제 #중앙 #평균 P: https://www.kaggle.com/agileteam/py-t1-3-map-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-3-expected-questions-2
-
T1-4. Skewness and Kurtosis (Log Scale) / #왜도 #첨도 #로그스케일 P: https://www.kaggle.com/agileteam/py-t1-4-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-4-expected-questions-2
-
T1-5. Standard deviation / #표준편차 P: https://www.kaggle.com/agileteam/py-t1-5-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-5-expected-questions-2
-
T1-6. Groupby Sum / #결측치 #조건 P: https://www.kaggle.com/agileteam/py-t1-6-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-6-expected-questions-2
-
T1-7. Replace / #값변경 #조건 #최대값 P: https://www.kaggle.com/agileteam/py-t1-7-2-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-7-2-expected-questions-2
-
T1-8. Cumulative Sum / #누적합 #결측치 #보간 P: https://www.kaggle.com/agileteam/py-t1-8-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-8-expected-questions-2
-
T1-9. Standardization / #표준화 #중앙값 P: https://www.kaggle.com/agileteam/py-t1-9-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-9-expected-questions-2
-
T1-10. Yeo-Johnson and Box–Cox / #여존슨 #박스-콕스 #결측치 #최빈값 (출제 가능성 낮음) P: https://www.kaggle.com/agileteam/py-t1-10-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-10-expected-questions-2
-
T1-11. min-max scaling / #스케일링 #상하위값 P: https://www.kaggle.com/agileteam/py-t1-11-min-max-5-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-11-min-max-5-expected-questions-2
-
T1-12. top10-bottom10 / #그룹핑 #정렬 #상하위값 P: https://www.kaggle.com/agileteam/py-t1-12-10-10-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-12-10-expected-questions-2
-
T1-13. Correlation / #상관관계 P: https://www.kaggle.com/agileteam/py-t1-13-expected-questions R: https://www.kaggle.com/limmyoungjin/r-t1-13-expected-questions-2
-
T1-14. Multi Index & Groupby / #멀티인덱스 #정렬 #인덱스리셋 #상위값 P: https://www.kaggle.com/agileteam/py-t1-14-2-expected-question R: https://www.kaggle.com/limmyoungjin/r-t1-14-2-expected-question-2
-
T1-15. Slicing & Condition / #슬라이싱 #결측치 #중앙값 #조건 P: https://www.kaggle.com/agileteam/py-t1-15-expected-question R: https://www.kaggle.com/limmyoungjin/r-t1-15-expected-question-2
-
T1-16. Variance / #분산 #결측치전후값차이 P: https://www.kaggle.com/agileteam/py-t1-16-expected-question R: https://www.kaggle.com/limmyoungjin/r-t1-16-expected-question-2
-
T1-17. Time-Series1 / #시계열데이터 #datetime P: https://www.kaggle.com/agileteam/py-t1-17-1-expected-question R: https://www.kaggle.com/limmyoungjin/r-t1-17-1-expected-question-2
-
T1-18. Time-Series2 / #주말 #평일 #비교 #시계열데이터 P: https://www.kaggle.com/agileteam/py-t1-18-2-expected-question R: https://www.kaggle.com/limmyoungjin/r-t1-18-2-expected-question-2
-
T1-19. Time-Series3 (monthly total) / #월별 #총계 #비교 #데이터값변경
P: https://www.kaggle.com/agileteam/py-t1-19-3-expected-question R: https://www.kaggle.com/limmyoungjin/r-t1-19-3-expected-question-2 -
T1-20. Combining Data / 데이터 #병합 #결합 / 고객과 궁합이 맞는 타입 매칭
P: https://www.kaggle.com/agileteam/py-t1-20-expected-question R: https://www.kaggle.com/limmyoungjin/r-t1-20-expected-question-2 -
T1-21. Binning Data / #비닝 #구간나누기 P: https://www.kaggle.com/agileteam/py-t1-21-expected-question R: https://www.kaggle.com/limmyoungjin/r-t1-21-expected-question-2
-
T1-22. Time-Series4 (Weekly data) / #주간 #합계 P: https://www.kaggle.com/agileteam/t1-22-time-series4-weekly-data R: https://www.kaggle.com/limmyoungjin/r-t1-22-time-series4-weekly-data-2
-
T1-23. Drop Duplicates / #중복제거 #결측치 #10번째값으로채움 P: https://www.kaggle.com/agileteam/t1-23-drop-duplicates R: https://www.kaggle.com/limmyoungjin/r-t1-23-drop-duplicates-2
-
T1-24. Time-Series5 (Lagged Feature) / #시차데이터 #조건 P: https://www.kaggle.com/agileteam/t1-24-time-series5-lagged-feature R: https://www.kaggle.com/limmyoungjin/r-t1-24-time-series5-2
[심화 학습] 🆕
-
T1-25. String / #키워드 찾기 #문자 #슬라이싱 P: https://www.kaggle.com/agileteam/t1-25-str-slicing R: https://www.kaggle.com/agileteam/t1-25-str-slicing-r
-
T1-26. String / #키워드 찾기 #문자 #포함여부 P: https://www.kaggle.com/agileteam/t1-26-str-contains R: https://www.kaggle.com/agileteam/t1-26-str-contains-r
-
T1-27. String / #키워드 찾기 #문자 #공백 P: https://www.kaggle.com/agileteam/t1-27-str-contains-replace R: https://www.kaggle.com/agileteam/t1-27-str-contain-replace-r
-
T1-28. Frequency / #빈도 #index P: https://www.kaggle.com/agileteam/t1-28-value-counts-index
-
T1-29. Time-Series (format) # 날짜 형식 P: https://www.kaggle.com/agileteam/t1-29-datetime-format
-
T1-30. Time-Series #percent P: https://www.kaggle.com/agileteam/t1-30-datetime-percent
-
T1-31. Melt #재구조화(전체) P: https://www.kaggle.com/agileteam/t1-31-melt
-
T1-32. Melt #재구조화(일부) P: https://www.kaggle.com/agileteam/t1-33-melt2
-
T1-91. Sigmoid / #시그모이드 P: https://www.kaggle.com/agileteam/t1-91-sigmoid
-
T1-92. ReLU/ #렐루 P: https://www.kaggle.com/agileteam/t1-92-relu
Tasks 탭에서 문제 및 코드 확인
- T2-1. Titanic (Classification) / 타이타닉 P: https://www.kaggle.com/agileteam/t2-1-titanic-simple-baseline R: https://www.kaggle.com/limmyoungjin/r-t2-1-titanic
- T2-2. Pima Indians Diabetes (Classification) / 당뇨병 P: https://www.kaggle.com/agileteam/t2-2-pima-indians-diabetes R: https://www.kaggle.com/limmyoungjin/r-t2-2-pima-indians-diabetes
- T2-3. Adult Census Income (Classification) / 성인 인구소득 예측 P: https://www.kaggle.com/agileteam/t2-3-adult-census-income-tutorial R: https://www.kaggle.com/limmyoungjin/r-t2-3-adult-census-income
- T2-4. House Prices (Regression) / 집값 예측 / RMSE P: https://www.kaggle.com/code/agileteam/t2-4-house-prices-regression P: https://www.kaggle.com/code/agileteam/house-prices-starter-xgb (XGB 시작하기) R: https://www.kaggle.com/limmyoungjin/r-t2-4-house-prices
- T2-5. Insurance Forecast (Regression) / P: https://www.kaggle.com/agileteam/insurance-starter-tutorial R: https://www.kaggle.com/limmyoungjin/r-t2-5-insurance-prediction
- T2-6. Bike-sharing-demand (Regression) / 자전거 수요 예측 / RMSLE P: https://www.kaggle.com/code/agileteam/t2-6-bike-regressor R: https://www.kaggle.com/limmyoungjin/r-t2-6-bike-sharing-demand
- 작업형1: 파이썬 링크, R 링크
- 작업형2: 문제 템플릿, 찐 입문 코드, 풀이 코드/베이스라인
- https://www.kaggle.com/ohseokkim/t2-2-pima-indians-diabetes 작성자: @ohseokkim 😆
- https://www.kaggle.com/wltjd54/insurance-prediction-full-ver 작성자: @wltjd54 👏
- 시험환경에서 정당한 컨닝페이퍼 만들기 Guide https://www.kaggle.com/agileteam/tip-guide
- 구름 환경에서 작업형1 실전 연습하기 (외부데이터)
- 판다스 통계 함수 간단 정리 https://www.kaggle.com/agileteam/pandas-statistical-function
- json, xml 파일 로드 https://www.kaggle.com/agileteam/tip-data-load-json-and-xml
##👋 Code👋
- 활용방법 : 노트북(코드) 클릭 후 우측 상단에 'copy & edit' 하면 사용한 데이터 셋과 함께 노트북이 열려요!!
- 예시 문제 및 기출 유형 Tutorial
- 모의문제 출제 및 풀이 ("kim tae heon" 검색)
- 작업형1 : 'T1' 을 검색해주세요!
- 작업형2 : 'T2'를 검색해주세요!
- 시험 5주 전 멤버 모집
- 시험 4주 전부터 집중 학습
- 시험 합격용 속성 기초 강의(유료): https://inf.run/XnzT
- 파이썬 입문 강의(무료) : https://youtu.be/dpwTOQri42s
- 파이썬 전자책(무료) : https://wikidocs.net/book/6708
- 판다스 입문강의(유료) : https://www.udemy.com/course/pandas-i/
- 판다스 전자책(무료) : https://wikidocs.net/book/4639
함께 공부하며 성장했으면 해요!!!:) 이 자료가 도움이 되었다면 upvote 클릭 부탁드립니다 🙏
- 링크가 아닌 복사로 동의 없이 사용 금지
- 본 자료에 대한 허가되지 않은 배포 금지 파