spring-batch-study

  • Total은 크게 의미가 없다 ( 더 좋은 Spark 같은 걸 공부하자)

batch의 목표는 ETL을 하는 목표이다

- ETL이란 기업이 전 세계 모든 곳의 수많은 팀에서 관리하는 구조화된 데이터와 구조화되지 않은 데이터를 비롯한 전체 데이터를 가져와 비즈니스 목적에 실질적으로 유용한 상태로 변환하는 엔드 투 엔드 프로세스를 의미합니다.
  • Extract (추출)
    • 추출은 온라인, 온프레미스, 기존 소스, SaaS 등 하나 이상의 소스에서 데이터를 가져오는 프로세스입니다. 가져오기, 즉 추출이 완료된 후에는 데이터가 스테이징 영역에 로드됩니다
  • Trnasform (변환)
    • 변환에는 데이터를 가져와서 정리하고 대상 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 저장할 수 있도록 공통된 형식으로 만드는 작업이 포함됩니다. 정리에는 일반적으로 중복되거나 불완전하거나 명백히 잘못된 레코드를 제거하는 작업이 포함됩니다.
  • Load
    • 로드는 형식이 지정된 데이터를 대상 데이터베이스, 데이터 저장소, 데이터 웨어하우스 또는 데이터 레이크에 삽입하는 프로세스입니다.

사용 사례

- ETL은 관련된 모든 데이터를 한곳에 모아 활용 가능한 정보로 만들고 이를 분석하여 경영진, 관리자, 기타 이해관계자가 해당 정보에 입각한 결정을 내릴 수 있도록 지원하는 중요한 수단입니다. ETL은 일반적으로 다음 작업을 수행하는 데 사용됩니다.
  • 데이터베이스 복제
    • 데이터베이스 복제는 Oracle, MySQL용 Cloud SQL, Microsoft SQL Server, PostgreSQL용 Cloud SQL, MongoDB 등의 소스 데이터베이스에서 데이터를 가져와서 클라우드 데이터 웨어하우스에 복사하는 작업입니다. 이 작업은 일회성 작업으로 수행할 수도 있고 데이터 업데이트 시 지속적인 프로세스로 수행할 수도 있으며, 데이터를 복제하는 과정에서 ETL이 사용될 수 있습니다.
  • 마케팅 데이터 통합
    • 마케팅 데이터 통합에는 고객 데이터, 소셜 네트워킹 데이터, 웹로그 분석 데이터와 같은 마케팅 데이터를 분석하고 향후 계획을 수립할 수 있도록 모든 데이터를 한곳으로 이전하는 작업이 포함됩니다. ETL은 마케팅 데이터를 수집하고 준비하는 데 사용됩니다.