데이터 엔지니어링
데이터 엔지니어링
ETL/ELT 파이프라인, 데이터 웨어하우스, 데이터 레이크에 관한 기술 블로그
데이터 엔지니어링이란?
데이터 엔지니어링은 원시 데이터를 수집, 변환, 저장하여 분석과 의사결정에 활용할 수 있는 형태로 만드는 과정입니다. ETL/ELT 파이프라인 구축, 데이터 웨어하우스 설계, 데이터 레이크 아키텍처 등이 주요 영역입니다.
🏗️ 데이터 엔지니어링 아키텍처
5. 서빙 계층 (Serving Layer)
데이터 소비 및 활용BI 도구 (Tableau, Power BI)
ML 모델 및 API
데이터 애플리케이션
↓
4. 처리 계층 (Processing Layer)
데이터 변환 및 가공ETL/ELT 파이프라인
배치 및 스트리밍 처리
데이터 정제 및 변환
↓
↓
2. 저장 계층 (Storage Layer)
데이터 저장 및 관리데이터 레이크 (S3, ADLS)
데이터 웨어하우스
레이크하우스 (Delta Lake, Iceberg)
↓
1. 수집 계층 (Ingestion Layer)
데이터 수집 및 수집배치 데이터 소스
스트리밍 데이터 소스
CDC 및 실시간 수집
📋 계층별 주요 기술 스택
수집: Apache Kafka, Apache Flume, AWS Kinesis
저장: AWS S3, Azure Data Lake, Snowflake, BigQuery
메타데이터: Apache Atlas, AWS Glue, Delta Lake
처리: Apache Spark, Apache Airflow, Apache Flink
서빙: Tableau, Power BI, Looker, REST API
📝 관련 포스트
📚 Data engineering 포스트
Part 2: Time Series Database 고급 기능과 최적화 - 프로덕션급 TDB 시스템 구축
📚 Time series database master
Part 3
Part 3: Time Series Database 통합과 배포 - 현대적 TDB 생태계 완성
📚 Time series database master
Part 4
Part 1: Time Series Database 기초와 아키텍처 - 시계열 데이터의 핵심 이해
📚 Time series database mastery
Part 2
Part 3: Apache Iceberg와 빅데이터 생태계 통합 - 엔터프라이즈 데이터 플랫폼
📚 Apache iceberg complete guide
Part 4
Part 2: Apache Iceberg 고급 기능과 성능 최적화 - 프로덕션급 데이터 플랫폼
📚 Apache iceberg complete guide
Part 3
Part 1: Apache Iceberg 기초와 테이블 포맷 - 현대적 데이터 레이크하우스의 시작
📚 Apache iceberg complete guide
Part 2
Part 2: Kafka Connect와 프로덕션 CDC 운영 - 엔터프라이즈급 실시간 데이터 파이프라인
📚 Change data capture complete guide
Part 3
Part 1: Change Data Capture와 Debezium 실전 구현 - 실시간 데이터 동기화의 완성
📚 Change data capture complete guide
Part 2
Part 4: Apache Flink 프로덕션 배포와 성능 최적화 - 엔터프라이즈급 운영의 완성
📚 Apache flink complete guide
Part 5
Part 3: Apache Flink 실시간 분석과 CEP - 복잡한 이벤트 처리의 완성
📚 Apache flink complete guide
Part 4
Part 2: Apache Flink 고급 스트리밍 처리와 상태 관리 - 프로덕션급 실시간 시스템
📚 Apache flink complete guide
Part 3
Part 1: Apache Flink 기초와 핵심 개념 - 진정한 스트리밍 처리의 시작
📚 Apache flink complete guide
Part 2
Part 4: Apache Spark 모니터링과 성능 튜닝 - 프로덕션 환경 완성
📚 Apache spark complete guide
Part 5
Part 2: Apache Spark 대용량 배치 처리와 UDF 활용 - 실무 프로젝트
📚 Apache spark complete guide
Part 3
Part 3: Apache Spark 실시간 스트리밍 처리와 Kafka 연동 - 실무 프로젝트
📚 Apache spark complete guide
Part 4
Part 1: Apache Spark 기초와 핵심 개념 - RDD부터 DataFrame까지
📚 Apache spark complete guide
Part 2
준비 중인 포스트들
데이터 엔지니어링 카테고리의 추가 포스트들이 곧 공개됩니다!
Apache Kafka 실시간 스트리밍
Change Data Capture (CDC)
Apache Spark 대용량 처리
데이터 모델링과 스키마 설계
데이터 품질 관리
Apache Flink 스트리밍