🏗️ 데이터 엔지니어링

데이터 엔지니어링

ETL/ELT 파이프라인, 데이터 웨어하우스, 데이터 레이크에 관한 기술 블로그

데이터 엔지니어링이란?

데이터 엔지니어링은 원시 데이터를 수집, 변환, 저장하여 분석과 의사결정에 활용할 수 있는 형태로 만드는 과정입니다. ETL/ELT 파이프라인 구축, 데이터 웨어하우스 설계, 데이터 레이크 아키텍처 등이 주요 영역입니다.

🏗️ 데이터 엔지니어링 아키텍처

5. 서빙 계층 (Serving Layer)

데이터 소비 및 활용
BI 도구 (Tableau, Power BI)
ML 모델 및 API
데이터 애플리케이션

4. 처리 계층 (Processing Layer)

데이터 변환 및 가공
ETL/ELT 파이프라인
배치 및 스트리밍 처리
데이터 정제 및 변환

2. 저장 계층 (Storage Layer)

데이터 저장 및 관리
데이터 레이크 (S3, ADLS)
데이터 웨어하우스
레이크하우스 (Delta Lake, Iceberg)

1. 수집 계층 (Ingestion Layer)

데이터 수집 및 수집
배치 데이터 소스
스트리밍 데이터 소스
CDC 및 실시간 수집

📋 계층별 주요 기술 스택

수집: Apache Kafka, Apache Flume, AWS Kinesis
저장: AWS S3, Azure Data Lake, Snowflake, BigQuery
메타데이터: Apache Atlas, AWS Glue, Delta Lake
처리: Apache Spark, Apache Airflow, Apache Flink
서빙: Tableau, Power BI, Looker, REST API

📝 관련 포스트

📚 Data engineering 포스트

Part 2: Time Series Database 고급 기능과 최적화 - 프로덕션급 TDB 시스템 구축

📚 Time series database master Part 3

Part 3: Time Series Database 통합과 배포 - 현대적 TDB 생태계 완성

📚 Time series database master Part 4

Part 1: Time Series Database 기초와 아키텍처 - 시계열 데이터의 핵심 이해

📚 Time series database mastery Part 2

Part 3: Apache Iceberg와 빅데이터 생태계 통합 - 엔터프라이즈 데이터 플랫폼

📚 Apache iceberg complete guide Part 4

Part 2: Apache Iceberg 고급 기능과 성능 최적화 - 프로덕션급 데이터 플랫폼

📚 Apache iceberg complete guide Part 3

Part 1: Apache Iceberg 기초와 테이블 포맷 - 현대적 데이터 레이크하우스의 시작

📚 Apache iceberg complete guide Part 2

Part 2: Kafka Connect와 프로덕션 CDC 운영 - 엔터프라이즈급 실시간 데이터 파이프라인

📚 Change data capture complete guide Part 3

Part 1: Change Data Capture와 Debezium 실전 구현 - 실시간 데이터 동기화의 완성

📚 Change data capture complete guide Part 2

Part 4: Apache Flink 프로덕션 배포와 성능 최적화 - 엔터프라이즈급 운영의 완성

📚 Apache flink complete guide Part 5

Part 3: Apache Flink 실시간 분석과 CEP - 복잡한 이벤트 처리의 완성

📚 Apache flink complete guide Part 4

Part 2: Apache Flink 고급 스트리밍 처리와 상태 관리 - 프로덕션급 실시간 시스템

📚 Apache flink complete guide Part 3

Part 1: Apache Flink 기초와 핵심 개념 - 진정한 스트리밍 처리의 시작

📚 Apache flink complete guide Part 2

Apache Flink 완전 정복 시리즈: 진정한 스트리밍 처리의 모든 것

Part 4: Apache Spark 모니터링과 성능 튜닝 - 프로덕션 환경 완성

📚 Apache spark complete guide Part 5

Part 2: Apache Spark 대용량 배치 처리와 UDF 활용 - 실무 프로젝트

📚 Apache spark complete guide Part 3

Part 3: Apache Spark 실시간 스트리밍 처리와 Kafka 연동 - 실무 프로젝트

📚 Apache spark complete guide Part 4

Part 1: Apache Spark 기초와 핵심 개념 - RDD부터 DataFrame까지

📚 Apache spark complete guide Part 2

Apache Spark 완전 정복 시리즈: 빅데이터 처리의 모든 것

Apache Kafka Python 가이드: 실시간 스트리밍과 데이터 처리

Apache Kafka 실시간 스트리밍 가이드: 프로듀서부터 컨슈머까지

Apache Airflow 심화 가이드: DAG 최적화부터 모니터링까지

레이크하우스 테이블 포맷: Delta Lake, Apache Iceberg, Apache Hudi

하이브 메타스토어의 한계와 레이크하우스의 등장

데이터 레이크하우스(Lakehouse) 란?

🏗️

준비 중인 포스트들

데이터 엔지니어링 카테고리의 추가 포스트들이 곧 공개됩니다!

Apache Kafka 실시간 스트리밍 Change Data Capture (CDC) Apache Spark 대용량 처리 데이터 모델링과 스키마 설계 데이터 품질 관리 Apache Flink 스트리밍