블로그 아카이브

Infrastructure tools 2026년 03월 23일 Data Droid

AI 코딩 에이전트로 iOS 앱 만들기 - 경험 없는 나의 레시피북 & 커피 저널 개발기

iOS 개발 경험이 전혀 없는 상태에서 Flexibility AI로 시장조사·기능 구체화를 하고, Cursor로 레시피북과 커피 저널 앱을 개발한 경험을 공유합니다. 생산성 앱 시장이 사라지는 시대, 개인이 필요한 앱을 직접 만드는 여정.

Cursor Flexibility-AI iOS Swift SwiftUI AI-Coding-Agent 사이드프로젝트 모바일앱

Data engineering 2026년 03월 13일 Data Droid

Cursor AI로 풀스택 사이드 프로젝트 만들기 - CareerWeb 개발기

채용공고 트래커 CareerWeb을 Cursor AI와 대화하며 처음부터 끝까지 만들어간 과정을 정리합니다. 기술 스택 선정부터 LLM 통합, Notion 연동, ATS 분석까지 AI 페어 프로그래밍의 실전 경험을 공유합니다.

Cursor AI-Pair-Programming React FastAPI Gemini Notion-API 사이드프로젝트

Data engineering 2026년 03월 09일 Data Droid

Snowflake 아키텍처와 Databricks 비교 - 어떤 경우에 무엇을 쓸 것인가

Snowflake의 전체 플랫폼 아키텍처와 Databricks를 비교하고, 포지셔닝 차이와 사례별 추천, 함께 쓰는 패턴을 정리합니다.

Snowflake Databricks Lakehouse Data-Warehouse 클라우드데이터플랫폼 데이터아키텍처

Data engineering 2026년 03월 06일 Data Droid

Unity Catalog와 dbt Deep Dive - 레이크하우스 거버넌스 베스트 프랙티스

Unity Catalog와 dbt를 함께 사용할 때의 아키텍처, 권한 모델, 네이밍 전략, 환경 분리, 테스트/계보 통합까지 실무 관점에서 깊게 정리합니다.

Unity-Catalog dbt Databricks Lakehouse Data-Governance Data-Lineage Data-Quality

Data engineering 2026년 03월 02일 Data Droid

Databricks 생태계 완전 정리 - 오픈소스 기반과 거버넌스까지

Databricks가 데이터 수집·저장·분석·머신러닝·거버넌스를 어떻게 통합하고 있는지, 어떤 오픈소스를 기반으로 하는지, 그리고 dbt·Unity Catalog와의 연계를 중심으로 정리합니다.

Databricks Lakehouse Delta-Lake Apache-Spark MLflow Unity-Catalog dbt 데이터거버넌스

Data engineering 2026년 02월 25일 Data Droid

Apache Spark 4.1 - 실시간 스트리밍의 혁신과 Flink와의 비교

Spark 4.1의 실시간 처리 개선사항부터 Flink와의 차이점, 그리고 진정한 스트리밍으로의 진화를 완전 정복합니다.

Apache-Spark Spark-4.1 Structured-Streaming Apache-Flink 실시간처리 스트리밍 마이크로배치 Continuous-Processing

Data engineering 2026년 02월 22일 Data Droid

LSM Tree와 Bloom Filter - 현대 데이터베이스의 핵심 자료구조

최신 데이터베이스에서 널리 사용되는 LSM Tree와 Bloom Filter의 원리부터 실무 적용까지 완전 정복합니다.

LSM-Tree Bloom-Filter 데이터베이스 자료구조 NoSQL RocksDB LevelDB 성능최적화

Data engineering 2025년 10월 21일 Data Droid

Delta Lake vs Iceberg vs Hudi 실전 비교 - 테이블 포맷 완전 정복

데이터 레이크하우스의 핵심 테이블 포맷인 Delta Lake, Apache Iceberg, Apache Hudi를 아키텍처부터 ACID, Time Travel, 성능까지 실제 벤치마크로 완전 비교합니다.

DeltaLake Iceberg Hudi DataLakehouse TableFormat ACID TimeTravel Spark

📚 Cloud data architecture 시리즈 Part 4

Data engineering 2025년 10월 17일 Data Droid

Parquet vs ORC vs Avro 실전 비교 - 데이터 레이크 파일 포맷 완전 정복

데이터 레이크의 핵심 파일 포맷인 Parquet, ORC, Avro를 내부 구조부터 성능, 압축률, 호환성까지 실제 벤치마크로 완전 비교합니다.

Parquet ORC Avro DataLake FileFormat Performance Compression Spark Hive

📚 Cloud data architecture 시리즈 Part 3

Data engineering 2025년 10월 12일 Data Droid

S3 vs HDFS 파티셔닝 전략 - 클라우드 시대의 데이터 레이크 최적화

HDFS 시절의 yyyy/mm/dd 파티셔닝이 S3에서는 왜 성능 문제를 일으키는지, 그리고 S3에 최적화된 파티셔닝 전략과 실제 쿼리 성능 비교를 다룹니다.

S3 HDFS Partitioning DataLake CloudStorage Spark Athena Performance Optimization

📚 Cloud data architecture 시리즈 Part 2

Bi engineering 2025년 10월 01일 Data Droid

BA(Business Analytics) 용어 완전 정리 - 데이터 분석가가 알아야 할 핵심 개념들

Business Analytics 분야의 핵심 용어들을 체계적으로 정리한 완전한 가이드. 분석 기법부터 비즈니스 지표, 도구까지 모든 것을 다룹니다.

BusinessAnalytics BA용어 데이터분석 BI 분석기법 비즈니스지표 데이터도구

📚 Modern bi analytics 시리즈 Part 2

Data quality 2025년 09월 30일 Data Droid

dbt를 활용한 데이터 품질 관리 완전 가이드 - 현대적 데이터 파이프라인의 핵심

dbt와 주요 데이터 플랫폼을 활용한 데이터 품질 관리의 모든 것. Snowflake, BigQuery, Redshift와 함께하는 실무 중심의 완전한 가이드입니다.

dbt 데이터품질 DataQuality Snowflake BigQuery Redshift Databricks dbtCloud 데이터파이프라인

📚 Modern data stack 시리즈 Part 2

Data engineering 2025년 09월 29일 Data Droid

Part 3: Time Series Database 통합과 배포 - 현대적 TDB 생태계 완성

TDB와 다른 시스템과의 통합부터 클라우드 네이티브 아키텍처, 최신 트렌드, 그리고 실제 프로덕션 배포까지 현대적 TDB 생태계의 완성된 모습을 다룹니다.

TimeSeriesDatabase 시스템통합 클라우드네이티브 프로덕션배포 현대적아키텍처 마이크로서비스 DevOps

📚 Time series database master 시리즈 Part 4

Data engineering 2025년 09월 29일 Data Droid

Part 2: Time Series Database 고급 기능과 최적화 - 프로덕션급 TDB 시스템 구축

TDB의 고급 기능부터 분산 아키텍처, 고가용성, 성능 튜닝까지 프로덕션 환경에서 실제로 사용할 수 있는 완전한 가이드입니다.

TimeSeriesDatabase 고급최적화 분산아키텍처 고가용성 성능튜닝 프로덕션 클러스터링

📚 Time series database master 시리즈 Part 3

Data engineering 2025년 09월 28일 Data Droid

Part 1: Time Series Database 기초와 아키텍처 - 시계열 데이터의 핵심 이해

Time-Series-Database TDB InfluxDB TimescaleDB 시계열데이터 IoT 모니터링 실시간분석

📚 Time series database mastery 시리즈 Part 2

Bi engineering 2025년 09월 26일 Data Droid

Part 3: HyperLogLog와 고급 확률적 알고리즘 - 현대적 BI 분석의 완성

HyperLogLog 확률적알고리즘 고급분석 BI시스템 스트리밍분석 실시간처리 빅데이터

📚 Modern bi engineering 시리즈 Part 4

Bi engineering 2025년 09월 25일 Data Droid

Part 2: HyperLogLog 실무 적용과 최적화 - 프로덕션급 BI 시스템 구축

HyperLogLog 실무적용 성능최적화 BI시스템 프로덕션 스트리밍 실시간분석

📚 Modern bi engineering 시리즈 Part 3

Bi engineering 2025년 09월 24일 Data Droid

Part 1: HyperLogLog 기초와 카디널리티 추정 - 대용량 데이터의 고유값 개수 효율적 계산

HyperLogLog 알고리즘의 원리부터 실무 적용까지, 대용량 데이터에서 카디널리티를 효율적으로 추정하는 방법을 완전히 정복합니다.

HyperLogLog 카디널리티추정 대용량데이터 BI엔지니어링 실시간분석 스트리밍 성능최적화

📚 Modern bi engineering 시리즈 Part 2

Data engineering 2025년 09월 23일 Data Droid

Part 3: Apache Iceberg와 빅데이터 생태계 통합 - 엔터프라이즈 데이터 플랫폼

Apache Iceberg와 Spark, Flink, Presto/Trino 통합, Delta Lake와 Hudi 비교, 클라우드 스토리지 최적화, 실무 프로젝트를 통한 대규모 데이터 레이크하우스 구축까지 완전한 가이드입니다.

Apache-Iceberg Spark Flink Presto Trino Delta-Lake Hudi 클라우드스토리지 데이터레이크하우스 빅데이터생태계

📚 Apache iceberg complete guide 시리즈 Part 4

Data engineering 2025년 09월 22일 Data Droid

Part 2: Apache Iceberg 고급 기능과 성능 최적화 - 프로덕션급 데이터 플랫폼

Apache Iceberg의 고급 파티셔닝 전략, 컴팩션과 정리 작업, 쿼리 성능 최적화, 메타데이터 관리와 버전 관리까지 프로덕션 환경에서 필요한 모든 고급 기능을 학습합니다.

Apache-Iceberg 고급파티셔닝 컴팩션 성능최적화 메타데이터관리 쿼리최적화 프로덕션 빅데이터

📚 Apache iceberg complete guide 시리즈 Part 3

Data engineering 2025년 09월 21일 Data Droid

Part 1: Apache Iceberg 기초와 테이블 포맷 - 현대적 데이터 레이크하우스의 시작

Apache Iceberg의 핵심 개념부터 테이블 포맷, 스키마 진화, 파티셔닝 전략까지 현대적 데이터 레이크하우스의 완전한 기초를 학습합니다.

Apache-Iceberg 데이터레이크하우스 테이블포맷 스키마진화 파티셔닝 ACID 트랜잭션 빅데이터

📚 Apache iceberg complete guide 시리즈 Part 2

Data engineering 2025년 09월 20일 Data Droid

Part 2: Kafka Connect와 프로덕션 CDC 운영 - 엔터프라이즈급 실시간 데이터 파이프라인

Kafka Connect 고급 아키텍처, 커스텀 커넥터 개발, 대규모 CDC 파이프라인 운영 전략, 성능 최적화와 장애 복구까지 완전한 가이드입니다.

Kafka-Connect CDC-운영 커스텀커넥터 성능최적화 모니터링 장애복구 엔터프라이즈 프로덕션

📚 Change data capture complete guide 시리즈 Part 3

Data engineering 2025년 09월 19일 Data Droid

Part 1: Change Data Capture와 Debezium 실전 구현 - 실시간 데이터 동기화의 완성

CDC의 핵심 개념부터 Debezium을 활용한 실시간 데이터 동기화 시스템 구축까지, 이벤트 드리븐 아키텍처의 완전한 가이드입니다.

Change-Data-Capture CDC Debezium Kafka 실시간동기화 이벤트드리븐 데이터파이프라인 스키마진화

📚 Change data capture complete guide 시리즈 Part 2

Data engineering 2025년 09월 18일 Data Droid

Part 4: Apache Flink 프로덕션 배포와 성능 최적화 - 엔터프라이즈급 운영의 완성

Apache Flink를 Kubernetes에서 프로덕션 환경에 배포하고, 성능을 최적화하며, 모니터링과 장애 복구 전략을 구현하는 완전한 가이드입니다.

Apache-Flink Kubernetes 프로덕션배포 성능최적화 모니터링 장애복구 DevOps CI/CD

📚 Apache flink complete guide 시리즈 Part 5

Data engineering 2025년 09월 17일 Data Droid

Part 3: Apache Flink 실시간 분석과 CEP - 복잡한 이벤트 처리의 완성

Apache Flink의 CEP (Complex Event Processing), 실시간 집계, 윈도우 함수, 패턴 매칭을 학습하고 실시간 대시보드와 알림 시스템을 구축합니다.

Apache-Flink CEP 실시간분석 패턴매칭 윈도우함수 실시간대시보드 Python PyFlink

📚 Apache flink complete guide 시리즈 Part 4

Data engineering 2025년 09월 16일 Data Droid

Part 2: Apache Flink 고급 스트리밍 처리와 상태 관리 - 프로덕션급 실시간 시스템

Apache Flink의 고급 상태 관리, 체크포인팅, 세이브포인트, 복잡한 시간 처리 전략을 학습하고 실무에 바로 적용할 수 있는 고급 패턴들을 구현합니다.

Apache-Flink 고급상태관리 체크포인팅 세이브포인트 시간처리 스트리밍최적화 Python PyFlink

📚 Apache flink complete guide 시리즈 Part 3

Data engineering 2025년 09월 15일 Data Droid

Part 1: Apache Flink 기초와 핵심 개념 - 진정한 스트리밍 처리의 시작

Apache Flink의 기본 구조와 핵심 개념인 DataStream API, 상태 관리, 시간 처리 등을 학습하고 실습해봅니다.

Apache-Flink DataStream-API 상태관리 시간처리 스트리밍처리 Python PyFlink

📚 Apache flink complete guide 시리즈 Part 2

Data engineering 2025년 09월 14일 Data Droid

Apache Flink 완전 정복 시리즈: 진정한 스트리밍 처리의 모든 것

Apache Flink의 핵심 개념부터 프로덕션 배포까지, 진정한 실시간 스트리밍 처리를 위한 완전한 가이드 시리즈입니다.

Apache-Flink 스트리밍처리 실시간분석 빅데이터 CEP 상태관리 Python Java

Data engineering 2025년 09월 13일 Data Droid

Part 4: Apache Spark 모니터링과 성능 튜닝 - 프로덕션 환경 완성

Apache Spark의 성능 모니터링, 프로파일링, 메모리 최적화, 클러스터 튜닝을 통한 프로덕션 환경 구축을 완성합니다.

Apache-Spark 성능튜닝 모니터링 프로파일링 메모리최적화 클러스터관리 Python

📚 Apache spark complete guide 시리즈 Part 5

Data engineering 2025년 09월 12일 Data Droid

Part 3: Apache Spark 실시간 스트리밍 처리와 Kafka 연동 - 실무 프로젝트

Apache Spark Streaming, Structured Streaming, Kafka 연동을 통한 실시간 데이터 처리와 분석 시스템을 구축합니다.

Apache-Spark Spark-Streaming Kafka 실시간처리 스트리밍 워터마킹 Python

📚 Apache spark complete guide 시리즈 Part 4

Data engineering 2025년 09월 12일 Data Droid

Part 2: Apache Spark 대용량 배치 처리와 UDF 활용 - 실무 프로젝트

Apache Spark의 고급 배치 처리 기법, UDF 작성, 그리고 Docker와 Kubernetes를 활용한 프로덕션 환경 구축까지 다룹니다.

Apache-Spark UDF 배치처리 Docker Kubernetes Airflow 성능최적화 Python

📚 Apache spark complete guide 시리즈 Part 3

Data engineering 2025년 09월 11일 Data Droid

Part 1: Apache Spark 기초와 핵심 개념 - RDD부터 DataFrame까지

Apache Spark의 기본 구조와 핵심 개념인 RDD, DataFrame, Spark SQL을 학습하고 실습해봅니다.

Apache-Spark RDD DataFrame Spark-SQL 빅데이터처리 Python PySpark

📚 Apache spark complete guide 시리즈 Part 2

Data engineering 2025년 09월 10일 Data Droid

Apache Spark 완전 정복 시리즈: 빅데이터 처리의 모든 것

Apache Spark의 탄생 배경부터 고급 성능 튜닝까지, 빅데이터 처리를 위한 완전한 가이드 시리즈입니다.

Apache-Spark 빅데이터 데이터처리 스트리밍 성능튜닝 Python Scala

Data engineering 2025년 09월 09일 Data Droid

Apache Kafka 실시간 스트리밍 가이드: 프로듀서부터 컨슈머까지

대용량 실시간 데이터를 처리하는 Apache Kafka의 핵심 개념과 실무 활용 방법을 학습하고 실제 프로젝트에 적용해봅니다.

Apache-Kafka 실시간스트리밍 데이터파이프라인 메시지큐 이벤트드리븐 마이크로서비스

Data engineering 2025년 09월 09일 Data Droid

Apache Kafka Python 가이드: 실시간 스트리밍과 데이터 처리

Python을 활용한 Apache Kafka 실시간 스트리밍 개발과 데이터 처리 기법을 학습하고 실제 프로젝트에 적용해봅니다.

Apache-Kafka Python 실시간스트리밍 데이터처리 kafka-python confluent-kafka faust

Data engineering 2025년 09월 08일 Data Droid

Apache Airflow 심화 가이드: DAG 최적화부터 모니터링까지

실무에서 자주 사용되는 Apache Airflow의 고급 기능과 모범 사례를 학습하고 실제 프로젝트에 적용해봅니다.

Apache-Airflow 데이터파이프라인 워크플로우 DAG 스케줄링 모니터링 데이터엔지니어링

Data ai 2025년 09월 07일 Data Droid

Part 4: 최신 생성형 AI 모델들 - TimeGPT, Lag-Llama, Moirai, Chronos

대규모 언어 모델을 활용한 혁신적인 시계열 예측 모델들을 살펴보고 실제 구현해봅니다.

시계열예측 LLM TimeGPT Lag-Llama Moirai Chronos 생성형AI 대규모언어모델

📚 Time series forecasting 시리즈 Part 5

Data ai 2025년 09월 06일 Data Droid

Part 3: 트랜스포머 기반 시계열 예측 모델들

Informer, Autoformer, FEDformer, PatchTST 등 최신 트랜스포머 기반 시계열 예측 모델들을 살펴보고 실습해봅니다.

시계열예측 트랜스포머 Informer Autoformer FEDformer PatchTST 딥러닝 AI

📚 Time series forecasting 시리즈 Part 4

Data ai 2025년 09월 01일 Data Droid

Part 2: 딥러닝 기반 시계열 예측 - N-BEATS와 DeepAR

딥러닝 기반 시계열 예측 모델의 핵심을 배우고 N-BEATS와 DeepAR을 실제 코드로 구현해보세요.

시계열예측 딥러닝 N-BEATS DeepAR PyTorch 머신러닝

📚 Time series forecasting 시리즈 Part 3

Data ai 2025년 08월 31일 Data Droid

시계열 예측의 진화: 전통적 방법부터 최신 AI 모델까지

ARIMA부터 TimeGPT까지, 시계열 예측 기술의 발전 과정과 최신 트렌드를 체계적으로 학습할 수 있는 완벽한 가이드입니다.

시계열예측 머신러닝 AI ARIMA Prophet TimeGPT

📚 Time series forecasting 시리즈

Data ai 2025년 08월 31일 Data Droid

Part 1: 시계열 예측의 기초 - ARIMA부터 Prophet까지

시계열 데이터의 기본 개념과 전통적 통계 방법, Prophet의 등장까지 체계적으로 학습하고 실제 코드로 구현해보세요.

시계열예측 ARIMA Prophet 통계 Python 시계열분석

📚 Time series forecasting 시리즈 Part 2

Infrastructure tools 2025년 08월 26일 Data Droid

쿠버네티스(Kubernetes)란 무엇인가? - 컨테이너 오케스트레이션의 핵심

쿠버네티스의 탄생 배경, 핵심 개념, 주요 특징, 그리고 현대적인 클라우드 네이티브 애플리케이션에서의 역할을 상세히 알아봅니다.

쿠버네티스 컨테이너 오케스트레이션 클라우드네이티브 마이크로서비스 DevOps

Infrastructure tools 2025년 08월 26일 Data Droid

macOS에서 쿠버네티스 로컬 설치 가이드 - Docker Desktop과 Minikube 활용

macOS 환경에서 Docker Desktop과 Minikube를 사용하여 쿠버네티스 클러스터를 로컬에 설치하고 설정하는 방법을 단계별로 안내합니다.

쿠버네티스 Docker Minikube macOS 로컬개발 컨테이너오케스트레이션

Data engineering 2025년 08월 22일 Data Droid

레이크하우스 테이블 포맷: Delta Lake, Apache Iceberg, Apache Hudi

현대적인 데이터 레이크하우스의 핵심인 테이블 포맷들에 대한 상세한 분석과 비교

lakehouse delta-lake apache-iceberg apache-hudi table-format data-lake

Data engineering 2025년 08월 20일 Data Droid

하이브 메타스토어의 한계와 레이크하우스의 등장

하둡 하이브 메타스토어의 구조적 한계와 그로 인해 등장한 레이크하우스 아키텍처에 대해 알아봅니다.

하이브 메타스토어 레이크하우스 하둡 데이터 아키텍처

Data engineering 2025년 08월 19일 Data Droid

데이터 레이크하우스(Lakehouse) 란?

데이터 레이크와 데이터 웨어하우스의 장점을 결합한 레이크하우스

레이크하우스 데이터 아키텍처 데이터 엔지니어링 Delta Lake Apache Iceberg

📚 블로그 아카이브

📅 연도별 아카이브

🏷️ 카테고리별