Blog Archive

Data engineering August 19, 2025 Data Droid

What is Data Lakehouse?

Lakehouse combining the advantages of data lakes and data warehouses

lakehouse data-architecture data-engineering Delta Lake Apache Iceberg

Data engineering August 20, 2025 Data Droid

Limitations of Hive Metastore and the Emergence of Lakehouse

Learn about the structural limitations of Hadoop Hive Metastore and the Lakehouse architecture that emerged as a result.

hive metastore lakehouse hadoop data-architecture

Data engineering August 22, 2025 Data Droid

Lakehouse Table Formats: Delta Lake, Apache Iceberg, Apache Hudi

Detailed analysis and comparison of table formats that are the core of modern data lakehouse

lakehouse delta-lake apache-iceberg apache-hudi table-format data-lake

Infrastructure tools August 26, 2025 Data Droid

Kubernetes Local Setup Guide for macOS - Using Docker Desktop and Minikube

Step-by-step guide to install and configure Kubernetes cluster locally on macOS using Docker Desktop and Minikube.

Kubernetes Docker Minikube macOS LocalDevelopment ContainerOrchestration

Infrastructure tools August 26, 2025 Data Droid

What is Kubernetes? - The Core of Container Orchestration

Learn about Kubernetes' background, core concepts, key features, and its role in modern cloud-native applications.

Kubernetes Container Orchestration CloudNative Microservices DevOps

Data ai August 31, 2025 Data Droid

Part 1: Fundamentals of Time Series Forecasting - From ARIMA to Prophet

Systematically learn the basic concepts of time series data and traditional statistical methods, up to the emergence of Prophet, and implement them with actual code.

TimeSeriesForecasting ARIMA Prophet Statistics Python TimeSeriesAnalysis

📚 Time series forecasting Series Part 2

Data ai August 31, 2025 Data Droid

Evolution of Time Series Forecasting: From Traditional Methods to Latest AI Models

From ARIMA to TimeGPT, a perfect guide to systematically learn the evolution of time series forecasting technology and the latest trends.

TimeSeriesForecasting MachineLearning AI ARIMA Prophet TimeGPT

📚 Time series forecasting Series

Data ai September 01, 2025 Data Droid

Part 2: Deep Learning-based Time Series Forecasting - N-BEATS and DeepAR

Explore advanced deep learning models for time series forecasting, including N-BEATS and DeepAR, with hands-on implementation using PyTorch.

time-series deep-learning n-beats deepar pytorch forecasting lstm gru

📚 Evolution of time series forecasting Series Part 3

Data ai September 06, 2025 Data Droid

Part 3: Transformer-Based Time Series Forecasting Models

Explore state-of-the-art transformer-based time series forecasting models including Informer, Autoformer, FEDformer, and PatchTST with hands-on practice.

time-series-forecasting transformer Informer Autoformer FEDformer PatchTST deep-learning AI

📚 Time series forecasting Series Part 4

Data ai September 07, 2025 Data Droid

Part 4: Latest Generative AI Models - TimeGPT, Lag-Llama, Moirai, Chronos

Explore innovative time series forecasting models using large language models and implement them in practice.

time-series-forecasting LLM TimeGPT Lag-Llama Moirai Chronos generative-AI large-language-models

📚 Time series forecasting Series Part 5

Data engineering September 08, 2025 Data Droid

Apache Airflow Advanced Guide: From DAG Optimization to Monitoring

Learn advanced features and best practices of Apache Airflow commonly used in production environments and apply them to real projects.

Apache-Airflow Data-Pipeline Workflow DAG Scheduling Monitoring Data-Engineering

Data engineering September 09, 2025 Data Droid

Apache Kafka Python Guide: Real-time Streaming and Data Processing

Learn real-time streaming development and data processing techniques using Apache Kafka with Python and apply them to real projects.

Apache-Kafka Python Real-time-Streaming Data-Processing kafka-python confluent-kafka faust

Data engineering September 09, 2025 Data Droid

Apache Kafka Real-time Streaming Guide: From Producer to Consumer

Learn core concepts and practical applications of Apache Kafka for processing large-scale real-time data and apply them to real projects.

Apache-Kafka Real-time-Streaming Data-Pipeline Message-Queue Event-Driven Microservices

Data engineering September 10, 2025 Data Droid

Complete Apache Spark Mastery Series: Everything About Big Data Processing

From Apache Spark's origins to advanced performance tuning - a complete guide series for big data processing.

Apache-Spark Big-Data Data-Processing Streaming Performance-Tuning Python Scala

Data engineering September 11, 2025 Data Droid

Part 1: Apache Spark Basics and Core Concepts - From RDD to DataFrame

Learn Apache Spark's basic structure and core concepts including RDD, DataFrame, and Spark SQL through hands-on practice.

Apache-Spark RDD DataFrame Spark-SQL Big-Data-Processing Python PySpark

📚 Apache spark complete guide Series Part 2

Data engineering September 12, 2025 Data Droid

Part 2: Apache Spark Large-scale Batch Processing and UDF Usage - Real-world Project

Advanced batch processing techniques in Apache Spark, UDF writing, and production environment setup using Docker and Kubernetes.

Apache-Spark UDF Batch-Processing Docker Kubernetes Airflow Performance-Optimization Python

📚 Apache spark complete guide Series Part 3

Data engineering September 12, 2025 Data Droid

Part 3: Apache Spark Real-time Streaming Processing and Kafka Integration - Real-world Project

Build real-time data processing and analysis systems using Apache Spark Streaming, Structured Streaming, and Kafka integration.

Apache-Spark Spark-Streaming Kafka Real-time-Processing Streaming Watermarking Python

📚 Apache spark complete guide Series Part 4

Data engineering September 13, 2025 Data Droid

Part 4: Apache Spark Monitoring and Performance Tuning - Production Environment Completion

Complete production environment setup through Apache Spark performance monitoring, profiling, memory optimization, and cluster tuning.

Apache-Spark Performance-Tuning Monitoring Profiling Memory-Optimization Cluster-Management Python

📚 Apache spark complete guide Series Part 5

Data engineering September 14, 2025 Data Droid

Complete Apache Flink Mastery Series: Everything About True Streaming Processing

From Apache Flink's core concepts to production deployment - a complete guide series for true real-time streaming processing.

Apache-Flink Streaming-Processing Real-time-Analytics Big-Data CEP State-Management Python Java

Data engineering September 15, 2025 Data Droid

Part 1: Apache Flink Basics and Core Concepts - The Beginning of True Streaming Processing

Learn Apache Flink's basic structure and core concepts including DataStream API, state management, and time processing through hands-on practice.

Apache-Flink DataStream-API State-Management Time-Processing Streaming-Processing Python PyFlink

📚 Apache flink complete guide Series Part 2

Data engineering September 16, 2025 Data Droid

Part 2: Apache Flink Advanced Streaming Processing and State Management - Production-grade Real-time Systems

Learn advanced state management, checkpointing, savepoints, and complex time processing strategies in Apache Flink, and implement advanced patterns that can be applied directly to real-world scenarios.

Apache-Flink Advanced-State-Management Checkpointing Savepoints Time-Processing Streaming-Optimization Python PyFlink

📚 Apache flink complete guide Series Part 3

Data engineering September 18, 2025 Data Droid

Part 4: Apache Flink Production Deployment and Performance Optimization - Enterprise Operations Mastery

Complete guide to deploying Apache Flink on Kubernetes in production environments, optimizing performance, and implementing monitoring and disaster recovery strategies.

Apache-Flink Kubernetes Production-Deployment Performance-Optimization Monitoring Disaster-Recovery DevOps CI/CD

📚 Apache flink complete guide Series Part 5

Data engineering September 19, 2025 Data Droid

Part 1: Change Data Capture and Debezium Practical Implementation - Complete Real-time Data Synchronization

From CDC core concepts to building real-time data synchronization systems with Debezium, a complete guide to event-driven architecture.

Change-Data-Capture CDC Debezium Kafka Real-time-Sync Event-Driven Data-Pipeline Schema-Evolution

📚 Change data capture complete guide Series Part 2

Data engineering September 20, 2025 Data Droid

Part 2: Kafka Connect and Production CDC Operations - Enterprise Real-time Data Pipeline

Advanced Kafka Connect architecture, custom connector development, large-scale CDC pipeline operation strategies, performance optimization and disaster recovery.

Kafka-Connect CDC-Operations Custom-Connectors Performance-Optimization Monitoring Disaster-Recovery Enterprise Production

📚 Change data capture complete guide Series Part 3

Data engineering September 21, 2025 Data Droid

Part 1: Apache Iceberg Fundamentals and Table Format - The Beginning of Modern Data Lakehouse

Learn the complete fundamentals of modern data lakehouse from Apache Iceberg's core concepts to table format, schema evolution, and partitioning strategies.

Apache-Iceberg Data-Lakehouse Table-Format Schema-Evolution Partitioning ACID Transaction Big-Data

📚 Apache iceberg complete guide Series Part 2

Data engineering September 22, 2025 Data Droid

Part 2: Apache Iceberg Advanced Features and Performance Optimization - Production-grade Data Platform

Learn all advanced features needed for production environments including advanced partitioning strategies, compaction and cleanup operations, query performance optimization, and metadata management with version control.

Apache-Iceberg Advanced-Partitioning Compaction Performance-Optimization Metadata-Management Query-Optimization Production Big-Data

📚 Apache iceberg complete guide Series Part 3

Data engineering September 23, 2025 Data Droid

Part 3: Apache Iceberg and Big Data Ecosystem Integration - Enterprise Data Platform

Complete guide to Apache Iceberg integration with Spark, Flink, Presto/Trino, comparison with Delta Lake and Hudi, cloud storage optimization, and building large-scale data lakehouse through practical projects.

Apache-Iceberg Spark Flink Presto Trino Delta-Lake Hudi Cloud-Storage Data-Lakehouse Big-Data-Ecosystem

📚 Apache iceberg complete guide Series Part 4

Bi engineering September 24, 2025 Data Droid

Part 1: HyperLogLog Fundamentals and Cardinality Estimation - Efficient Unique Value Counting in Big Data

Master the complete guide to HyperLogLog algorithm from principles to practical applications, efficiently estimating cardinality in large-scale data.

HyperLogLog Cardinality-Estimation Big-Data BI-Engineering Real-time-Analytics Streaming Performance-Optimization

📚 Modern bi engineering Series Part 2

Bi engineering September 25, 2025 Data Droid

Part 2: HyperLogLog Production Application and Optimization - Building Production-grade BI Systems

HyperLogLog Production-Application Performance-Optimization BI-Systems Production Streaming Real-time-Analytics

📚 Modern bi engineering Series Part 3

Bi engineering September 26, 2025 Data Droid

Part 3: HyperLogLog and Advanced Probabilistic Algorithms - Completion of Modern BI Analytics

HyperLogLog Probabilistic-Algorithms Advanced-Analytics BI-Systems Streaming-Analytics Real-time-Processing Big-Data

📚 Modern bi engineering Series Part 4

Data engineering September 28, 2025 Data Droid

Part 1: Time Series Database Fundamentals and Architecture - Complete Guide to Modern TDB

Complete guide to Time Series Database fundamentals, architecture, and optimization principles. Learn about InfluxDB, TimescaleDB, Prometheus, and practical implementation strategies.

Time-Series-Database TDB InfluxDB TimescaleDB Prometheus IoT Real-time-Analytics Data-Architecture

📚 Time series database master Series Part 2

Data engineering September 29, 2025 Data Droid

Part 2: Time Series Database Advanced Features and Optimization - Building Production-grade TDB Systems

Complete guide to advanced TDB features, distributed architecture, high availability, and performance tuning for production environments.

Time-Series-Database Advanced-Optimization Distributed-Architecture High-Availability Performance-Tuning Production Clustering

📚 Time series database master Series Part 3

Data engineering September 29, 2025 Data Droid

Part 3: Time Series Database Integration and Deployment - Completing the Modern TDB Ecosystem

Complete guide to TDB integration with other systems, cloud-native architecture, latest trends, and actual production deployment strategies for the modern TDB ecosystem.

Time-Series-Database System-Integration Cloud-Native Production-Deployment Modern-Architecture Microservices DevOps

📚 Time series database master Series Part 4

Data quality September 30, 2025 Data Droid

Complete Guide to Data Quality Management with dbt - Core of Modern Data Pipelines

Everything about data quality management using dbt and major data platforms. A complete practical guide with Snowflake, BigQuery, Redshift, and more.

dbt DataQuality Snowflake BigQuery Redshift Databricks dbtCloud DataPipeline

📚 Modern data stack Series Part 2

Bi engineering October 01, 2025 Data Droid

Complete Guide to BA (Business Analytics) Terminology - Essential Concepts for Data Analysts

A comprehensive guide to core terminology in the Business Analytics field. Covering everything from analytical techniques to business metrics and tools.

BusinessAnalytics BATerminology DataAnalysis BI AnalyticalTechniques BusinessMetrics DataTools

📚 Modern bi analytics Series Part 2

Data engineering October 12, 2025 Data Droid

S3 vs HDFS Partitioning Strategy - Optimizing Data Lake for the Cloud Era

Why yyyy/mm/dd partitioning from HDFS era causes performance issues in S3, and S3-optimized partitioning strategies with actual query performance comparisons.

S3 HDFS Partitioning DataLake CloudStorage Spark Athena Performance Optimization

📚 Cloud data architecture Series Part 2

Data engineering October 17, 2025 Data Droid

Parquet vs ORC vs Avro Real-World Comparison - Complete Guide to Data Lake File Formats

Complete comparison of core data lake file formats Parquet, ORC, and Avro from internal structure to performance, compression ratio, and compatibility with actual benchmarks.

Parquet ORC Avro DataLake FileFormat Performance Compression Spark Hive

📚 Cloud data architecture Series Part 3

Data engineering October 21, 2025 Data Droid

Delta Lake vs Iceberg vs Hudi Real-World Comparison - Complete Guide to Table Formats

Complete comparison of core data lakehouse table formats Delta Lake, Apache Iceberg, and Apache Hudi from architecture to ACID, Time Travel, and performance with actual benchmarks.

DeltaLake Iceberg Hudi DataLakehouse TableFormat ACID TimeTravel Spark

📚 Cloud data architecture Series Part 4

Data engineering February 22, 2026 Data Droid

LSM Tree and Bloom Filter - Core Data Structures of Modern Databases

Complete guide to LSM Tree and Bloom Filter principles and practical applications widely used in modern databases.

LSM-Tree Bloom-Filter Database DataStructure NoSQL RocksDB LevelDB PerformanceOptimization

Data engineering February 25, 2026 Data Droid

Apache Spark 4.1 - Streaming Revolution and Comparison with Flink

Complete guide to Spark 4.1's real-time processing improvements, differences with Flink, and evolution to true streaming.

Apache-Spark Spark-4.1 Structured-Streaming Apache-Flink Real-time-Processing Streaming Micro-batch Continuous-Processing

Data engineering March 02, 2026 Data Droid

Databricks Ecosystem Deep Dive - Open Source Foundations and Governance

A deep dive into how Databricks unifies data ingestion, storage, analytics, ML, and governance on top of open source projects like Apache Spark, Delta Lake, MLflow, and Unity Catalog, plus how it works with dbt.

Databricks Lakehouse Delta-Lake Apache-Spark MLflow Unity-Catalog dbt Data-Governance

Data engineering March 06, 2026 Data Droid

Unity Catalog and dbt Deep Dive - Lakehouse Governance Best Practices

Deep dive into how to combine Unity Catalog and dbt for lakehouse governance: namespaces, permission models, environment strategy, tests vs policies, and lineage.

Unity-Catalog dbt Databricks Lakehouse Data-Governance Data-Lineage Data-Quality

Data engineering March 09, 2026 Data Droid

Snowflake Architecture and Databricks Comparison - When to Use Which

Compare Snowflake's platform architecture with Databricks, positioning differences, use-case recommendations, and combined usage patterns.

Snowflake Databricks Lakehouse Data-Warehouse Cloud-Data-Platform Data-Architecture

Data engineering March 13, 2026 Data Droid

Building a Full-Stack Side Project with Cursor AI - The CareerWeb Journey

A complete walkthrough of building CareerWeb, a job posting tracker, from scratch using Cursor AI as a pair programming partner. Covers tech stack decisions, LLM integration, Notion automation, and ATS analysis.

Cursor AI-Pair-Programming React FastAPI Gemini Notion-API Side-Project

Infrastructure tools March 23, 2026 Data Droid

Building iOS Apps with AI Coding Agents - My Recipe Book & Coffee Journal Journey

I had zero iOS development experience. Using Flexibility AI for market research and feature specification, and Cursor for development, I built Recipe Book and Coffee Journal apps. Here's the full story.

Cursor Flexibility-AI iOS Swift SwiftUI AI-Coding-Agent Side-Project Mobile-App

📚 Blog Archive

📅 Archive by Year

🏷️ By Category