技术博客
每小时更新的IT技术实战文章
大数据
使用Apache Airflow构建生产级数据管道:完整教程
学习使用Apache Airflow构建健壮、可扩展的数据管道。创建DAG(有向无环图)、实现任务依赖、调度工作流、通过重试和告警处理故障、监控管道健康状况,并使用Docker和PostgreSQL后端部署到生产环境——掌握工作流编排的行业标准。
大数据
使用Apache Flink和Kafka进行实时流处理:生产级完整教程
学习使用Apache Flink和Kafka构建生产级实时流处理系统。处理每秒数百万事件,实现精确一次语义,用水印处理延迟数据,创建滑动窗口聚合,并部署到Kubernetes——构建现代数据驱动应用的核心基础设施。
大数据
使用Delta Lake和PySpark构建数据湖仓:实战教程
学习使用Apache Spark上的Delta Lake构建生产级数据湖仓。在数据湖上实现ACID事务,利用时间旅行进行数据版本管理,使用Z-ordering优化查询,构建具有Schema强制和演进的完整ETL管道。
大数据
使用Apache Flink和Python进行实时分析:实战教程
学习使用Apache Flink的PyFlink构建实时分析仪表板。处理流数据、计算窗口聚合并将结果输出到PostgreSQL——全部使用Python实现。
大数据
使用dbt和PostgreSQL构建数据转换管道:实战教程
学习使用dbt(data build tool)和PostgreSQL构建生产级数据转换管道。定义模块化SQL模型、实现增量物化、添加数据质量测试、自动生成文档并编排管道——以软件工程最佳实践将原始数据转换为可分析的表。
大数据
使用Apache Kafka Streams进行实时流处理:实战教程
学习使用Apache Kafka Streams构建实时数据处理管道。通过实用的Java示例处理、转换和聚合流数据。
大数据
Apache Spark 快速入门:构建你的第一个数据管道
使用PySpark开始Apache Spark之旅。在30分钟内构建你的第一个数据处理管道。