Published on2022年11月18日【大数据架构之旅】2 从零起步学 dbt大数据DBTdbt 可谓是最近在大数据领域风头最盛的仔之一,主要解决的是 ELT 中 T(ransform) 这个环节的问题,最大的优势就是将软件工程的精髓带入到了数据处理和分析中。
Published on2022年8月27日【大数据架构之旅】1 深入理解 CDC大数据架构CDCCDC 即 Change Data Capture,是一种用以掌控数据变化的软件架构。本文深入理解 CDC 的概念、实现方法以及批处理与 CDC 的对比,并详解 Oracle CDC 的机制与实现。
Published on2022年8月27日【大数据架构之旅】系列概览大数据架构概览从 CDC 到 dbt 和 Dagster,深入理解现代大数据架构的核心组件与最佳实践。本系列涵盖数据变更捕获、数据转换与调度等关键技术,帮助构建可维护、可扩展的数据工程体系。
Published on2021年12月31日2021 总结与 2022 计划总结计划一年之中最幸福的时刻大概是回顾一整年,发现自己成长了不少。整理了一下今年的12个关键词,和去年对比之后发现:一半和过去一样,是为传承;另一半崭新崭新,是为探索。细细想来,我们都是用过去武装自己迈向未来,不断把想象中的将来变成现在的过程,就是人生吧。
Published on2021年9月26日【联邦学习之旅】C3 Eggroll 关键过程源码解析联邦学习FATEEggroll在上一篇文章中,我们通过源码了解了具体 Task 的执行以及数据传输的方式。经过抽丝剥茧我们最终来到了 eggroll 这个项目的代码逻辑,本文就从 eggroll 的角度来介绍 Task 的执行的最底层逻辑。
Published on2021年9月23日【联邦学习之旅】C2 FATE Flow 关键过程源码解析联邦学习FATEFATEFlowFederatedml在上一篇文章中,我们通过源码来初步了解了一下调度器 FATE Flow 的工作原理,内容比较多且杂。而在实际的工作中,我们往往需要关注的是更加细致的处理细节,本文将挑选一些要点来进行解析和说明。