Listen

Description

Big Data系列的第二期,这一期由曹老师带来偏向底层技术的 Big Data Infra大数据平台架构介绍。花费您40多分钟,获得和别人侃侃而谈Spark/Flink/Kafka等等内容的能力,不亏!

本期内容会涵盖:

上期节目传送:ep103 当我们谈论大数据时,我们在谈论什么?Big Data Small Talk 

欢迎收听,欢迎大家一路的支持!!!

主播:曹老师

节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发!

01:14 数据平台是啥?

05:14 元数据(meta data)管理

08:36 数据任务的调度

12:23 什么叫ETL

15:40 离线数据 Hive/Spark是如何翻译SQL的?

18:04 Presto(Trino)更快查数据

21:39 存储:文件(HDFS)和KV键值对(BigTable)

24:21 数据湖(Data Lake): Hudi和Iceberg

25:57 完美处理日志数据:ElasticSearch和ClickHouse

29:39 实时数据 Flink和Spark Streaming

30:54 短视频平台是怎么实时调整推荐视频的?

33:53 实时数据怎么来/存哪里? Push/Sub 和 Kafka

39:20 实时和离线怎么结合:Lambda和Kappa框架