大数据 分类

《大规模数据处理实战》笔记

00 丨开篇词丨从这里开始，带你走上硅谷一线系统架构师之路

01 丨为什么 MapReduce 会被硅谷一线公司淘汰？

高昂的维护成本

时间性能“达不到”用户的期待

02 | MapReduce 后谁主沉浮：怎样设计下一代数据处理技术？

03 | 大规模数据处理初体验：怎样实现大型电商热销榜？

不同量级 TOP K 算法的解决方案不同：

小规模：Hash 即可

大规模：由于单机的处理量不足以处理全量数据，势必分而治之：分片统计，然后聚合（即先 map 后 reduce）

xuyong2023年3月15日大约 5 分钟

《从 0 开始学大数据》笔记

预习模块

01 丨预习 01 丨大数据技术发展史：大数据的前世今生

大数据技术，起源于 Google 在 2004 年前后发表的三篇论文：

xuyong2023年3月13日大约 28 分钟

大数据教程

xuyong2023年2月10日大约 3 分钟

大数据综合

📖 内容

xuyong2023年2月10日小于 1 分钟

Flink Table API & SQL

Apache Flink 有两种关系型 API 来做流批统一处理：Table API 和 SQL。Table API 是用于 Scala 和 Java 语言的查询 API，它可以用一种非常直观的方式来组合使用选取、过滤、join 等关系型算子。Flink SQL 是基于 Apache Calcite 来实现的标准 SQL。无论输入是连续的（流式）还是有界的（批处理），在两个接口中指定的查询都具有相同的语义，并指定相同的结果。

xuyong2022年3月18日大约 4 分钟

HDFS 教程

HDFS 是 Hadoop Distributed File System 的缩写，即 Hadoop 的分布式文件系统。

HDFS 是一种用于存储具有流数据访问模式的超大文件的文件系统，它运行在廉价的机器集群上。

HDFS 的设计目标是管理数以千计的服务器、数以万计的磁盘，将这么大规模的服务器计算资源当作一个单一的存储系统进行管理，对应用程序提供数以 PB 计的存储容量，让应用程序像使用普通文件系统一样存储大规模的文件数据。

HDFS 是在一个大规模分布式服务器集群上，对数据分片后进行并行读写及冗余存储。因为 HDFS 可以部署在一个比较大的服务器集群上，集群中所有服务器的磁盘都可供 HDFS 使用，所以整个 HDFS 的存储空间可以达到 PB 级容量。

xuyong2022年2月21日大约 1 分钟

Flink 运维

docker 安装 flink

（1）使用 docker 命令拉取镜像

docker pull flink

xuyong2022年2月21日大约 3 分钟

Flink 教程

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。

📖 内容

Flink 入门

xuyong2022年2月21日小于 1 分钟

Flink简介

关键概念：源源不断的流式数据处理、事件时间、有状态流处理和状态快照

流处理

任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录，所有这些数据都形成一种流。

数据可以被作为无界或者有界流来处理。

无界流 有定义流的开始，但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理，即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理，因为输入是无限的，在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件，例如事件发生的顺序，以便能够推断结果的完整性。
有界流 有定义流的开始，也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序，所以并不需要有序摄取。有界流处理通常被称为批处理。

xuyong2022年2月17日大约 22 分钟

Flink ETL

Apache Flink 的一种常见应用场景是 ETL（抽取、转换、加载）管道任务。从一个或多个数据源获取数据，进行一些转换操作和信息补充，将结果存储起来。在这个教程中，我们将介绍如何使用 Flink 的 DataStream API 实现这类应用。

这里注意，Flink 的 Table 和 SQL API 完全可以满足很多 ETL 使用场景。但无论你最终是否直接使用 DataStream API，对这里介绍的基本知识有扎实的理解都是有价值的。

xuyong2022年2月17日大约 12 分钟