数据治理
机制上如何保证数据质量1. 建立数据质量评价体系1.1 选取评估方向:完整性/一致性/准确性/时效性
1.2 用指标量化评估方向:完整性:记录数和唯一值
一致性:数据和数据定义是否一致,一致性的比率
准确性:数据值是否在预期范围,数据波动情况
时效性:数据产出时间
数据质量六维定义:
完整 ...
Flink 1.17
Flink 1.17概述
快速上手
部署
运行时架构
DataStream API
时间和窗口
处理函数(ProcessFunction)
状态管理
容错机制
Flink SQL
《深入理解Kafka》读书笔记
第1章 初识KafkaKafka是一个多分区、多副本且基于ZooKeeper协调的分布式消息系统。
Kafka的三大角色:
消息系统:具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能,同时还提供消息顺序性保障及回溯消费的功能。
存储系统:Kafka把消息持久化到磁盘。可以把 ...
《大数据处理框架Apache Spark设计与实现》读书笔记
第一章 大数据处理框架概览大数据处理框架的四层结构
用户层
输入数据
用户代码
配置参数
分布式数据并行处理层先将用户提交的应用转化为较小的计算任务,然后通过调用底层的资源管理与任务调度层实现并行执行
Spark上应用的转化过程包含两层:逻辑处理流程、执行阶段与执行任务划分
Spark首先根据 ...
离线数仓架构
数仓架构图[[数仓分层架构图]]
[[数仓整体架构图]]
Binlog merge原理原理:
将新增binlog和ods中涉及到的时间分区的数据取出来做union all操作,开窗,Partition by主键,Order by 版本号 desc,Order by binlog_type desc, ...
数仓架构图
数仓整体架构图
数仓分层架构图
Java泛型
定义泛型接口、类123456789101112131415161718192021222324//定义接口时指定了一个泛型形参,该形参名为Epublic interface List<E> { //在该接口里,E可作为类型使用 //下面方法可以使用E作为参数类型 void ...
Java类加载机制与反射
类的加载当程序主动使用某个类时,如果该类还未被加载到内存中,则系统会通过加载、连接、初始化三个步骤来对该类进行初始化。
类加载指的是将类的class文件读入内存,并为之创建一java.lang.Class对象,也就是说,当程序中使用任何类时,系统都会为之建立一个java.lang.Class对象。
...
Java面向对象
static定义static用于修饰方法、成员变量等成员。static修饰的成员表明它属于这个类本身,而不属于该类的单个实例,通常把static修饰的成员变量和方法也成为类变量、类方法。不使用static修饰的普通方法、成员变量则属于该类的单个实例,而不属于该类,通常把不适用static修饰的成员变 ...
《Hive编程指南》第8章:HiveQL:索引
第8章:HiveQL:索引Hive没有普通关系型数据库中键的概念,但是还是可以对一些字段建立索引来加速某些操作的。一张表的索引数据存储在另外一个表中。
创建索引