1.HDFS和Burst都是源码阅读基于POC共识机制,有什么区别?
2.数据资产管理平台体系拆解(4):元数据管理
3.大数据笔试真题集锦---第五章:Hive面试题
4.Alluxio 客户端源码分析
HDFS和Burst都是源码阅读基于POC共识机制,有什么区别?
据我了解,源码阅读POC(容量证明)共识机制是源码阅读Burst团队在年研发的,其共识优势是源码阅读设备成本低、利用空闲资源,源码阅读string 源码包实现了人人皆可锻造的源码阅读可能性。Burst将项目源代码进行共享。源码阅读虽然由于经济模型和奖机制的源码阅读问题,Burst项目并没有获得传统意义上的源码阅读成功,但其源代码的源码阅读分享为后来者提供许多启发。
而HDFS则是源码阅读基于Burst开发的POC共识机制,对POC进行了优化和升级,源码阅读弥补了POC存在的源码阅读一些不足之处。至于详细优化了哪些,源码阅读你可以去看看HDFS的白皮书。
数据资产管理平台体系拆解(4):元数据管理
阅读本文需要分钟,以数据之名,践资产之行。
1、以数据之名 简介
2、元数据的基本概念
2.1 抽象概念
元数据,简单来说就是描述数据的数据。元数据无处不在,换言之有数据存在,就有其对应元数据。完整、准确的元数据存在,有助于更好地理解数据本体,充分挖掘数据的价值。
单存的从概念来讲,确实比较抽象,我们对元数据的理解还是很模糊。那么让我们先看一段简历达人"张三"的个人简历。
这份简历中的"电话"、"工作经验"、"年龄"、"邮箱"、"教育背景"等对于张三本人的分发系统源码 多级关键描述信息,就是元数据,因为它们是用来描述具体数据/信息的数据/信息。这样引用论证的方式,是不是让我们对元数据的概念一瞬间立体起来啦。
2.2 具体概念
对于企业应用的具体概念,元数据是企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。
元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性。
3、元数据的价值
通过元数据管理,形成整个系统信息数据资产的精准视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。
元数据是企业数据资产的基础应用字典和操作指南,元数据管理有利于统一数据口径、标明数据方位、分析数据关系、管理数据变更,为企业级的数据治理提供支持,是hive开窗函数源码企业实现数据自服务、推动企业数据化运营的可行路线。
4、元数据分类
4.1 业务元数据
4.2 管理元数据
4.3 技术元数据
描述对象存储的元数据,也是通常"狭义"上的元数据,包括几大类:
描述离线或实时ETL任务数据计算过程的元数据。
描述数据质量的一类元数据。
描述数据是如何进行使用的一类元数据。
描述系统运维层面的元数据,通常包括以下几类。
描述数据存储及计算成本的元数据。
描述数据标准化内容的元数据。
描述数据安全内容的元数据。
描述数据是如何共享的部分,通常使用以下几种方式:
5、元数据管理办法
5.1 关键活动
5.2 管理流程
我们可以采用角色与组织联动,制定一套标准化元数据管理流程体系,贯穿于整个数据采集、管理分析与数据服务端到端的实施过程,来完善整体的元数据管理体系。
6、元数据管理功能
6.1 元数据采集
元数据管理平台通过不同的数据采集适配器,能支持从不同的数据源中采集从生产业务系统、数据中转系统、数据应用系统等端到端应用链路的数据流转过程的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑元数据。同时还能制定采集任务定时采集,减少人工操作的IT成本。
6.2 元数据访问
元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持Http、文件、接口库等对接形式。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。
6.3 元数据管理
实现元数据的模型定义并存储,在功能层包装成各类元数据功能,A算法js源码最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。
6.4 元数据分析
元数据的应用一般包括数据地图、数据血缘分析、关联性分析、影响分析、全链分析等,分析出元数据的来龙去脉,快速识别元数据的价值,掌握元数据变更可能造成的影响,以便更有效的评估变化带来的风险,从而帮助用户高效准确的对数据资产进行清理、维护与使用。
7、元数据管理功能架构
备注:权限管理中心,走平台统一鉴权SSO
8、元数据血缘解析
8.1 血缘解析引擎构建
基于数据资产开发平台作为开发统一入口的前提,构建元数据血缘引擎服务体系。引擎体系:SQL、Kettle 、Xml、Excel、Interface、Service、Workflow 、Datax等任务体系:DMP(Datax任务、SQL任务、Shell任务、报表任务、监控任务)、KMP(Kettle任务)、DMS(接口和服务)、BMP(工作流和调度器)等目标方向:基于血缘解析引擎解析落地元数据,提供可视化的标准ETL任务元数据血缘查询服务,以及KMP/DMP/BMP三大平台任务关联性和影响性分析服务。
8.2 血缘解析引擎机制
基于DMP数据管理开发平台,快速实施个性化报表开发的最新 换脸源码端到端流程图,其中任务开发、血缘查询和血缘确认环节为开发人员手动实施流程,其余环节为平台系统自动化实施流程,具体如下图所示:
9、元数据功能预览
9.1 血缘分析
9.2 影响分析
9.3 全链分析
9.4 关联度分析
9.5 元数据全文检索
、数据平台文章集锦
数据资产管理平台体系拆解(1):“平台概述”
数据资产管理平台体系拆解(2):“系统分解”
数据资产管理平台体系拆解(3):“数据模型”
MySQL死磕到底系列第一篇“围城之困”
MySQL死磕到底系列第二篇“破冰之旅”
MySQL死磕到底系列第三篇“踏浪之途”
MySQL死磕到底系列第四篇“刨根之程”
MyCAT来生续缘第三篇
无Hive,不数仓
基于Hive+HBase双引擎完善数据仓库更新机制
基于TiDB构建高性能综合数据服务平台
基于Kettle快速构建基础数据仓库平台
金融数据仓库之分层命名规范
一入数据深似海,集市仓库湖中台
湖不湖实战系列之Hudi构建湖仓一体架构
湖不湖实战系列之Hudi源码编译
湖不湖实战系列之Spark2部署升级
湖不湖实战系列之Spark2构建HDFS到Hudi通路
湖不湖实战系列之Spark2构建Hive到Hudi通路
BI选型哪家强,以数据之名挑大梁
数仓小白快速成长为技术专家视频资料集合
小编心声 虽小编一己之力微弱,但读者众星之光璀璨。小编敞开心扉之门,还望倾囊赐教原创之文,期待之心满于胸怀,感激之情溢于言表。一句话,欢迎联系小编投稿您的原创文章! 让我们携手成为技术专家
参考资料
[1] 元数据分类参考1: baijiahao.baidu.com/s?...
[2] 元数据分类参考2: baijiahao.baidu.com/s?...
[3] 数据资产白皮书5.0:中国信通院
[4] Markdown模板: product.mdnice.com/arti...
大数据笔试真题集锦---第五章:Hive面试题
我会不间断地更新维护,希望对正在寻找大数据工作的朋友们有所帮助。 第五章目录 第五章 Hive 5.1 Hive 运行原理(源码级) 1.1 reduce端join 在reduce端,对两个表的数据分别标记tag,发送数据。根据分区分组规则获取相同key的数据,再根据tag进行join操作,完成实际连接。 1.2 map端join 将小表复制到每个map task的内存中,仅扫描大表,对大表中key在小表中存在时进行join操作。使用DistributedCache.addCacheFile设置小表,通过标准IO获取数据。 1.3 semi join 先将参与join的表1的key复制到表3中,复制多份到各map task,过滤不在新表3的表2数据,最后进行reduce。 5.2 Hive 建表5.3.1 传统方式建表
定义数据类型,如:TINYINT, STRING, TIMESTAMP, DECIMAL。 使用ARRAY, MAP, STRUCT结构。5.3.2 CTAS查询建表
创建表时指定表名、存储格式、数据来源查询语句。 缺点:默认数据类型范围限制。5.3.3 Like建表
通过复制已有表的结构来创建新表。5.4 存储格式和压缩格式
选择ORC+bzip/gzip作为源存储,ORC+Snappy作为中间存储。 分区表单文件不大采用gzip压缩,桶表使用bzip或lzo支持分片压缩。 设置压缩参数,如"orc.compress"="gzip"。5.5 内部表和外部表
外部表使用external关键字和指定HDFS目录创建。 内部表在创建时生成对应目录的文件夹,外部表以指定文件夹为数据源。 内部表删除时删除整个文件夹,外部表仅删除元数据。5.6 分区表和分桶表
分区表按分区字段拆分存储,避免全表查询,提高效率。 动态分区通过设置参数开启,根据字段值决定分区。 分桶表依据分桶字段hash值分组拆分数据。5.7 行转列和列转行
行转列使用split、explode、laterview,列转行使用concat_ws、collect_list/set。5.8 Hive时间函数
from_unixtime、unix_timestamp、to_date、month、weekofyear、quarter、trunc、current_date、date_add、date_sub、datediff。 时间戳支持转换和截断,标准格式为'yyyy-MM-dd HH:mm:ss'。 month函数基于标准格式截断,识别时截取前7位。5.9 Hive 排名函数
row_number、dense_rank、rank。5. Hive 分析函数:Ntile
效果:排序并分桶。 ntile(3) over(partition by A order by B)效果,可用于取前%数据统计。5. Hive 拉链表更新
实现方式和优化策略。5. Hive 排序
order by、order by limit、sort by、sort by limit的原理和应用场景。5. Hive 调优
减少distinct、优化map任务数量、并行度优化、小文件问题解决、存储格式和压缩格式设置。5. Hive和Hbase区别
Hive和Hbase的区别,Hive面向分析、高延迟、结构化,Hbase面向编程、低延迟、非结构化。5. 其他
用过的开窗函数、表join转换原理、sort by和order by的区别、交易表查询示例、登录用户数量查询、动态分区与静态分区的区别。Alluxio 客户端源码分析
Alluxio是一个用于云分析和人工智能的开源数据编排技术,作为分布式文件系统,采用与HDFS相似的主从架构。系统中包含一个或多个Master节点存储集群元数据信息,以及Worker节点管理缓存的数据块。本文将深入分析Alluxio客户端的实现。
创建客户端逻辑在类alluxio.client.file.FileSystem中,简单示例代码如下。
客户端初始化包括调用FileSystem.Context.create创建客户端对象的上下文,在此过程中需要初始化客户端以创建与Master和Worker连接的连接池。若启用了配置alluxio.user.metrics.collection.enabled,将启动后台守护线程定时与Master节点进行心跳传输监控指标信息。同时,客户端初始化时还会创建负责重新初始化的后台线程,定期从Master拉取配置文件的哈希值,若Master节点配置发生变化,则重新初始化客户端,期间阻塞所有请求直到重新初始化完成。
创建具有缓存功能的客户端在客户端初始化后,调用FileSystem.Factory.create进行客户端创建。客户端实现分为BaseFileSystem、MetadataCachingBaseFileSystem和LocalCacheFileSystem三种,其中MetadataCachingBaseFileSystem和LocalCacheFileSystem对BaseFileSystem进行封装,提供元数据和数据缓存功能。BaseFileSystem的调用主要分为三大类:纯元数据操作、读取文件操作和写入文件操作。针对元数据操作,直接调用对应GRPC接口(例如listStatus)。接下来,将介绍客户端如何与Master节点进行通信以及读取和写入的流程。
客户端需要先通过MasterInquireClient接口获取主节点地址,当前有三种实现:PollingMasterInquireClient、SingleMasterInquireClient和ZkMasterInquireClient。其中,PollingMasterInquireClient是针对嵌入式日志模式下选择主节点的实现类,SingleMasterInquireClient用于选择单节点Master节点,ZkMasterInquireClient用于Zookeeper模式下的主节点选择。因为Alluxio中只有主节点启动GRPC服务,其他节点连接客户端会断开,PollingMasterInquireClient会依次轮询所有主节点,直到找到可以连接的节点。之后,客户端记录该主节点,如果无法连接主节点,则重新调用PollingMasterInquireClient过程以连接新的主节点。
数据读取流程始于BaseFileSystem.openFile函数,首先通过getStatus向Master节点获取文件元数据,然后检查文件是否为目录或未写入完成等条件,若出现异常则抛出异常。寻找合适的Worker节点根据getStatus获取的文件信息中包含所有块的信息,通过偏移量计算当前所需读取的块编号,并寻找最接近客户端并持有该块的Worker节点,从该节点读取数据。判断最接近客户端的Worker逻辑位于BlockLocationUtils.nearest,考虑使用domain socket进行短路读取时的Worker节点地址一致性。根据配置项alluxio.worker.data.server.domain.socket.address,判断每个Worker使用的domain socket路径是否一致。如果没有使用域名socket信息寻找到最近的Worker节点,则根据配置项alluxio.user.ufs.block.read.location.policy选择一个Worker节点进行读取。若客户端和数据块在同一节点上,则通过短路读取直接从本地文件系统读取数据,否则通过与Worker节点建立GRPC通信读取文件。
如果无法通过短路读取数据,客户端会回退到使用GRPC连接与选中的Worker节点通信。首先判断是否可以通过domain socket连接Worker节点,优先选择使用domain socket方式。创建基于GRPC的块输入流代码位于BlockInStream.createGrpcBlockInStream。通过GRPC进行连接时,每次读取一个chunk大小并缓存chunk,减少RPC调用次数提高性能,chunk大小由配置alluxio.user.network.reader.chunk.size.bytes决定。
读取数据块完成后或出现异常终止,Worker节点会自动释放针对该块的写入锁。读取异常处理策略是记录失败的Worker节点,尝试从其他Worker节点读取,直到达到重试次数上限或没有可用的Worker节点。
若无法通过本地Worker节点读取数据,则客户端尝试发起异步缓存请求。若启用了配置alluxio.user.file.passive.cache.enabled且存在本地Worker节点,则向本地Worker节点发起异步缓存请求,否则向负责读取该块数据的Worker节点发起请求。
数据写入流程首先向Master节点发送CreateFile请求,Master验证请求合法性并返回新文件的基本信息。根据不同的写入类型,进行不同操作。如果是THROUGH或CACHE_THROUGH等需要直接写入底层文件系统的写入类型,则选择一个Worker节点处理写入到UFS的数据。对于MUST_CACHE、CACHE_THROUGH、ASYNC_THROUGH等需要缓存数据到Worker节点上的写入类型,则打开另一个流负责将每个写入的块缓存到不同的Worker上。写入worker缓存块流程类似于读取流程,若写入的Worker与客户端在同一个主机上,则使用短路写直接将块数据写入Worker本地,无需通过网络发送到Worker上。数据完成写入后,客户端向Master节点发送completeFile请求,表示文件已写入完成。
写入失败时,取消当前流以及所有使用过的输出流,删除所有缓存的块和底层存储中的数据,与读取流程不同,写入失败后不进行重试。
零拷贝实现用于优化写入和读取流程中WriteRequest和ReadResponse消息体积大的问题,通过配置alluxio.user.streaming.zerocopy.enabled开启零拷贝特性。Alluxio通过实现了GRPC的MethodDescriptor.Marshaller和Drainable接口来实现GRPC零拷贝特性。MethodDescriptor.Marshaller负责对消息序列化和反序列化的抽象,用于自定义消息序列化和反序列化行为。Drainable扩展java.io.InputStream,提供将所有内容转移到OutputStream的方法,避免数据拷贝,优化内容直接写入OutputStream的过程。
总结,阅读客户端代码有助于了解Alluxio体系结构,明白读取和写入数据时的数据流向。深入理解Alluxio客户端实现对于后续阅读其他Alluxio代码非常有帮助。
2024-11-29 23:36
2024-11-29 23:33
2024-11-29 23:27
2024-11-29 22:55
2024-11-29 22:49
2024-11-29 21:54