1.【开源项目】轻量元数据管理解决方案——Marquez
2.DeepLearning4J安装教程-Windows版
3.特征平台(Feature Store):Tecton
【开源项目】轻量元数据管理解决方案——Marquez
轻量级元数据管理解决方案——Marquez
Marquez,由WeWork开源的元数据管理工具,专为简化数据生态系统元数据的收集、聚合和可视化而设计。它提供了一个轻量级的元数据服务,帮助用户全面掌握数据集的牛熊分界变色副图指标源码产生和消费情况,以及数据处理过程的可视化,并集中管理数据集的生命周期。
Marquez在持续发展中,当前标星数为1.5K,最新版本发布于三周前的0..1,主要使用Java和TS语言开发。部署方式与Java项目类似,只需启动对应Web端服务和API服务。Marquez的血缘API简洁高效,便于建立数据血缘依赖关系,确保数据分析质量。如需获取安装包、源代码及学习资料,网上申报系统源码可访问官网或使用大数据流动后台回复“Marquez”。
Marquez的安装流程简洁,通过命令行即可快速完成。启动命令如下:$ git clone github.com/MarquezProject/marquez && cd marquez$ ./docker/up.sh --seed,之后通过访问/OpenLineage/...", "schemaURL": "openlineage.io/spec/1-0..." }' 完成任务后,使用类似代码进行:$ curl -X POST /OpenLineage/...", "_schemaURL": "github.com/OpenLineage/...", "fields": [ { "name": "a", "type": "VARCHAR"}, { "name": "b", "type": "VARCHAR"} ] } } }], "producer": "github.com/OpenLineage/...", "schemaURL": "openlineage.io/spec/1-0..." }' 正常运行应接收到 CREATED的响应,并在页面上找到血缘展示。
Marquez不仅简化了元数据管理,还提供了标准的元数据采集方案,目前支持Spark、Airflow的表级别和列级别数据血缘收集,而Flink仅支持表级别的血缘收集。Marquez未来有望支持更多数据源,共同期待其发展。
DeepLearning4J安装教程-Windows版
Deeplearning4J(简称DL4J)是一个基于JVM、面向行业应用并提供商业支持的分布式深度学习框架。其主要目标是在合理的时间内解决涉及大量数据的问题,与Hadoop和Spark集成,中文 心型源码支持任意数量的GPU或CPU运行。DL4J是当前最大且最流行的使用JAVA的深度学习框架。
在Windows环境下安装DL4J,需要准备以下软件:Java(版本7及以上且位),Eclipse或Intellij IDEA(推荐使用),Apache Maven,Git。
首先,安装Java。选择Java运行环境(JRE)和Java开发工具包(JDK),下载并安装。确保安装路径正确,并在系统环境变量中配置JAVA_HOME和Path。
接着,安装IntelliJ IDEA。访问官网下载专业版,进行下载、解压、最新源码分享安装和配置。IDEA提供了强大的Java开发功能,包括智能代码助手、代码自动提示、重构、J2EE支持、版本控制等。
然后,安装Maven。从Apache Maven官网下载最新版本(本文下载的是3.6.3),解压并配置环境变量。通过命令行测试Maven是否安装成功。
在IDEA中配置Maven。在设置中找到“Build, Execution, Deployment”->“Build Tools”->“Maven”,进行相关配置。同时,编辑“settings.xml”文件,修改本地仓库地址和添加阿里云镜像服务器,php源码生成连接配置profiles标签以适应不同的项目需求。
安装Git。从Git官网下载安装程序,进行安装配置,包括选择安装路径、安装组件、开始菜单页、Git文件默认编辑器、分支名称、调整环境、HTTPS后端传输、行尾符号转换、终端模拟器、默认的“git pull”行为、选择凭证帮助、配置额外选项和实验选项。
获取DL4J示例代码,通过Git clone命令下载示例项目。然后,在IDEA中导入项目并使用Maven安装项目依赖。运行示例代码,如鸢尾花分类示例IrisClassifier,注意可能遇到的“Command line is too long”错误,并相应调整IDEA配置。
通过以上步骤,便完成了DL4J在Windows环境下的安装与配置,可进行深度学习项目的开发与运行。
特征平台(Feature Store):Tecton
回顾年8月发布的SaaS版本特征平台Tecton,它源自开源项目Feast。Tecton团队吸纳了Feast的核心开发者Willem Pienaar,成为Feast的重要贡献者。这一操作类似Git与Gitlab、Nginx与Nginx plus、Docker CE与Docker EE、Spark与Databricks Runtime的模式,前者作为基础,后者在其上构建商业服务。 Tecton和Feast共享同源,但Tecton作为商业产品,功能更为完善。Tecton不仅提供特征管理与消费服务,还集成特征计算与监控能力,形成一站式平台解决方案,实现从特征生产到消费的全流程管理。 在部署模式上,Tecton与Feast有明显差异。Feast整体架构简单,用户自行部署,不涉及能力划分。而作为SaaS产品的Tecton,区分控制面与数据面,例如在AWS环境下,通过Spark(AWS EMR服务或Databricks Runtime)处理特征计算、生成训练数据。 存储层面,两者都使用DynamoDB作为在线存储,但Tecton采用Delta Lake数据湖方案,而Feast使用AWS RedShift云数据库。在使用流程方面,虽然表面相似,但Tecton的实现细节更为丰富,包括特征生成、回填、监控等。架构设计分析
特征消费与生产
Tecton通过内置的特征计算能力,解决实时性问题,并提供自动化特征生产机制。用户可通过Feature View语法,实现特征的导入或生成,通过Spark作业执行ETL和聚合操作,数据来源多样,目标存储为offline store和online store。流批一体化与特征回填
Tecton利用Databricks的流批一体化API,自动完成特征回填,简化了用户操作,并解决数据源差异与处理逻辑复杂性问题。这一解决方案兼容批处理与流处理,增强训练数据生成的可行性与性能。贯穿全生命周期的监控
Tecton提供数据领域与业务领域的监控指标,如Spark作业状态、特征新鲜度等,并具备告警功能。在特征消费层面,通过REST API和SDK,集中监控吞吐、时延、成功率等关键业务指标。潜在问题与总结
作为非开源产品,Tecton的实现细节和常见问题解决方案难以深入探讨。尽管如此,Tecton在特征管理与计算、部署灵活性、数据处理与监控等方面,展现出强大的功能与优势。展望未来,将深入探讨Databricks推出的Feature Store,进一步丰富特征平台领域的知识与实践。