1.【开源项目】轻量元数据管理解决方案——Marquez
2.DeepLearning4J安装教程-Windows版
3.特征平台(Feature Store):Tecton
【开源项目】轻量元数据管理解决方案——Marquez
轻量级元数据管理解决方案——Marquez
Marquez,由WeWork开源的元数据管理工具,专为简化数据生态系统元数据的收集、聚合和可视化而设计。它提供了一个轻量级的元数据服务,帮助用户全面掌握数据集的自适应响应源码产生和消费情况,以及数据处理过程的可视化,并集中管理数据集的生命周期。
Marquez在持续发展中,当前标星数为1.5K,最新版本发布于三周前的0..1,主要使用Java和TS语言开发。部署方式与Java项目类似,只需启动对应Web端服务和API服务。Marquez的血缘API简洁高效,便于建立数据血缘依赖关系,确保数据分析质量。如需获取安装包、源代码及学习资料,free star 7.5源码可访问官网或使用大数据流动后台回复“Marquez”。
Marquez的安装流程简洁,通过命令行即可快速完成。启动命令如下:$ git clone github.com/MarquezProject/marquez && cd marquez$ ./docker/up.sh --seed,之后通过访问/OpenLineage/...", "schemaURL": "openlineage.io/spec/1-0..." }' 完成任务后,使用类似代码进行:$ curl -X POST /OpenLineage/...", "_schemaURL": "github.com/OpenLineage/...", "fields": [ { "name": "a", "type": "VARCHAR"}, { "name": "b", "type": "VARCHAR"} ] } } }], "producer": "github.com/OpenLineage/...", "schemaURL": "openlineage.io/spec/1-0..." }' 正常运行应接收到 CREATED的响应,并在页面上找到血缘展示。
Marquez不仅简化了元数据管理,还提供了标准的元数据采集方案,目前支持Spark、Airflow的表级别和列级别数据血缘收集,而Flink仅支持表级别的血缘收集。Marquez未来有望支持更多数据源,共同期待其发展。
DeepLearning4J安装教程-Windows版
Deeplearning4J(简称DL4J)是一个基于JVM、面向行业应用并提供商业支持的分布式深度学习框架。其主要目标是在合理的时间内解决涉及大量数据的问题,与Hadoop和Spark集成,虾囧源码4.0支持任意数量的GPU或CPU运行。DL4J是当前最大且最流行的使用JAVA的深度学习框架。
在Windows环境下安装DL4J,需要准备以下软件:Java(版本7及以上且位),Eclipse或Intellij IDEA(推荐使用),Apache Maven,Git。
首先,安装Java。选择Java运行环境(JRE)和Java开发工具包(JDK),下载并安装。确保安装路径正确,并在系统环境变量中配置JAVA_HOME和Path。
接着,安装IntelliJ IDEA。访问官网下载专业版,进行下载、解压、鱼眼标定源码安装和配置。IDEA提供了强大的Java开发功能,包括智能代码助手、代码自动提示、重构、J2EE支持、版本控制等。
然后,安装Maven。从Apache Maven官网下载最新版本(本文下载的是3.6.3),解压并配置环境变量。通过命令行测试Maven是否安装成功。
在IDEA中配置Maven。在设置中找到“Build, Execution, Deployment”->“Build Tools”->“Maven”,进行相关配置。同时,编辑“settings.xml”文件,修改本地仓库地址和添加阿里云镜像服务器,Java hashmap迭代源码配置profiles标签以适应不同的项目需求。
安装Git。从Git官网下载安装程序,进行安装配置,包括选择安装路径、安装组件、开始菜单页、Git文件默认编辑器、分支名称、调整环境、HTTPS后端传输、行尾符号转换、终端模拟器、默认的“git pull”行为、选择凭证帮助、配置额外选项和实验选项。
获取DL4J示例代码,通过Git clone命令下载示例项目。然后,在IDEA中导入项目并使用Maven安装项目依赖。运行示例代码,如鸢尾花分类示例IrisClassifier,注意可能遇到的“Command line is too long”错误,并相应调整IDEA配置。
通过以上步骤,便完成了DL4J在Windows环境下的安装与配置,可进行深度学习项目的开发与运行。
特征平台(Feature Store):Tecton
回顾年8月发布的SaaS版本特征平台Tecton,它源自开源项目Feast。Tecton团队吸纳了Feast的核心开发者Willem Pienaar,成为Feast的重要贡献者。这一操作类似Git与Gitlab、Nginx与Nginx plus、Docker CE与Docker EE、Spark与Databricks Runtime的模式,前者作为基础,后者在其上构建商业服务。 Tecton和Feast共享同源,但Tecton作为商业产品,功能更为完善。Tecton不仅提供特征管理与消费服务,还集成特征计算与监控能力,形成一站式平台解决方案,实现从特征生产到消费的全流程管理。 在部署模式上,Tecton与Feast有明显差异。Feast整体架构简单,用户自行部署,不涉及能力划分。而作为SaaS产品的Tecton,区分控制面与数据面,例如在AWS环境下,通过Spark(AWS EMR服务或Databricks Runtime)处理特征计算、生成训练数据。 存储层面,两者都使用DynamoDB作为在线存储,但Tecton采用Delta Lake数据湖方案,而Feast使用AWS RedShift云数据库。在使用流程方面,虽然表面相似,但Tecton的实现细节更为丰富,包括特征生成、回填、监控等。架构设计分析
特征消费与生产
Tecton通过内置的特征计算能力,解决实时性问题,并提供自动化特征生产机制。用户可通过Feature View语法,实现特征的导入或生成,通过Spark作业执行ETL和聚合操作,数据来源多样,目标存储为offline store和online store。流批一体化与特征回填
Tecton利用Databricks的流批一体化API,自动完成特征回填,简化了用户操作,并解决数据源差异与处理逻辑复杂性问题。这一解决方案兼容批处理与流处理,增强训练数据生成的可行性与性能。贯穿全生命周期的监控
Tecton提供数据领域与业务领域的监控指标,如Spark作业状态、特征新鲜度等,并具备告警功能。在特征消费层面,通过REST API和SDK,集中监控吞吐、时延、成功率等关键业务指标。潜在问题与总结
作为非开源产品,Tecton的实现细节和常见问题解决方案难以深入探讨。尽管如此,Tecton在特征管理与计算、部署灵活性、数据处理与监控等方面,展现出强大的功能与优势。展望未来,将深入探讨Databricks推出的Feature Store,进一步丰富特征平台领域的知识与实践。