1.spring������Դ��
2.一文搞懂大数据批量处理框架SpringBatch的大数完美解析方案是什么。
3.Spring Cloud的据源前世今生
4.项目实战SpringBoot+Vue基于easyexcel实现Excel大数据量的导入导出(包含数据脱敏)--简单易上手
5.Elasticsearch 系列SpringBoot 整合 ES 实现大数据高效搜索(三)
6.一文搞懂大数据批量处理框架Spring Batch的完美解析方案是什么。
spring������Դ��
探索大数据开发领域,数据您会发现有多种方向可以深入研究。大数ETL、据源数据仓库、数据刷脸支付源码怎么部署实时计算以及人工智能领域,大数通常对后端技术的据源需求相对较少。然而,数据如果您的大数目标是大数据平台开发,那么后端技术的据源掌握将变得尤为重要。
大数据平台的数据构建往往涉及一系列的web管理功能与数据API接口,这些功能和接口的大数实现都需要依赖于扎实的后端技术知识。因此,据源学习SpringBoot作为后端开发工具是数据一个明智的选择。
SpringBoot作为一款轻量级的后端开发框架,以其简洁高效、快速开发的特点,为大数据平台的构建提供了强大的支持。通过学习SpringBoot,您将掌握如何构建稳定、可扩展的后端服务,这对于大数据平台的开发至关重要。
在SpringBoot的学习过程中,您将深入理解其核心概念,如依赖注入、MVC架构、自动配置等。这些知识将帮助您构建出高效、安全的API接口和web服务,满足大数据平台对数据交互的需求。
此外,SpringBoot还提供了丰富的功能集,如事务管理、日志记录、安全认证等,这些功能对于确保大数据平台的稳定性和安全性至关重要。通过实践这些功能,您可以为大数据平台构建出更加完善和可靠的服务。
总之,学习SpringBoot作为大数据平台开发的后端技术,不仅能够提升您的开发效率,还能帮助您构建出高性能、可扩展的大数据平台。在大数据开发的旅程中,掌握SpringBoot将为您的技术栈增添重要的一环,助您更好地应对大数据平台开发中的挑战。
一文搞懂大数据批量处理框架SpringBatch的完美解析方案是什么。
1. 微服务架构的讨论正热烈进行中,但在企业架构中,除了大量的在线事务处理(OLTP)交易外,还存在大量的批处理交易。例如,在银行等金融机构中,每天需要处理多达3-4万笔的批处理作业。
2. 针对OLTP,业界有大量的开源框架和优秀的架构设计。然而,在批处理领域,这样的框架却相对较少。是时候探索批处理的世界,了解哪些优秀的框架和设计,今天我们将以SpringBatch为例,一起探秘批处理的世界。
3. 批处理典型场景包括对账,这是各个金融机构的往来业务和跨主机系统的业务都会涉及到的过程,如大小额支付、银联交易、人行往来、现金管理、POS业务、变换按钮源码ATM业务、证券公司资金账户、证券公司与证券结算公司等。
4. 批处理适用于如下的业务场景:定期提交批处理任务(日终处理)、并行批处理、企业消息驱动处理、大规模的并行处理、手动或定时重启、按顺序处理依赖的任务(可扩展为工作流驱动的批处理)、部分处理(忽略记录,例如在回滚时)和完整的批处理事务。
5. 批处理作业的两个典型特征是批量执行和自动执行(需要无人值守)。前者能够处理大批量数据的导入、导出和业务逻辑计算;后者无需人工干预,能够自动化执行批量任务。
6. 在关注其基本功能之外,还需要关注如下的几点:健壮性、可靠性、扩展性。
7. SpringBatch是业界目前为数不多的优秀批处理框架之一,由SpringSource和Accenture共同贡献。SpringBatch框架提供了轻量级的健壮的并行处理应用,支持事务、并发、流程、监控、纵向和横向扩展,提供统一的接口管理和任务管理。
8. 框架提供了明确分离批处理的执行环境和应用、通用核心的服务以接口形式提供、"开箱即用"的简单的默认的核心执行接口、Spring框架中配置、自定义、和扩展服务等核心能力。
9. 框架还提供了丰富的能力,如作业的抽象与继承、明确分离批处理的执行环境和应用、提供“开箱即用”的简单的默认的核心执行接口、提供Spring框架中配置、自定义、和扩展服务等。
. 框架对于事务的支持能力包括:Chunk支持事务管理,通过commit-interval设置每次提交的记录数;支持对每个Tasklet设置细粒度的事务配置:隔离界别、传播行为、超时;支持rollback和norollback,通过skippable-exception-classes和no-rollback-exception-classes进行支撑;支持JMSQueue的事务级别配置。
. 框架资深的模型抽象方面,SpringBatch也做了极为精简的抽象。仅仅使用六张业务表存储了所有的元数据信息(包括Job、Step的实例,上下文,执行器信息,为后续的监控、重启、重试、状态恢复等提供了可能)。
. 实现作业的健壮性与扩展性,批处理要求Job必须有较强的健壮性,通常Job是批量处理数据、无人值守的,这要求在Job执行期间能够应对各种发生的异常、错误,并对Job执行进行有效的跟踪。
. 框架提供了支持上面所有能力的特性,包括Skip(跳过记录处理)、Retry(重试给定的操作)、Restart(从错误点开始重新启动失败的Job):Skip,在对数据处理期间,如果数据的某几条的格式不能满足要求,可以通过Skip跳过该行记录的智能提示源码处理,让Processor能够顺利的处理其余的记录行。Retry,将给定的操作进行多次重试,在某些情况下操作因为短暂的异常导致执行失败,如网络连接异常、并发处理异常等,可以通过重试的方式避免单次的失败,下次执行操作时候网络恢复正常,不再有并发的异常,这样通过重试的能力可以有效的避免这类短暂的异常。Restart,在Job执行失败后,可以通过重启功能来继续完成Job的执行。在重启时候,批处理框架允许在上次执行失败的点重新启动Job,而不是从头开始执行,这样可以大幅提高Job执行的效率。
. 对于扩展性,框架提供的扩展能力包括如下的四种模式:MultithreadedStep多线程执行一个Step;ParallelStep通过多线程并行执行多个Step;RemoteChunking在远端节点上执行分布式Chunk操作;PartitioningStep对数据进行分区,并分开执行。
. 批处理框架在扩展性上提供了4中不同能力,每种都是各自的使用场景,我们可以根据实际的业务需要进行选择。
. SpringBatch批处理框架虽然提供了4种不同的监控方式,但从目前的使用情况来看,都不是非常的友好。通过DB直接查看,对于管理人员来讲,真的不忍直视;通过API实现自定义的查询,这是程序员的天堂,确实运维人员的地狱;提供了Web控制台,进行Job的监控和操作,目前提供的功能太,无法直接用于生产;提供JMX查询方式,对于非开发人员太不友好。
. 企业需要统一的批处理平台来处理复杂的企业批处理应用,批处理平台需要解决作业的统一调度、批处理作业的集中管理和管控、批处理作业的统一监控等能力。
. 企业级批处理平台需要在SpringBatch批处理框架的基础上,集成调度框架,通过调度框架可以将任务按照企业的需求进行任务的定期执行;丰富目前SpringBatchAdmin(SpringBatch的管理监控平台,目前能力比较薄弱)框架,提供对Job的统一管理功能,增强Job作业的监控、预警等能力;通过与企业的组织机构、权限管理、认证系统进行合理的集成,增强平台对Job作业的权限控制、安全管理能力。
. 欢迎大家在实际业务中使用SpringBatch框架。最后的话觉得还不错可以转发关注支持一波~私信架构资料获取一些我私人整理的Java进阶资料!为什么某些人会一直比你优秀,是因为他本身就很优秀还一直在持续努力变得更优秀。而你是不是还在满足于现状且内心在窃喜?“对于程序员来说,如果哪一天开始他停止了学习,那么他的职业生涯便开始宣告消亡。”所以行动起来,学习起来!
Spring Cloud的前世今生
Spring框架起源于年,由Rod Johnson开发。起初,他的公司名为interface ,随后在年更名为了springsource,官网为springsource.org。尽管Spring本身免费,公司主要通过培训和付费咨询服务维持运营。年,springsource进行了首次大规模收购,吸引了包括tomcat、cpa源码搭建apache、groovy在内的社区大神加入。同年,VMware以4.8亿美金的价格收购了springsource。随后,Rod在年3月收购了redis和rabbitmq,并将Gemfire的研发公司GemStone纳入麾下。
年,系统由于空调系统故障暂时中断了互联网售票、退票、改签业务,引发了对系统稳定性的关注。为了解决这个问题,VMware、EMC和通用资本在年月日合资成立了GoPivotal,旨在为大数据平台提供解决方案。GoPivotal在年发布了Spring Boot的第一个版本v0.5.0.M1,并在年4月1日发布了首个release版本v1.0.0.RELEASE。年,Spring Boot发布了足以改变历史的版本Spring Boot 2.0.0.RELEASE,对接Spring 5.x。
年月7日,GoPivotal发布了Spring Cloud的第一个版本:1.0.0.M1。Spring Cloud的核心思想是作为一种规则和信仰,而不是一个框架或工具。它在年初迭代到了E版本,对应SpringBoot 4.x,达到了最稳定的状态。Spring Cloud F版与SpringBoot 2.x被视为双子星。
Netflix成立于年,起初是一家在线影片租赁提供商,提供DVD租赁服务。随着转型为视频租售,Netflix成为美国最大的版权视频交易网站。年月日,Netflix买下了《白夜追凶》的播放权,这是它首次购买中国内地网络电视剧版权。Netflix后来积极参与开源项目,其中SpringCloud中的springcloud netflix是由Netflix开发,并最终并入了Springcloud大家庭。
目前,Netflix贡献的活跃项目包括但不限于代码框架和库。SpringCloud包含了众多组件及子框架,springcloud netflix是其中不可或缺的一部分。随着技术的发展,Spring Cloud在年初迭代到E版本,与SpringBoot 4.x对应,达到最稳定的状态。
项目实战SpringBoot+Vue基于easyexcel实现Excel大数据量的导入导出(包含数据脱敏)--简单易上手
项目实战SpringBoot+Vue通过EasyExcel实现Excel大数据量的高效导入导出,轻松应对数据脱敏需求。 实战过程中,我们展示了以下关键环节: 导入数据:通过多种方式实现,包括简单方法、匿名内部类、自定义ReadListener等,每种方法都适合不同场景的需求。 导出Excel:同样提供多种写法,简单导出和多Sheet页导出,满足不同导出需求。 脱敏处理部分,我们使用了SensitivityEncrypt注解、SensitivitySerializer和SensitivityUtil工具类,确保数据在传输过程中的安全性。 在实际应用中,我们展示了完整的数据导入和导出流程,以及前端页面的配合。遇到数据解析问题时,提供了详细的解决方案。 项目的源码可以在这里找到:[项目源码链接] 感谢EasyExcel团队的详细文档支持,您的电脑组装源码支持将继续推动我们不断进步。请随时分享您的使用体验,共同进步。Elasticsearch 系列SpringBoot 整合 ES 实现大数据高效搜索(三)
深入 SpringBoot 整合 Elasticsearch 实现大数据高效搜索的探讨,本文专精于 Elasticsearch 的高级查询应用。
在前期文章中,我们已对 Elasticsearch 的基础索引与文档操作有了一定了解。而本文将聚焦于更高级的查询写法与实践。
为了确保代码兼容性与效率,我们采用 SpringBoot 2.1.0.RELEASE 版本与 Elasticsearch 6.8.2 版本,配合官方推荐的 Elastic Java High Level Rest Client 的 6.4.2 版本,以实现与 SpringBoot 的无缝对接。
Elasticsearch 以其丰富的查询能力著称,能够在庞大的数据集合中迅速定位目标信息。如何实现这一高效搜索?答案即将揭晓。
文章将围绕 SpringBoot 整合 Elasticsearch 的高级查询,提供深入的代码实践与实例分析,为读者构建全面的搜索解决方案。
本文内容可能存在未尽之处,期待读者的宝贵意见与批评,共同促进技术的精进与分享。
一文搞懂大数据批量处理框架Spring Batch的完美解析方案是什么。
如今微服务架构讨论的如火如荼。但在企业架构里除了大量的OLTP交易外,还存在海量的批处理交易。在诸如银行的金融机构中,每天有3-4万笔的批处理作业需要处理。针对OLTP,业界有大量的开源框架、优秀的架构设计给予支撑;但批处理领域的框架确凤毛麟角。是时候和我们一起来了解下批处理的世界哪些优秀的框架和设计了,今天我将以SpringBatch为例,和大家一起探秘批处理的世界。
初识批处理典型场景探秘领域模型及关键架构实现作业健壮性与扩展性批处理框架的不足与增强批处理典型业务场景
对账是典型的批处理业务处理场景,各个金融机构的往来业务和跨主机系统的业务都会涉及到对账的过程,如大小额支付、银联交易、人行往来、现金管理、POS业务、ATM业务、证券公司资金账户、证券公司与证券结算公司。
下面是某行网银的部分日终跑批实例场景需求。
涉及到的需求点包括:
批量的每个单元都需要错误处理和回退;每个单元在不同平台中运行;需要有分支选择;每个单元需要监控和获取单元处理日志;提供多种触发规则,按日期,日历,周期触发;
除此之外典型的批处理适用于如下的业务场景:
定期提交批处理任务(日终处理)并行批处理:并行处理任务企业消息驱动处理大规模的并行处理手动或定时重启按顺序处理依赖的任务(可扩展为工作流驱动的批处理)部分处理:忽略记录(例如在回滚时)完整的批处理事务
与OLTP类型交易不同,批处理作业两个典型特征是批量执行与自动执行(需要无人值守):前者能够处理大批量数据的导入、导出和业务逻辑计算;后者无需人工干预,能够自动化执行批量任务。
在关注其基本功能之外,还需要关注如下的几点:
健壮性:不会因为无效数据或错误数据导致程序崩溃;可靠性:通过跟踪、监控、日志及相关的处理策略(重试、跳过、重启)实现批作业的可靠执行;扩展性:通过并发或者并行技术实现应用的纵向和横向扩展,满足海量数据处理的性能需求;
苦于业界真的缺少比较好的批处理框架,SpringBatch是业界目前为数不多的优秀批处理框架(Java语言开发),SpringSource和Accenture(埃森哲)共同贡献了智慧。
Accenture在批处理架构上有着丰富的工业级别的经验,贡献了之前专用的批处理体系框架(这些框架历经数十年研发和使用,为SpringBatch提供了大量的参考经验)。
SpringSource则有着深刻的技术认知和Spring框架编程模型,同时借鉴了JCL(JobControlLanguage)和COBOL的语言特性。年JSR-将批处理纳入规范体系,并被包含在了JEE7之中。这意味着,所有的JEE7应用服务器都会有批处理的能力,目前第一个实现此规范的应用服务器是Glassfish4。当然也可以在JavaSE中使用。
但最为关键的一点是:JSR-规范大量借鉴了SpringBatch框架的设计思路,从上图中的核心模型和概念中可以看出究竟,核心的概念模型完全一致。
通过SpringBatch框架可以构建出轻量级的健壮的并行处理应用,支持事务、并发、流程、监控、纵向和横向扩展,提供统一的接口管理和任务管理。
框架提供了诸如以下的核心能力,让大家更关注在业务处理上。更是提供了如下的丰富能力:
明确分离批处理的执行环境和应用将通用核心的服务以接口形式提供提供“开箱即用”的简单的默认的核心执行接口提供Spring框架中配置、自定义、和扩展服务所有默认实现的核心服务能够容易的被扩展与替换,不会影响基础层提供一个简单的部署模式,使用Maven进行编译批处理关键领域模型及关键架构
先来个HelloWorld示例,一个典型的批处理作业。
典型的一个作业分为3部分:作业读、作业处理、作业写,也是典型的三步式架构。整个批处理框架基本上围绕Read、Process、Writer来处理。除此之外,框架提供了作业调度器、作业仓库(用以存放Job的元数据信息,支持内存、DB两种模式)。
完整的领域概念模型参加下图:
JobLauncher(作业调度器)是SpringBatch框架基础设施层提供的运行Job的能力。通过给定的Job名称和作JobParameters,可以通过JobLauncher执行Job。
通过JobLauncher可以在Java程序中调用批处理任务,也可以在通过命令行或者其它框架(如定时调度框架Quartz)中调用批处理任务。
JobRepository来存储Job执行期的元数据(这里的元数据是指JobInstance、JobExecution、JobParameters、StepExecution、ExecutionContext等数据),并提供两种默认实现。
一种是存放在内存中;另一种将元数据存放在数据库中。通过将元数据存放在数据库中,可以随时监控批处理Job的执行状态。Job执行结果是成功还是失败,并且使得在Job失败的情况下重新启动Job成为可能。Step表示作业中的一个完整步骤,一个Job可以有一个或者多个Step组成。
批处理框架运行期的模型也非常简单:
JobInstance(作业实例)是一个运行期的概念,Job每执行一次都会涉及到一个JobInstance。
JobInstance来源可能有两种:一种是根据设置的JobParameters从JobRepository(作业仓库)中获取一个;如果根据JobParameters从JobRepository没有获取JobInstance,则新创建一个新的JobInstance。
JobExecution表示Job执行的句柄,一次Job的执行可能成功也可能失败。只有Job执行成功后,对应的JobInstance才会被完成。因此在Job执行失败的情况下,会有一个JobInstance对应多个JobExecution的场景发生。
总结下批处理的典型概念模型,其设计非常精简的十个概念,完整支撑了整个框架。
Job提供的核心能力包括作业的抽象与继承,类似面向对象中的概念。对于执行异常的作业,提供重启的能力。
框架在Job层面,同样提供了作业编排的概念,包括顺序、条件、并行作业编排。
在一个Job中配置多个Step。不同的Step间可以顺序执行,也可以按照不同的条件有选择的执行(条件通常使用Step的退出状态决定),通过next元素或者decision元素来定义跳转规则;
为了提高多个Step的执行效率,框架提供了Step并行执行的能力(使用split进行声明,通常该情况下需要Step之间没有任何的依赖关系,否则容易引起业务上的错误)。Step包含了一个实际运行的批处理任务中的所有必需的信息,其实现可以是非常简单的业务实现,也可以是非常复杂的业务处理,Step的复杂程度通常是业务决定的。
每个Step由ItemReader、ItemProcessor、ItemWriter组成,当然根据不同的业务需求,ItemProcessor可以做适当的精简。同时框架提供了大量的ItemReader、ItemWriter的实现,提供了对FlatFile、XML、Json、DataBase、Message等多种数据类型的支持。
框架还为Step提供了重启、事务、重启次数、并发数;以及提交间隔、异常跳过、重试、完成策略等能力。基于Step的灵活配置,可以完成常见的业务功能需求。其中三步走(Read、Processor、Writer)是批处理中的经典抽象。
作为面向批的处理,在Step层提供了多次读、处理,一次提交的能力。
在Chunk的操作中,可以通过属性commit-interval设置read多少条记录后进行一次提交。通过设置commit-interval的间隔值,减少提交频次,降低资源使用率。Step的每一次提交作为一个完整的事务存在。默认采用Spring提供的声明式事务管理模式,事务编排非常方便。如下是一个声明事务的示例:
框架对于事务的支持能力包括:
Chunk支持事务管理,通过commit-interval设置每次提交的记录数;支持对每个Tasklet设置细粒度的事务配置:隔离界别、传播行为、超时;支持rollback和norollback,通过skippable-exception-classes和no-rollback-exception-classes进行支撑;支持JMSQueue的事务级别配置;
另外,在框架资深的模型抽象方面,SpringBatch也做了极为精简的抽象。
仅仅使用六张业务表存储了所有的元数据信息(包括Job、Step的实例,上下文,执行器信息,为后续的监控、重启、重试、状态恢复等提供了可能)。
BATCH_JOB_INSTANCE:作业实例表,用于存放Job的实例信息BATCH_JOB_EXECUTION_PARAMS:作业参数表,用于存放每个Job执行时候的参数信息,该参数实际对应Job实例的。BATCH_JOB_EXECUTION:作业执行器表,用于存放当前作业的执行信息,比如创建时间,执行开始时间,执行结束时间,执行的那个Job实例,执行状态等。BATCH_JOB_EXECUTION_CONTEXT:作业执行上下文表,用于存放作业执行器上下文的信息。BATCH_STEP_EXECUTION:作业步执行器表,用于存放每个Step执行器的信息,比如作业步开始执行时间,执行完成时间,执行状态,读写次数,跳过次数等信息。BATCH_STEP_EXECUTION_CONTEXT:作业步执行上下文表,用于存放每个作业步上下文的信息。实现作业的健壮性与扩展性
批处理要求Job必须有较强的健壮性,通常Job是批量处理数据、无人值守的,这要求在Job执行期间能够应对各种发生的异常、错误,并对Job执行进行有效的跟踪。
一个健壮的Job通常需要具备如下的几个特性:
1.容错性
在Job执行期间非致命的异常,Job执行框架应能够进行有效的容错处理,而不是让整个Job执行失败;通常只有致命的、导致业务不正确的异常才可以终止Job的执行。
2.可追踪性
Job执行期间任何发生错误的地方都需要进行有效的记录,方便后期对错误点进行有效的处理。例如在Job执行期间任何被忽略处理的记录行需要被有效的记录下来,应用程序维护人员可以针对被忽略的记录后续做有效的处理。
3.可重启性
Job执行期间如果因为异常导致失败,应该能够在失败的点重新启动Job;而不是从头开始重新执行Job。
框架提供了支持上面所有能力的特性,包括Skip(跳过记录处理)、Retry(重试给定的操作)、Restart(从错误点开始重新启动失败的Job):
Skip,在对数据处理期间,如果数据的某几条的格式不能满足要求,可以通过Skip跳过该行记录的处理,让Processor能够顺利的处理其余的记录行。Retry,将给定的操作进行多次重试,在某些情况下操作因为短暂的异常导致执行失败,如网络连接异常、并发处理异常等,可以通过重试的方式避免单次的失败,下次执行操作时候网络恢复正常,不再有并发的异常,这样通过重试的能力可以有效的避免这类短暂的异常。Restart,在Job执行失败后,可以通过重启功能来继续完成Job的执行。在重启时候,批处理框架允许在上次执行失败的点重新启动Job,而不是从头开始执行,这样可以大幅提高Job执行的效率。
对于扩展性,框架提供的扩展能力包括如下的四种模式:
MultithreadedStep多线程执行一个Step;ParallelStep通过多线程并行执行多个Step;RemoteChunking在远端节点上执行分布式Chunk操作;PartitioningStep对数据进行分区,并分开执行;
我们先来看第一种的实现MultithreadedStep:
批处理框架在Job执行时默认使用单个线程完成任务的执行,同时框架提供了线程池的支持(MultithreadedStep模式),可以在Step执行时候进行并行处理,这里的并行是指同一个Step使用线程池进行执行,同一个Step被并行的执行。使用tasklet的属性task-executor可以非常容易的将普通的Step变成多线程Step。
MultithreadedStep的实现示例:
需要注意的是SpringBatch框架提供的大部分的ItemReader、ItemWriter等操作都是线程不安全的。
可以通过扩展的方式显现线程安全的Step。
下面为大家展示一个扩展的实现:
需求:针对数据表的批量处理,实现线程安全的Step,并且支持重启能力,即在执行失败点可以记录批处理的状态。
对于示例中的数据库读取组件JdbcCursorItemReader,在设计数据库表时,在表中增加一个字段Flag,用于标识当前的记录是否已经读取并处理成功,如果处理成功则标识Flag=true,等下次重新读取的时候,对于已经成功读取且处理成功的记录直接跳过处理。
MultithreadedStep(多线程步)提供了多个线程执行一个Step的能力,但这种场景在实际的业务中使用的并不是非常多。
更多的业务场景是Job中不同的Step没有明确的先后顺序,可以在执行期并行的执行。
ParallelStep:提供单个节点横向扩展的能力
使用场景:StepA、StepB两个作业步由不同的线程执行,两者均执行完毕后,StepC才会被执行。
框架提供了并行Step的能力。可以通过Split元素来定义并行的作业流,并制定使用的线程池。
ParallelStep模式的执行效果如下:
每个作业步并行处理不同的记录,示例中三个作业步,处理同一张表中的不同数据。
并行Step提供了在一个节点上横向处理,但随着作业处理量的增加,有可能一台节点无法满足Job的处理,此时我们可以采用远程Step的方式将多个机器节点组合起来完成一个Job的处理。
RemoteChunking:远程Step技术本质上是将对Item读、写的处理逻辑进行分离;通常情况下读的逻辑放在一个节点进行操作,将写操作分发到另外的节点执行。
远程分块是一个把step进行技术分割的工作,不需要对处理数据的结构有明确了解。
任何输入源能够使用单进程读取并在动态分割后作为块发送给远程的工作进程。
远程进程实现了监听者模式,反馈请求、处理数据最终将处理结果异步返回。请求和返回之间的传输会被确保在发送者和单个消费者之间。
在Master节点,作业步负责读取数据,并将读取的数据通过远程技术发送到指定的远端节点上,进行处理,处理完毕后Master负责回收Remote端执行的情况。
在SpringBatch框架中通过两个核心的接口来完成远程Step的任务,分别是ChunkProvider与ChunkProcessor。
ChunkProvider:根据给定的ItemReader操作产生批量的Chunk操作;
ChunkProcessor:负责获取ChunkProvider产生的Chunk操作,执行具体的写逻辑;
SpringBatch中对远程Step没有默认的实现,但我们可以借助SI或者AMQP实现来实现远程通讯能力。
Step本地节点负责读取数据,并通过MessagingGateway将请求发送到远程Step上;远程Step提供了队列的监听器,当请求队列中有消息时候获取请求信息并交给ChunkHander负责处理。
接下来我们看下最后一种分区模式;PartitioningStep:分区模式需要对数据的结构有一定的了解,如主键的范围、待处理的文件的名字等。
这种模式的优点在于分区中每一个元素的处理器都能够像一个普通SpringBatch任务的单步一样运行,也不必去实现任何特殊的或是新的模式,来让他们能够更容易配置与测试。
通过分区可以实现以下的优点:
分区实现了更细粒度的扩展;基于分区可以实现高性能的数据切分;分区比远程通常具有更高的扩展性;分区后的处理逻辑,支持本地与远程两种模式;分区作业典型的可以分成两个处理阶段,数据分区、分区处理;
数据分区:根据特殊的规则(例如:根据文件名称,数据的唯一性标识,或者哈希算法)将数据进行合理的数据切片,为不同的切片生成数据执行上下文ExecutionContext、作业步执行器StepExecution。可以通过接口Partitioner生成自定义的分区逻辑,SpringBatch批处理框架默认实现了对多文件的实现org.springframework.batch.core.partition.support.MultiResourcePartitioner;也可以自行扩展接口Partitioner来实现自定义的分区逻辑。
分区处理:通过数据分区后,不同的数据已经被分配到不同的作业步执行器中,接下来需要交给分区处理器进行作业,分区处理器可以本地执行也可以远程执行被划分的作业。接口PartitionHandler定义了分区处理的逻辑,SpringBatch批处理框架默认实现了本地多线程的分区处理org.springframework.batch.core.partition.support.TaskExecutorPartitionHandler;也可以自行扩展接口PartitionHandler来实现自定义的分区处理逻辑。
SpringBatch框架提供了对文件分区的支持,实现类org.springframework.batch.core.partition.support.MultiResourcePartitioner提供了对文件分区的默认支持,根据文件名将不同的文件处理进行分区,提升处理的速度和效率,适合有大量小文件需要处理的场景。
示例展示了将不同文件分配到不同的作业步中,使用MultiResourcePartitioner进行分区,意味着每个文件会被分配到一个不同的分区中。如果有其它的分区规则,可以通过实现接口Partitioner来进行自定义的扩展。有兴趣的TX,可以自己实现基于数据库的分区能力哦。
总结一下,批处理框架在扩展性上提供了4中不同能力,每种都是各自的使用场景,我们可以根据实际的业务需要进行选择。
批处理框架的不足与增强
SpringBatch批处理框架虽然提供了4种不同的监控方式,但从目前的使用情况来看,都不是非常的友好。
通过DB直接查看,对于管理人员来讲,真的不忍直视;通过API实现自定义的查询,这是程序员的天堂,确实运维人员的地狱;提供了Web控制台,进行Job的监控和操作,目前提供的功能太,无法直接用于生产;提供JMX查询方式,对于非开发人员太不友好;
但在企业级应用中面对批量数据处理,仅仅提供批处理框架仅能满足批处理作业的快速开发、执行能力。
企业需要统一的批处理平台来处理复杂的企业批处理应用,批处理平台需要解决作业的统一调度、批处理作业的集中管理和管控、批处理作业的统一监控等能力。
那完美的解决方案是什么呢?
关注我:转发私信回复“架构资料”获取Java高级架构资料、源码、笔记、视频
Dubbo、Redis、设计模式、Netty、zookeeper、Springcloud、分布式、微服务
高并发等架构技术
企业级批处理平台需要在SpringBatch批处理框架的基础上,集成调度框架,通过调度框架可以将任务按照企业的需求进行任务的定期执行;
丰富目前SpringBatchAdmin(SpringBatch的管理监控平台,目前能力比较薄弱)框架,提供对Job的统一管理功能,增强Job作业的监控、预警等能力;
通过与企业的组织机构、权限管理、认证系统进行合理的集成,增强平台对Job作业的权限控制、安全管理能力。
由于时间关系,今天的分享就到这里,很多内容未能展开讨论。欢迎大家在实际业务中使用SpringBatch框架。
最后的话
觉得还不错可以转发关注支持一波~私信架构资料获取一些我私人整理的Java进阶资料!
为什么某些人会一直比你优秀,是因为他本身就很优秀还一直在持续努力变得更优秀。而你是不是还在满足于现状且内心在窃喜?“对于程序员来说,如果哪一天开始他停止了学习,那么他的职业生涯便开始宣告消亡。”所以行动起来,学习起来!
2024-11-23 12:35
2024-11-23 12:32
2024-11-23 12:28
2024-11-23 12:17
2024-11-23 11:50
2024-11-23 11:43
2024-11-23 10:49
2024-11-23 10:45