【工具】Datax的基本概念(初识ETL工具)
ETL技术的实质是将数据经过抽取、清洗转换之后加载到数据仓库的码安过程。DataX是码安由阿里巴巴研发并开源的异构数据源离线同步工具,能实现不同数据源之间的码安数据同步,包括关系型数据库、码安NoSQL数据存储、码安汽车 保险 系统 源码无结构化数据存储、码安时间序列数据库以及阿里的码安云数仓数据存储。DataX是码安阿里云DataWorks数据集成的开源版本,用于在阿里巴巴集团内广泛使用的码安离线数据同步工具/平台,支持包括MySQL、码安Oracle、码安OceanBase、码安SqlServer、码安Postgre、码安HDFS、Hive、ADS、HBase、热剧源码TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间的高效数据同步。
DataX采用Framework + plugin的架构,数据同步步骤将数据的读取、写入操作抽象为由Reader/Writer插件处理,纳入整个同步框架。其核心组件包括Job、cboard源码分析Task、Channel以及Transformer。
Job代表数据同步任务;Task代表运行一个单独的同步线程,该线程使用一个Channel作为Reader与Writer的数据传输媒介;数据流转方向为Reader—>Channel—>Writer。
Transformer模式提供强大的数据转换功能,DataX内置丰富数据转换实现类,用户可根据自身需求扩展数据转换。
DataX的安装部署可选择直接下载工具包或下载源码自主编译。下载后解压至本地目录即可运行同步作业。导播软件源码自检脚本为:python { YOUR_DATAX_HOME}/bin/datax.py { YOUR_DATAX_HOME}/job/job.json。
若数据源同步遇到格式不匹配问题,可以修改相应的reader与writer代码,然后maven编译,后续会提供具体源码修改示例。
DataX的源码可在gitee上找到,以解决github地址在国内可能存在的连接问题。参考网址提供了更多关于ETL工具-Datax的资源。
å¦ä½å¨Linuxä¸è°è¯PostgreSQL
ç±äºå·¥ä½å ³ç³»ï¼éè¦è°è¯postgreSQLæºç ï¼æ°å¥½åäºåäºè¿æ ·ä¸ä¸ªææ¡£ï¼è´´åºæ¥å ±äº«ãå¨Linuxä¸é¢è°è¯Postgresï¼éè¦è¿è¡å¦ä¸å 个æ¥éª¤
ç±äºå·¥ä½å ³ç³»ï¼éè¦è°è¯postgreSQLæºç ï¼ï¼æ°å¥½åäºåäºè¿æ ·ä¸ä¸ªææ¡£ï¼è´´åºæ¥å ±äº«ã
å¨Linuxä¸é¢è°è¯Postgresï¼éè¦è¿è¡å¦ä¸å 个æ¥éª¤ï¼
1. å®è£ Linuxæä½ç³»ç»
注æægdbãEmacsæDDDè¿äºå¼åå·¥å ·é½å®è£ ä¸ãå¦ææ¯å¨èææºä¸å®è£ ï¼ä¾ç¶éè¦è®¾ç½®Linuxç³»ç»çç½ç»ç¯å¢ï¼å¦å¤éè¦è®¾ç½®æä»¶å ±äº«ï¼æ¹ä¾¿windowsä¸é¢çpostgreSQLæºç è½å¨Linuxä¸é¢è®¿é®å°ã
2. å®è£ PostgreSQL
useradd postgre
ï¼èªå¨å»ºç« postgre ç»ï¼è®¾è®¡äººå为äºå®å ¨èèï¼PostgreSQL ä¸è½ä»¥root ç¨æ·è¿è¡ï¼æä»¥å¿ é¡»å»ºç«å¯¹åºçç¨æ·åç»ãï¼
解åå° /usr/local/src
tar xvfz postgresql-8.4.tar.gz
cd postgresql-8.4
./configure --prefix=/usr/local/pgsql --enable-debug --enable-assert --without-readline --without-zlib
make
make install
chown -R postgre.postgre /usr/local/pgsql
3. 设置Postgresç¯å¢åéï¼éå¿ é¡»ï¼
vi ~postgre/.bash_profile
æ·»å ï¼
PGLIB=/usr/local/pgsql/lib
PGDATA=$HOME/data
PATH=$PATH:/usr/local/pgsql/bin
MANPATH=$MANPATH:/usr/local/pgsql/man
export PGLIB PGDATA PATH MANPATH
4. 建ç«æ°æ®åº
以 postgres ç¨æ·ç»å½ï¼
su postgre
建ç«æ°æ®åºç®å½ï¼
mkdir data
å¯å¨æ°æ®åºå¼æï¼
initdb _D âæ°æ®åºç®å½â
ä¹åå¯ä»¥æ ¹æ®æ示ï¼éè¿psqlè¿å ¥æ°æ®åº
5. æé PostgreSQLè°è¯ç¯å¢
å psql template1è¿å»ï¼ç¶å
select pg_backend_pid();
è·å¾idï¼å°±æ¯gdbåé¢ç¨å°çæ°å
gdb /usr/local/pgsql/bin/postgres (pidçæ°å)
å¦æåªä½¿ç¨gdbï¼å ¨é¨æ¯å½ä»¤è¡çé¢ï¼èEmacãDDDåå«æ¯å½©è²ãé»ç½ç¨æ·äº¤äºå¼å¾å½¢çé¢ã
6. 使ç¨gdbè¿è¡è°è¯
备忘:Postgre.3在虚拟机centos上的祝福 APP 源码安装以及orafce插件的安装
在虚拟机CentOS上安装PostgreSQL .3并集成Orafce插件的详细步骤如下:
首先,安装CentOS 7在VMware虚拟机上,选择带GUI的安装选项,分配2GB内存和自定义存储空间。
在虚拟机设置中,有桥接和NAT两种网络模式可供选择。桥接模式使虚拟机像局域网内的另一台物理机,而NAT模式允许虚拟机共享宿主机的网络连接。
对于PostgreSQL的安装,从官方网站下载postgresql-.3.tar.gz,解压到主目录。在编译安装前,确保已安装必要的依赖项,如readline-devel和zlib-devel(非必须,但影响psql的功能)。如果在编译时不需要这些依赖,可通过命令行添加相应参数。
安装过程中,需要创建postgres用户并设置密码,然后按照INSTALL文档进行配置和安装。安装orafce插件时,从GitHub获取源码并参照文档进行编译和安装,可能出现的 "/usr/lib/pgsql/pgxs/src/makefiles/pgxs.mk" 文件问题可能是由于缺少 PostgreSQL 开发包,确保安装了相应的开发包后重新安装。
orafce.so文件是扩展模块,安装完成后,检查其位置是否正确。还需编辑postgresql.conf和.bash_profile文件以加载orafce插件,并通过psql进行扩展加载。如果连接pgAdmin遇到问题,可能需要调整防火墙设置,允许端口的连接。
最后,如果仍无法连接,检查LD_LIBRARY_PATH环境变量,确保orafce库路径正确,并查看是否存在试图重定义参数的错误,如'orafce.nls_data_format',需修改配置文件以解决冲突。
总的来说,安装PostgreSQL .3和orafce插件需要依次完成系统环境、依赖安装、配置文件修改和防火墙规则设置等步骤,确保每个环节都正确无误。
2025-01-20 00:54
2025-01-20 00:04
2025-01-19 23:21
2025-01-19 23:07
2025-01-19 22:53