1.大数据开发这么学习?
2.å¦ä½ä½¿ç¨hadoopè¿è¡èªå®ä¹çmahoutç¨åº
大数据开发这么学习?
分享大数据学习路线:
第一阶段为JAVASE+MYSQL+JDBC
主要学习一些Java语言的源码概念,如字符、源码bai流程控制、源码面向对象、源码进程线程、源码枚举反射等,源码io包源码学习MySQL数据库的源码安装卸载及相关操作,学习JDBC的源码实现原理以及Linux基础知识,是源码大数据刚入门阶段。
第二阶段为分布式理论简介主要讲解CAP理论、源码数据分布方式、源码一致性、源码2PC和3PC、源码大数据集成架构。源码涉及的源码知识点有Consistency一致性、Availability可用性、Partition
tolerance分区容忍性、数据量分布、2PC流程、手机 html游戏源码3PC流程、哈希方式、一致性哈希等。
第三阶段为数据存储与计算(离线场景)主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(0.5T)、学校网站模板源码数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。
第四部分为数仓建设主要讲解数仓仓库的历史背景、离线数仓项目-伴我汽车(5T)架构技术解析、拼图小程序源码多维数据模型处理kylin(3.5T)部署安装、离线数仓项目-伴我汽车升级后加入kylin进行多维分析等;
第五阶段为分布式计算引擎主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu,并通过某p2p平台项目实现spark多数据源读写。
第六阶段为数据存储与计算(实时场景)主要讲解数据通道Kafka、模拟yy频道源码实时数仓druid、流式数据处理flink、SparkStreaming,并通过讲解某交通大数让你可以将知识点融会贯通。
第七阶段为数据搜索主要讲解elasticsearch,包括全文搜索技术、ES安装操作、index、创建索引、增删改查、索引、映射、过滤等。
第八阶段为数据治理主要讲解数据标准、数据分类、数据建模、图存储与查询、元数据、血缘与数据质量、Hive Hook、Spark Listener等。
第九阶段为BI系统主要讲解Superset、Graphna两大技术,包括基本简介、安装、数据源创建、表操作以及数据探索分析。
第十阶段为数据挖掘主要讲解机器学习中的数学体系、Spark Mlib机器学习算法库、Python scikit-learn机器学习算法库、机器学习结合大数据项目。
对大数据分析有兴趣的小伙伴们,不妨先从看看大数据分析书籍开始入门!B站上有很多的大数据教学视频,从基础到高级的都有,还挺不错的,知识点讲的很细致,还有完整版的学习路线图。也可以自己去看看,下载学习试试。å¦ä½ä½¿ç¨hadoopè¿è¡èªå®ä¹çmahoutç¨åº
1ï¼ç¨æ·å¨æ¬å°æå ç¼è¯èªå·±çç¨åºï¼å¦mytest.jar
2ï¼ä¸ä¼ ç¨æ·ç¨åºå mytest.jarå°å¹³å°ç注åç¨æ·ç®å½ï¼å¦testuser
3ï¼æ ¹æ®ç¨æ·ç¨åºçéæ±åå¤ç®å½åæ°æ®
4ï¼ç»å½/ï¼æ§è¡å¦ä¸çå½ä»¤
mahout hadoop jar mytest.jar mytest.clustering.MyKmeans.Job -i input -o output -k 3
说æï¼
mahoutèæ¬éè¿hadoopww.hbbz.comå½ä»¤ç´æ¥æ§è¡ç¨æ·ç¨åºï¼ä½ç¨æ·ç´æ¥ç¨hadoopå½ä»¤ä¸è½ç´æ¥æ§è¡åºäºmahoutç®æ³åºå¼åçåºç¨ç¨åºï¼å 为mahoutèæ¬ä¼èªå¨å è½½mahoutåºä¸çjarå ï¼ä¸é¢æ¯ä¸é¢ç¤ºä¾å½ä»¤ç详ç»è¯´æï¼
mahout - æ§è¡mahout å½ä»¤
hadoop - mahout èæ¬æ§è¡èªå®ä¹ç¨åºçåæ°ï¼mahoutèæ¬ä¼æ ¹æ®è¿ä¸ªåæ°è°ç¨hadoopå½ä»¤
jar - hadoop æ§è¡ jarçåæ°
mytest.jar - ç¨æ·ç¨åºjarå
mytest.clustering.MyKmeans.Job - ç¨æ·è¦æ§è¡ç¨åºç主类
å ¶ä» - ç¨æ·ç¨åºåæ°ï¼æ ¹æ®ç¨æ·ç¨åºçå®é éæ±è®¾ç½®
å¨windowsä¸ä½¿ç¨eclipseæ代ç ç¼å好ï¼å°ä»£ç æå æjaræ件ï¼æ¾å°linuxæå¡å¨ä¸ï¼
è¿è¡
mahout hadoop jar your_mahout_code.jar your_main_class
æçæµè¯ä»£ç æ¯ï¼
mahout hadoop jar mahout.jar mahout.Recsys