1.15种值得关注的大数据技术
2.为ä»ä¹Sparkåå±ä¸å¦Hadoop
15种值得关注的大数据技术
尽管Apache Hadoop可能不再像以前那样占主导地位,但要谈论大数据几乎是不可能的,而无需提及用于分布式处理大数据集的开源框架。Forrester预测,未来两年内%的大型企业将采用它(Hadoop和Spark等相关技术)进行大数据分析。
多年来,安卓源码 usbHadoop已成长为涵盖相关软件的整个生态系统,许多商业大数据解决方案都基于Hadoop。实际上,Zion Market Research预测,到年,基于Hadoop的产品和服务市场将继续以%的复合年增长率增长,届时其价值将达到.4亿美元,java后台接口源码高于年的.9亿美元。
Hadoop的主要供应商包括Cloudera, Hortonworks和MapR,领先的公共云都提供支持该技术的服务。
Apache Spark是Hadoop生态系统的一部分,但是它的使用变得如此广泛,以至于值得拥有自己的一类。它是用于在Hadoop中处理大数据的引擎,其速度比标准Hadoop引擎MapReduce快一百倍。
在《AtScale 大数据成熟度调查》中,有%的受访者说他们已经在生产中部署了Spark,还有%的受访者在开发中有Spark项目。显然,对该技术的兴趣在不断增长,并且许多具有Hadoop产品的供应商还提供基于Spark的产品。
R是大型maven项目源码另一个开放源代码项目,是一种旨在处理统计信息的编程语言和软件环境。它是数据科学家的宠儿,由R基金会管理,可根据GPL 2许可获得。许多流行的集成开发环境(IDE) ,包括Eclipse和VisualStudio,都支持该语言。几种对各种编程语言的流行度进行排名的组织表示,R已经成为世界上最受欢迎的语言之一。
为了更轻松地访问其庞大的数据存储,许多企业正在建立数据湖。这些是巨大的数据存储库,可以从许多不同的来源收集数据并将其以自然状态存储。数据湖与数据仓库不同,cocos 像素鸟源码数据仓库也从不同的源收集数据,但是对其进行处理并对其进行结构化以进行存储。在这种情况下,湖泊和仓库的隐喻是相当准确的。如果数据像水,那么数据湖是自然的,没有像水体一样经过过滤,而数据仓库更像是存储在架子上的水瓶的集合。
随着大数据趋势的发展,NoSQL数据库变得越来越流行。NoSQL数据库提供存储非结构化数据并提供快速性能的功能,尽管它们没有提供与传统关系数据库管理系统(RDBMS)相同的一致性级别。NoSQL数据库的html直播源码app流行推动了其市场增长,据联合市场研究公司(Allied MarketResearch)称,到年, NoSQL市场的价值将达到亿美元。
预测分析是大数据分析的子集,它试图根据历史数据预测未来的事件或行为。它利用数据挖掘,建模和机器学习技术来预测接下来会发生什么。近年来,人工智能技术的进步极大地提高了预测分析解决方案的功能。许多供应商如Microsoft, IBM, SAP, SAS, Statistica, RapidMiner,KNIME等都提供了预测分析解决方案。
在任何计算机系统中,内存(也称为RAM)都比长期存储快几个数量级。如果大数据分析解决方案可以处理存储在内存中的数据,而不是存储在硬盘驱动器上的数据,那么它的执行速度将大大提高。而这正是内存数据库技术所做的。许多领先的企业软件供应商,包括SAP, Oracle, Microsoft和IBM,现在都提供内存数据库技术。
大数据安全解决方案是企业日益关注的重大问题。安全是与大数据相关的第二大关注领域。最流行的大数据安全解决方案类型包括身份和访问控制(由%的受访者使用),数据加密(%) 和数据隔离(%) 。数十家供应商提供大数据安全解决方案,并且ApacheRanger (Hadoop生态系统的一个开源项目)也吸引了越来越多的关注。
数据治理是与安全性概念密切相关的话题。数据治理是一个广泛的主题,涉及与数据的可用性,可用性和完整性有关的所有过程。它提供了基础,可确保用于大数据分析的数据准确,适当,并提供审计跟踪,以便业务分析人员或执行人员可以查看数据的来源。
在数据科学家和其他大数据专家供不应求的情况下,并要求高薪,许多组织正在寻找大数据分析工具,以使业务用户能够自助满足自己的需求。Tableau, Microsoft, IBM, SAP, Splunk, Syncsort, SAS, TIBCO, Oracle等多家商业智能和大数据分析供应商已在其解决方案中添加了自助服务功能。
尽管人工智能(AI) 的概念与计算机的历史差不多,但该技术仅在过去几年才真正可用。在许多方面,大数据趋势推动了AI的发展,特别是在该学科的两个子集中:机器学习和深度学习。
流分析是一个圣杯,对于组织来说,具有分析数据流能力的流分析可以立即或尽可能接近地提供见解。IBM,Software AG, SAP, TIBCO, Oracle,DataTorrent, SQL stream, Cisco, Informatica等供应商提供了承诺流分析功能的产品。
边缘计算系统没有将数据传输到集中式服务器进行分析,而是在网络边缘非常接近创建数据的位置分析数据。边缘计算系统的优势在于,它减少了必须通过网络传输的信息量,从而减少了网络流量和相关成本。边缘计算系统的发展引起了人们的关注,被认为是“下一件大事”。
区块链技术是比特币数字货币基础上的分布式数据库技术,也是前瞻性分析师和风险投资家的最爱。区块链数据库的独特之处在于,一旦写入数据,事后便无法删除或更改。高度安全性使其成为银行,保险,医疗保健,零售等敏感行业中大数据应用程序的绝佳选择。IBM,AWS, Microsoft和多家初创公司已推出基于区块链技术的实验性或入门性解决方案。
规范分析为公司提供建议,帮助他们实现预期的结果。尽管目前很少有具有这些功能的产品,但这是组织开始体验预测分析的好处之后的下一个大投资领域。
为ä»ä¹Sparkåå±ä¸å¦Hadoop
Sparkæ¯ä¸ä¸ªåºäºRAM计ç®çå¼æºç ComputerClusterè¿ç®ç³»ç»ï¼ç®çæ¯æ´å¿«éå°è¿è¡æ°æ®åæãSparkæ©æçæ ¸å¿é¨å代ç åªæ3ä¸è¡ãSparkæä¾äºä¸HadoopMap/Reduceç¸ä¼¼çåæ£å¼è¿ç®æ¡æ¶ï¼ä½åºäºRAMåä¼å设计ï¼å æ¤å¨äº¤æ¢å¼æ°æ®åæådataminingçWorkloadä¸è¡¨ç°ä¸éã
è¿å ¥å¹´ä»¥åï¼Sparkå¼æºç çæç³»ç»å¤§å¹ å¢é¿ï¼å·²æ为大æ°æ®èç´ææ´»è·çå¼æºç 项ç®ä¹ä¸ãSparkä¹æ以æå¦æ¤å¤çå ³æ³¨ï¼åå 主è¦æ¯å 为Sparkå ·æçé«æ§è½ãé«çµæ´»æ§ãä¸Hadoopçæç³»ç»å®ç¾èåçä¸æ¹é¢çç¹ç¹ã
é¦å ï¼Spark对åæ£çæ°æ®éè¿è¡æ½æ ·ï¼åæ°å°æåºRDD(ResilientDistributedDataset)çæ¦å¿µï¼ææçç»è®¡åæä»»å¡è¢«ç¿»è¯æ对RDDçåºæ¬æä½ç»æçæåæ ç¯å¾(DAG)ãRDDå¯ä»¥è¢«é©»çå¨RAMä¸ï¼å¾åçä»»å¡å¯ä»¥ç´æ¥è¯»åRAMä¸çæ°æ®;åæ¶åæDAGä¸ä»»å¡ä¹é´çä¾èµæ§å¯ä»¥æç¸é»çä»»å¡å并ï¼ä»èåå°äºå¤§éä¸åç¡®çç»æè¾åºï¼æ大åå°äºHarddiskI/Oï¼ä½¿å¤ææ°æ®åæä»»å¡æ´é«æãä»è¿ä¸ªæ¨ç®ï¼å¦æä»»å¡å¤å¤æï¼Sparkæ¯Map/Reduceå¿«ä¸å°ä¸¤åã
å ¶æ¬¡ï¼Sparkæ¯ä¸ä¸ªçµæ´»çè¿ç®æ¡æ¶ï¼éååæ¹æ¬¡å¤çãå·¥ä½æµã交äºå¼åæãæµéå¤ççä¸åç±»åçåºç¨ï¼å æ¤Sparkä¹å¯ä»¥æ为ä¸ä¸ªç¨é广æ³çè¿ç®å¼æï¼å¹¶å¨æªæ¥å代Map/Reduceçå°ä½ã
æåï¼Sparkå¯ä»¥ä¸Hadoopçæç³»ç»çå¾å¤ç»ä»¶äºç¸æä½ãSparkå¯ä»¥è¿è¡å¨æ°ä¸ä»£èµæºç®¡çæ¡æ¶YARNä¸ï¼å®è¿å¯ä»¥è¯»åå·²æ并åæ¾å¨Hadoopä¸çæ°æ®ï¼è¿æ¯ä¸ªé常大çä¼å¿ã
è½ç¶Sparkå ·æ以ä¸ä¸å¤§ä¼ç¹ï¼ä½ä»ç®åSparkçåå±ååºç¨ç°ç¶æ¥çï¼Sparkæ¬èº«ä¹åå¨å¾å¤ç¼ºé·ï¼ä¸»è¦å æ¬ä»¥ä¸å 个æ¹é¢ï¼
â稳å®æ§æ¹é¢ï¼ç±äºä»£ç è´¨éé®é¢ï¼Sparké¿æ¶é´è¿è¡ä¼ç»å¸¸åºéï¼å¨æ¶ææ¹é¢ï¼ç±äºå¤§éæ°æ®è¢«ç¼åå¨RAMä¸ï¼Javaåæ¶åå¾ç¼æ ¢çæ åµä¸¥éï¼å¯¼è´Sparkæ§è½ä¸ç¨³å®ï¼å¨å¤æåºæ¯ä¸SQLçæ§è½çè³ä¸å¦ç°æçMap/Reduceã
âä¸è½å¤ç大æ°æ®ï¼åç¬æºå¨å¤çæ°æ®è¿å¤§ï¼æè ç±äºæ°æ®åºç°é®é¢å¯¼è´ä¸é´ç»æè¶ è¿RAMç大å°æ¶ï¼å¸¸å¸¸åºç°RAM空é´ä¸è¶³ææ æ³å¾åºç»æãç¶èï¼Map/Reduceè¿ç®æ¡æ¶å¯ä»¥å¤ç大æ°æ®ï¼å¨è¿æ¹é¢ï¼Sparkä¸å¦Map/Reduceè¿ç®æ¡æ¶ææã
âä¸è½æ¯æå¤æçSQLç»è®¡;ç®åSparkæ¯æçSQLè¯æ³å®æ´ç¨åº¦è¿ä¸è½åºç¨å¨å¤ææ°æ®åæä¸ãå¨å¯ç®¡çæ§æ¹é¢ï¼SparkYARNçç»åä¸å®åï¼è¿å°±ä¸ºä½¿ç¨è¿ç¨ä¸åä¸é忧ï¼å®¹æåºç°åç§é¾é¢ã
è½ç¶Sparkæ´»è·å¨ClouderaãMapRãHortonworksçä¼å¤ç¥å大æ°æ®å ¬å¸ï¼ä½æ¯å¦æSparkæ¬èº«ç缺é·å¾ä¸å°åæ¶å¤çï¼å°ä¼ä¸¥éå½±åSparkçæ®åååå±ã