【cry指标源码】【编译火狐源码】【mapreduce Shuffle源码】hive count源码-皮皮网

【cry指标源码】【编译火狐源码】【mapreduce Shuffle源码】hive count源码

来源：混剪插件源码时间：2025-01-19 02:34:02

1.Prestoä¸SUM/COUNTè¸©å
2.小技巧一：把roaring bitmap引入hive/spark，再也不怕count(distinct)了
3.Hiveå¸¸ç¨ç®åå®ç°åçç®è¿°--MapReduceç

hive count源码

Prestoä¸SUM/COUNTè¸©å

è§£å³æ¹æ¡ï¼è½¬ä¸ºæµ®ç¹å

ï¼1ï¼select sum(case when storecode = '' then 1 else 0 end)*1. / count(1) from orders;

ï¼2ï¼cast(value AS type)

select * from table where date=

å¨hiveä¸æ£å¸¸æ§è¡ï¼prestoä¸ä¼æ¥éï¼operator equal(varchar, bigint) are not registered

æ¹ä¸ºselect * from table where date=ââ

å¨kylinä¸è·sum()/count() åå¨prestoä¸è·ç¸åçsum/countç»æä¸ä¸è´,åå åæ:åç°å¨kylinä¸countåæ®µæ¯ä¸å¿½ç¥nullå¼ç,åºè¯¥æä¹è§£å³kylinä¸çè¿ä¸ªé®é¢(KYLINä¸æ²¡æavgå½æ°,çæ¯ä¸å¤ç¨)

ç®åçæ¹æ³æ:

éæ°æå»ºä¸ä¸ªcube(å¿½ç¥nullå¼ç)

æ´æ¹avgçå£å¾é®é¢(ä¸å¯å....)

æ´æ¹cubeä¸nullåæ®µçæ°æ®ç±»å

小技巧一：把roaring bitmap引入hive/spark，再也不怕count(distinct)了

小技巧一：引入Roaring Bitmap到Hive/Spark，解决count(distinct)问题

在SQL中，`count(distinct xxx)`常用于计算去重数量。当`xxx`为byte,cry指标源码 shortint, int等数值类型时，可以将其转化为bitmap位运算，加速运算。对于非数值类型，可以考虑将其转换为一个唯一的数字，构建广义字典。Roaring Bitmap的基本思想是使用一个位图来唯一标记某个正整数，用于记录无重复的整数数组。

例如，数组[2,3,4,5]可以通过一个字节记录。通过依次设置数字n在第n+1个位置的位，可以表示数组。编译火狐源码对于数字范围0到n，需要`n/ +1`字节的存储空间。与数组存储相比，Roaring Bitmap的存储空间通常更小，约为数组的1/。

Roaring Bitmap适用于无法直接存储的其他类型数字，通过转换为唯一数字进行存储。在处理如`[0,mapreduce Shuffle源码]`的场景中，使用Roaring Bitmap需要字节的空间，而数组存储只需要8字节，因此不划算。Roaring Bitmap在底层采用数组存储，以适应数字分散的场景。

当处理如`[0,]`和`[,0]`的场景时，Roaring Bitmap可能无法区分数字顺序或正确识别重复值。在大数据领域，xen源码解析如活跃人数等去重指标的计算中，Roaring Bitmap可以加速计算过程，尤其是在离线执行引擎Hive/Spark中引入Roaring Bitmap来实现精准去重。

考虑到Hive本身不支持Roaring Bitmap数据类型，可以将其序列化为`binary`类型使用。在函数体系方面，需要实现一系列的UDF和UDAF函数，如`bitmap_count`、weex源码下载`bitmap_and`、`bitmap_not`、`bitmap_union`、`bitmap_contains`、`range_bitmap`、`bitmap_to_array`、`array_to_bitmap`等，以支持bitmap的集合计数、交集、差集、并集和查询操作。

在留存分析场景中，可以利用Roaring Bitmap构建活跃位图来加速计算，如连续N天登录问题。通过将用户活跃日期构建为位图，可以快速判断用户是否连续活跃。在用户画像和用户圈选场景中，Roaring Bitmap可以用于构建用户活跃画像，提高数据处理效率。在电商场景中，通过构建轻度汇总表并使用Roaring Bitmap存储去重人数，可以有效避免重复计算，提高数据聚合的准确性。

对于大数值范围（如bigint），Roaring Bitmap也支持。考虑到实际应用中数值范围超过`2**`的情况较少，是否需要支持bigint取决于具体需求。在数据索引优化方面，可以考虑重新编码，使得连续分布，进一步提高查询性能。

Hiveå¸¸ç¨ç®åå®ç°åçç®è¿°--MapReduceç

Hiveä¸çå¸¸ç¨ç®ååæ¬distinctãjoinãgroup byãorder byãdistribute byãsort byãcountçï¼è¿äºæä½ç¬¦å¨SQLä¸ä½¿ç¨èµ·æ¥å¾æ¹ä¾¿ï¼è½å¿«éè¾¾å°æä»¬æ³è¦çææï¼ä½æ¯è¿äºç®åå¨åºå±æ¯æä¹å®ç°çå¢ï¼

order byå¾å®¹ææ³å°æ§è¡åçï¼å¨ä¸ä¸ªreduceä¸å°ææè®°å½æå¼æåºå³å¯ãå æ¤order byå¨æ°æ®éå¤§çæåµä¸æ§è¡æ¶é´éå¸¸é¿ï¼å®¹æout of memoryï¼éç¹æ®ä¸å¡éæ±ä¸è¬ä¸ä½¿ç¨ãdistribute byä¹æ¯è¾ææ¾ï¼æ ¹æ®hashå¼å°distributeçå¼ååå°ä¸åçreduceãsort byæ¯å°å·çorder byï¼åªè´è´£å°æ¬reducerä¸çå¼æåºï¼è¾¾å°å±é¨æåºçææãsort byådistribute byéåä½¿ç¨é£å³æ´ä½³ï¼äºèå¯ä»¥åå¹¶ç®åä¸ºcluster byãcountåæ´å ææ°ï¼å¨combineræreducerå¤æç¸åé®ç´¯å å¼å°±è½å¾å°ã

æ¯è¾å¤æçæ¯distinctãjoinãgroup byï¼æ¬æéç¹è®¨è®ºè¿ä¸ä¸ªç®åå¨MapReduceå¼æä¸çå¤§è´å®ç°åçãçé¨å¼æ§ï¼æç å¼çã

å¯¹group byçè¿ç¨è®²è§£çæ¯è¾æ¸æ¥çæ¯è¿ç¯æç« /info-detail-.html å¾æå¹¶èï¼å¾çå¨ã

å®ä¾å¦ä¸å¾ï¼å¯¹åºè¯å¥æ¯ select rank, isonline, count(*) from city group by rank, isonline;

ï¼1ï¼set hive.map.aggr=trueï¼å³å¼å¯mapç«¯çcombinerï¼åå°ä¼ å°reducerçæ°æ®éï¼åæ¶éè®¾ç½®åæ°hive.groupby.mapaggr.checkinterval è§å®å¨ map ç«¯è¿è¡èåæä½çæ¡ç®æ°ç®ã

ï¼2ï¼è®¾ç½®mapred.reduce.tasksä¸ºè¾å¤§æ°éï¼éä½æ¯ä¸ªreducerå¤ççæ°æ®éã

ï¼3ï¼set hive.groupby.skewindata=trueï¼è¯¥åæ°å¯èªå¨è¿è¡è´è½½åè¡¡ãçæçæ¥è¯¢è®¡åä¼æä¸¤ä¸ª MR Jobãç¬¬ä¸ä¸ª MR Job ä¸ï¼Map çè¾åºç»æéåä¼éæºåå¸å°Reduce ä¸ï¼æ¯ä¸ª Reduce åé¨åèåæä½ï¼å¹¶è¾åºç»æï¼è¿æ ·å¤ççç»ææ¯ç¸åç Group By Keyæå¯è½è¢«ååå°ä¸åç Reduce ä¸ï¼ä»èè¾¾å°è´è½½åè¡¡çç®çï¼ç¬¬äºä¸ª MR Job åæ ¹æ®é¢å¤ççæ°æ®ç»ææç§ Group ByKey åå¸å° Reduce ä¸ï¼è¿ä¸ªè¿ç¨å¯ä»¥ä¿è¯ç¸åç Group By Key è¢«åå¸å°åä¸ä¸ª Reduceä¸ï¼ï¼æåå®ææç»çèåæä½ã

Hiveä¸æä¸¤ç§joinæ¹å¼ï¼map joinåcommon join

å¦æä¸æ¾å¼æå®map side joinï¼æèæ²¡æè¾¾å°è§¦åèªå¨map joinçæ¡ä»¶ï¼é£ä¹ä¼è¿è¡reduceç«¯çjoinï¼å³common joinï¼è¿ç§joinåå«mapãshuffleãreduceä¸ä¸ªæ¥éª¤ã

ï¼1ï¼Mapé¶æ®µ

ï¼2ï¼Shuffleé¶æ®µ

æ ¹æ®keyçå¼è¿è¡hash,å¹¶å°key/valueæç§hashå¼æ¨éè³ä¸åçreduceä¸ï¼è¿æ ·ç¡®ä¿ä¸¤ä¸ªè¡¨ä¸ç¸åçkeyä½äºåä¸ä¸ªreduceä¸

ï¼3ï¼Reduceé¶æ®µ

SELECT u.name, o.orderid FROM user u JOIN order o ON u.uid = o.uid;

Hive0.7ä¹åï¼éè¦ä½¿ç¨hintæç¤º /*+ mapjoin(table) */æä¼æ§è¡MapJoin,å¦åæ§è¡Common Joinï¼ä½å¨0.7çæ¬ä¹åï¼é»è®¤èªå¨ä¼è½¬æ¢Map Joinï¼ç±åæ° hive.auto.convert.join æ¥æ§å¶ï¼é»è®¤ä¸ºtrueã

distinctä¸è¬ågroup byåæ¶åºç°ã

【cry指标源码】【编译火狐源码】【mapreduce Shuffle源码】hive count源码

热点文章

精彩图文