1.深入理解Linux的说说说控epoll机制
2.Apache Ranger整合Hadoop、Hive、控源Spark实现权限管理
3.面试说两天给结果给我,码说那都没有机会为什么不说今天给结果给我?
深入理解Linux的软件epoll机制
在Linux系统之中有一个核心武器:epoll池,在高并发的下载,高吞吐的说说说控发卡企业源码IO系统中常常见到epoll的身影。IO多路复用在Go里最核心的控源是Goroutine,也就是码说所谓的协程,协程最妙的软件一个实现就是异步的代码长的跟同步代码一样。比如在Go中,下载网络IO的说说说控read,write看似都是控源同步代码,其实底下都是码说异步调用,一般流程是软件:
write(/*IO参数*/)请求入队等待完成后台loop程序发送网络请求唤醒业务方Go配合协程在网络IO上实现了异步流程的同步代码化。核心就是下载用epoll池来管理网络fd。
实现形式上,后台的程序只需要1个就可以负责管理多个fd句柄,负责应对所有的业务方的IO请求。这种一对多的IO模式我们就叫做IO多路复用。
多路是指?多个业务方(句柄)并发下来的IO。
复用是指?复用这一个后台处理程序。
站在IO系统设计人员的角度,业务方咱们没办法提要求,因为业务是上帝,只有你服从的份,他们要创建多个fd,那么你就需要负责这些fd的处理,并且最好还要并发起来。
业务方没法提要求,那么只能要求后台loop程序了!
要求什么呢?快!快!快!这就是最核心的要求,处理一定要快,要给每一个fd通道最快的感受,要让每一个fd觉得,你只在给他一个人跑腿。
那有人又问了,那我一个IO请求(比如write)对应一个线程来处理,这样所有的IO不都并发了吗?是可以,但是有瓶颈,线程数一旦多了,性能是反倒会差的。
这里不再对比多线程和IO多路复用实现高并发之间的区别,详细的可以去了解下nginx和redis高并发的秘密。
最朴实的实现方式?我不用任何其他系统调用,能否实现IO多路复用?
可以的。那么写个for循环,每次都尝试IO一下,读/写到了就处理,读/写不到就sleep下。这样我们不就实现了1对多的IO多路复用嘛。
whileTrue:foreach句柄数组{ read/write(fd,/*参数*/)}sleep(1s)慢着,有个问题,上面的程序可能会被卡死在第三行,使得整个系统不得运行,为什么?
默认情况下,我们没有加任何参数create出的句柄是阻塞类型的。我们读数据的时候,如果数据还没准备好,是会需要等待的,当我们写数据的时候,如果还没准备好,默认也会卡住等待。所以,在上面伪代码第三行是可能被直接卡死,而导致整个线程都得到不到运行。
举个例子,现在有,,这3个句柄,现在读写都没有准备好,只要read/write(,/*参数*/)就会被卡住,但,这两个句柄都准备好了,那遍历句柄数组,,的时候就会卡死在前面,后面,则得不到运行。这不符合我们的预期,因为我们IO多路复用的loop线程是公共服务,不能因为一个fd就直接瘫痪。
那这个问题怎么解决?
只需要把fd都设置成非阻塞模式。这样read/write的时候,如果数据没准备好,返回EAGIN的错误即可,不会卡住线程,从而整个系统就运转起来了。比如上面句柄还未就绪,那么read/write(,/*参数*/)不会阻塞,只会报个EAGIN的错误,这种错误需要特殊处理,然后loop线程可以继续执行,的读写。
以上就是最朴实的IO多路复用的实现了。但是好像在生产环境没见过这种IO多路复用的实现?为什么?
因为还不够高级。for循环每次要定期sleep1s,这个会导致吞吐能力极差,因为很可能在刚好要sleep的时候,所有的fd都准备好IO数据,而这个时候却要硬生生的等待1s,可想而知。。。艾薇多多源码
那有同学又要质疑了,那for循环里面就不sleep嘛,这样不就能及时处理了吗?
及时是及时了,但是CPU估计要跑飞了。不加sleep,那在没有fd需要处理的时候,估计CPU都要跑到%了。这个也是无法接受的。
纠结了,那sleep吞吐不行,不sleep浪费cpu,怎么办?
这种情况用户态很难有所作为,只能求助内核来提供机制协助来。因为内核才能及时的管理这些通知和调度。
我们再梳理下IO多路复用的需求和原理。IO多路复用就是1个线程处理多个fd的模式。我们的要求是:这个“1”就要尽可能的快,避免一切无效工作,要把所有的时间都用在处理句柄的IO上,不能有任何空转,sleep的时间浪费。
有没有一种工具,我们把一箩筐的fd放到里面,只要有一个fd能够读写数据,后台loop线程就要立马唤醒,全部马力跑起来。其他时间要把cpu让出去。
能做到吗?能,这种需求只能内核提供机制满足你。
这事Linux内核必须要给个说法?是的,想要不用sleep这种辣眼睛的实现,Linux内核必须出手了,毕竟IO的处理都是内核之中,数据好没好内核最清楚。
内核一口气提供了3种工具select,poll,epoll。
为什么有3种?
历史不断改进,矬->较矬->卧槽、高效的演变而已。
Linux还有其他方式可以实现IO多路复用吗?
好像没有了!
这3种到底是做啥的?
这3种都能够管理fd的可读可写事件,在所有fd不可读不可写无所事事的时候,可以阻塞线程,切走cpu。fd有情况的时候,都要线程能够要能被唤醒。
而这三种方式以epoll池的效率最高。为什么效率最高?
其实很简单,这里不详说,其实无非就是epoll做的无用功最少,select和poll或多或少都要多余的拷贝,盲猜(遍历才知道)fd,所以效率自然就低了。
举个例子,以select和epoll来对比举例,池子里管理了个句柄,loop线程被唤醒的时候,select都是蒙的,都不知道这个fd里谁IO准备好了。这种情况怎么办?只能遍历这个fd,一个个测试。假如只有一个句柄准备好了,那相当于做了1千多倍的无效功。
epoll则不同,从epoll_wait醒来的时候就能精确的拿到就绪的fd数组,不需要任何测试,拿到的就是要处理的。
epoll池原理下面我们看一下epoll池的使用和原理。
epoll涉及的系统调用epoll的使用非常简单,只有下面3个系统调用。
epoll_createepollctlepollwait就这?是的,就这么简单。
epollcreate负责创建一个池子,一个监控和管理句柄fd的池子;
epollctl负责管理这个池子里的fd增、删、改;
epollwait就是负责打盹的,让出CPU调度,但是只要有“事”,立马会从这里唤醒;
epoll高效的原理Linux下,epoll一直被吹爆,作为高并发IO实现的秘密武器。其中原理其实非常朴实:epoll的实现几乎没有做任何无效功。我们从使用的角度切入来一步步分析下。
首先,epoll的第一步是创建一个池子。这个使用epoll_create来做:
原型:
intepoll_create(intsize);示例:
epollfd=epoll_create();if(epollfd==-1){ perror("epoll_create");exit(EXIT_FAILURE);}这个池子对我们来说是黑盒,这个黑盒是用来装fd的,我们暂不纠结其中细节。我们拿到了一个epollfd,这个epollfd就能唯一代表这个epoll池。
然后,我们就要往这个epoll池里放fd了,这就要用到epoll_ctl了
原型:
intepoll_ctl(intepfd,intop,intfd,structepoll_event*event);示例:
if(epoll_ctl(epollfd,EPOLL_CTL_ADD,,&ev)==-1){ perror("epoll_ctl:listen_sock");exit(EXIT_FAILURE);}上面,我们就把句柄放到这个池子里了,op(EPOLL_CTL_ADD)表明操作是增加、修改、删除,event结构体可以指定监听事件类型,可读、可写。
第一个跟高效相关的问题来了,添加fd进池子也就算了,如果是修改、删除呢?怎么做到时间快?
这里就涉及到你怎么管理fd的php模糊查询源码数据结构了。
最常见的思路:用list,可以吗?功能上可以,但是性能上拉垮。list的结构来管理元素,时间复杂度都太高O(n),每次要一次次遍历链表才能找到位置。池子越大,性能会越慢。
那有简单高效的数据结构吗?
有,红黑树。Linux内核对于epoll池的内部实现就是用红黑树的结构体来管理这些注册进程来的句柄fd。红黑树是一种平衡二叉树,时间复杂度为O(logn),就算这个池子就算不断的增删改,也能保持非常稳定的查找性能。
现在思考第二个高效的秘密:怎么才能保证数据准备好之后,立马感知呢?
epoll_ctl这里会涉及到一点。秘密就是:回调的设置。在epoll_ctl的内部实现中,除了把句柄结构用红黑树管理,另一个核心步骤就是设置poll回调。
思考来了:poll回调是什么?怎么设置?
先说说file_operations->poll是什么?
在fd篇说过,Linux设计成一切皆是文件的架构,这个不是说说而已,而是随处可见。实现一个文件系统的时候,就要实现这个文件调用,这个结构体用structfile_operations来表示。这个结构体有非常多的函数,我精简了一些,如下:
structfile_operations{ ssize_t(*read)(structfile*,char__user*,size_t,loff_t*);ssize_t(*write)(structfile*,constchar__user*,size_t,loff_t*);__poll_t(*poll)(structfile*,structpoll_table_struct*);int(*open)(structinode*,structfile*);int(*fsync)(structfile*,loff_t,loff_t,intdatasync);//....};你看到了read,write,open,fsync,poll等等,这些都是对文件的定制处理操作,对于文件的操作其实都是在这个框架内实现逻辑而已,比如ext2如果有对read/write做定制化,那么就会是ext2_read,ext2_write,ext4就会是ext4_read,ext4_write。在open具体“文件”的时候会赋值对应文件系统的file_operations给到file结构体。
那我们很容易知道read是文件系统定制fd读的行为调用,write是文件系统定制fd写的行为调用,file_operations->poll呢?
这个是定制监听事件的机制实现。通过poll机制让上层能直接告诉底层,我这个fd一旦读写就绪了,请底层硬件(比如网卡)回调的时候自动把这个fd相关的结构体放到指定队列中,并且唤醒操作系统。
举个例子:网卡收发包其实走的异步流程,操作系统把数据丢到一个指定地点,网卡不断的从这个指定地点掏数据处理。请求响应通过中断回调来处理,中断一般拆分成两部分:硬中断和软中断。poll函数就是把这个软中断回来的路上再加点料,只要读写事件触发的时候,就会立马通知到上层,采用这种事件通知的形式就能把浪费的时间窗就完全消失了。
划重点:这个poll事件回调机制则是epoll池高效最核心原理。
划重点:epoll池管理的句柄只能是支持了file_operations->poll的文件fd。换句话说,如果一个“文件”所在的文件系统没有实现poll接口,那么就用不了epoll机制。
第二个问题:poll怎么设置?
在epoll_ctl下来的实现中,有一步是调用vfs_poll这个里面就会有个判断,如果fd所在的文件系统的file_operations实现了poll,那么就会直接调用,如果没有,那么就会报告响应的错误码。
staticinline__poll_tvfs_poll(structfile*file,structpoll_table_struct*pt){ if(unlikely(!file->f_op->poll))returnDEFAULT_POLLMASK;returnfile->f_op->poll(file,pt);}你肯定好奇poll调用里面究竟是实现了什么?
总结概括来说:挂了个钩子,设置了唤醒的回调路径。epoll跟底层对接的回调函数是:ep_poll_callback,这个函数其实很简单,做两件事情:
把事件就绪的fd对应的结构体放到一个特定的队列(就绪队列,readylist);
唤醒epoll,活来啦!
当fd满足可读可写的时候就会经过层层回调,最终调用到这个回调函数,把对应fd的结构体放入就绪队列中,从而把epoll从epoll_wait出唤醒。
这个对应结构体是什么?
结构体叫做epitem,每个注册到epoll池的fd都会对应一个。
就绪队列很高级吗?
就绪队列就简单了,因为没有查找的需求了呀,只要是在就绪队列中的epitem,都是事件就绪的,必须处理的。所以就绪队列就是一个最简单的双指针链表。
小结下:epoll之所以做到了高效,最关键的两点:
内部管理fd使用了高效的红黑树结构管理,做到了增删改之后性能的优化和平衡;
epoll池添加fd的时候,调用file_operations->poll,把这个fd就绪之后的回调路径安排好。通过事件通知的形式,做到最高效的运行;
epoll池核心的两个数据结构:红黑树和就绪列表。红黑树是为了应对用户的增删改需求,就绪列表是fd事件就绪之后放置的特殊地点,epoll池只需要遍历这个就绪链表,就能给用户返回所有已经就绪的fd数组;
哪些fd可以用epoll来管理?再来思考另外一个问题:由于并不是所有的fd对应的文件系统都实现了poll接口,所以自然并不是所有的fd都可以放进epoll池,那么有哪些文件系统的file_operations实现了poll接口?
首先说,类似ext2,ext4,xfs这种常规的福州13水源码文件系统是没有实现的,换句话说,这些你最常见的、真的是文件的文件系统反倒是用不了epoll机制的。
那谁支持呢?
最常见的就是网络套接字:socket。网络也是epoll池最常见的应用地点。Linux下万物皆文件,socket实现了一套socket_file_operations的逻辑(net/socket.c):
staticconststructfile_operationssocket_file_ops={ .read_iter=sock_read_iter,.write_iter=sock_write_iter,.poll=sock_poll,//...};我们看到socket实现了poll调用,所以socketfd是天然可以放到epoll池管理的。
还有吗?
有的,其实Linux下还有两个很典型的fd,常常也会放到epoll池里。
eventfd:eventfd实现非常简单,故名思义就是专门用来做事件通知用的。使用系统调用eventfd创建,这种文件fd无法传输数据,只用来传输事件,常常用于生产消费者模式的事件实现;
timerfd:这是一种定时器fd,使用timerfd_create创建,到时间点触发可读事件;
小结一下:
ext2,ext4,xfs等这种真正的文件系统的fd,无法使用epoll管理;
socketfd,eventfd,timerfd这些实现了poll调用的可以放到epoll池进行管理;
其实,在Linux的模块划分中,eventfd,timerfd,epoll池都是文件系统的一种模块实现。
思考前面我们已经思考了很多知识点,有一些简单有趣的知识点,提示给读者朋友,这里只抛砖引玉。
问题:单核CPU能实现并行吗?
不行。
问题:单线程能实现高并发吗?
可以。
问题:那并发和并行的区别是?
一个看的是时间段内的执行情况,一个看的是时间时刻的执行情况。
问题:单线程如何做到高并发?
IO多路复用呗,今天讲的epoll池就是了。
问题:单线程实现并发的有开源的例子吗?
redis,nginx都是非常好的学习例子。当然还有我们Golang的runtime实现也尽显高并发的设计思想。
总结IO多路复用的原始实现很简单,就是一个1对多的服务模式,一个loop对应处理多个fd;
IO多路复用想要做到真正的高效,必须要内核机制提供。因为IO的处理和完成是在内核,如果内核不帮忙,用户态的程序根本无法精确的抓到处理时机;
fd记得要设置成非阻塞的哦,切记;
epoll池通过高效的内部管理结构,并且结合操作系统提供的poll事件注册机制,实现了高效的fd事件管理,为高并发的IO处理提供了前提条件;
epoll全名eventpoll,在Linux内核下以一个文件系统模块的形式实现,所以有人常说epoll其实本身就是文件系统也是对的;
socketfd,eventfd,timerfd这三种”文件“fd实现了poll接口,所以网络fd,事件fd,定时器fd都可以使用epoll_ctl注册到池子里。我们最常见的就是网络fd的多路复用;
ext2,ext4,xfs这种真正意义的文件系统反倒没有提供poll接口实现,所以不能用epoll池来管理其句柄。那文件就无法使用epoll机制了吗?不是的,有一个库叫做libaio,通过这个库我们可以间接的让文件使用epoll通知事件,以后详说,此处不表;
后记epoll池使用很简洁,但实现不简单。还是那句话,Linux内核帮你包圆了。
今天并没有罗列源码实现,以很小的思考点为题展开,简单讲了一些epoll的思考,以后有机会可以分享下异步IO(aio)和epoll能产生什么火花?Golang是怎样使用epoll池的?敬请期待哦。
原创不易,更多干货,关注:奇伢云存储
Apache Ranger整合Hadoop、Hive、Spark实现权限管理
在先前的文章《说说PB级生产上重要的Spark 3.x性能优化方向》中,提到了业务人员在处理数据时可能因误操作而造成数据损坏的问题。在许多场景中,数仓需要直接开放给业务分析人员使用,他们经常执行SQL进行场景分析和验证。为此,可以提供一个WebUI供他们使用,如Hue。然而,由于数仓数据庞大,不可能全部开放给业务人员,因此对外供数时必须提供权限控制。
权限控制方面,CDH上提供的Sentry是一个不错的选择,它基于RBAC进行授权,可以针对库、表等设置不同用户权限。CM的加入使得Sentry的配置变得简单,但Sentry在用户管理方面较为繁琐,且项目已进入Apache Attic,因此选择Sentry并非明智之举。
实际上,许多公司的生产环境都是外网隔离的,特别是涉及敏感数据的小猴公司。开发、运维人员进入生产环境需要经过严格的防辐射网站源码校验,接入公司的生产专用网络,并通过堡垒机,任何人都无法导出数据,且每个操作都有审计跟踪。尽管如此,业务人员仍需开放访问,尽管他们通过专门的跳板机访问,但依然存在风险。
Apache Ranger只要有大数据集群的地方就都需要。本文解决了Ranger不支持Spark SQL的问题,实现了库、表、行、列级别的细粒度权限控制。由于官方文档和百度文档有限,本文将分享相关信息,希望能帮助到大家。
Apache Ranger是一个用于Hadoop平台上的权限框架,旨在服务于整个大数据生态圈。随着Hadoop在数据湖领域方案的成熟,对数据权限控制的要求也日益提高。Ranger现在提供了更多对大数据生态组件的支持。
Hadoop中的数据访问多样化,如存储在HDFS的数据可以被Hive、Spark或Presto访问。这么多组件访问数据,若不进行集中权限控制,数据安全性将面临严重问题。因此,大数据平台通常需要一个集中管理权限的组件或框架,Ranger正是这样的组件。
当前Ranger版本为2.1,官方提供的版本为2.1。编译测试基于Ranger 2.1版本。官方未提供安装包,需要手动下载Ranger源码包进行编译。编译环境要求提前安装,具体可参考官方网站。
编译成功后,将tar.gz包拷贝到本地。部署Ranger Admin的安装方式与Ranger类似:安装Ranger admin、创建ranger用户并设置密码、上传解压安装包、拷贝MySQL JDBC库、在MySQL中创建ranger库和用户、初始化配置、初始化Ranger admin。若显示成功,则表示初始化成功。在MySQL中可以看到ranger数据库中已创建大量表。
配置Ranger设置数据库密码、配置环境变量、启动Ranger admin访问web UI。登录后,主界面显示如下。点击右上角的“Swith to latest UI”可以切换到最新的UI展示。若安装过程中出现问题,请检查日志。
安装Ranger usersync配置admin认证模式。Ranger中admin的认证方式有三种:Unix、Active Directory、Kerberos。此处使用Unix方式进行认证,意味着后续Ranger admin登录会按照Linux中的认证同步。上传解压Ranger usersync组件、修改初始化配置、初始化配置、配置Linux系统用户组同步配置环境变量、启动usersync服务、修改Ranger admin的认证方式、重新启动Ranger admin。在ranger-admin中可以看到所有Linux中的所有用户。
安装Ranger HDFS插件。注意,HDFS插件需要安装在NameNode对应的节点中,YARN插件需要安装在ResourceManager对应的节点上。解压HDFS插件、初始化配置、启用hdfs插件。Ranger HDFS插件会将当前的配置文件保存备份。可以查看ranger对这些配置文件的更改。
在PM中添加HDFS服务、配置HDFS服务权限策略、默认策略、策略配置、测试用户访问权限、在ranger中添加组合用户、基于角色授权、测试。我们发现,只要Ranger中的权限已更新,hdfs客户端就可以实现更新。
按照之前的配置,审计日志信息保存在指定目录。找到一条审计日志,查看其中的内容。审计日志中包含操作时间、路径、资源类型、对应Ranger中的策略等信息。一旦出现安全类问题,通过审计日志可以检查到进行了哪些操作。
部署Ranger HDFS HA。在HDFS的HA集群上,NameNode可能会发生failover,因此非常有必要在每个HDFS的NameNode上部署一个HDFS插件,以确保在HA切换时能够正常控制权限。部署hdfs plugin到每个NameNode节点、初始化NameNode、测试NameNode节点权限。测试lisi用户在/tmp目录的写入权限,发现当前lisi没有写入权限。在Ranger中启用sales角色的用户具备/tmp目录可写权限。重新执行写入操作,NameNode接入Ranger权限控制成功。
部署Ranger框架整合Hive、上传解压Hive插件、初始化配置、启动Hive插件。Ranger会对Hive的配置文件进行处理,生成hiveserver2-site.xml、ranger-hive-audit.xml、ranger-hive-security.xml等文件。重新启动Hive、beeline登录到hive、在PM中添加Hive服务、添加Hive Service、查看权限策略、查看默认hive导入的权限、使用hive查看数据、给hadoop组用户授权、检查spark用户操作权限、授权hadoop组、对某个库、表、列设置细粒度权限、测试数据打码处理、测试Ranger Admin crash对Hive的影响、部署Ranger Spark SQL、编译Apache submarine spark-security模块、配置、配置Spark SQL、测试Thrift Server、测试Spark SQL SHELL、到此Ranger整合Spark SQL完成、查看spark sql审计日志、报错信息处理、找不到AllocationFileLoaderService$Listener、异常信息、解决办法、参考文献。
面试说两天给结果给我,那都没有机会为什么不说今天给结果给我?
今天给大家分享一个关于一次奇葩面试:喊价K,HR却给了K的经历,网友评论说:面试造飞机,工作拧螺丝?自报家门
先做个自我介绍,楼主坐标帝都,5 年经验,跳槽之前在一家传统小公司,年薪 万。
这次面试前前后后大概两个月的时间,面试了大概 6 家公司,命中 4 家,最终去了一家估值 亿美金的生鲜电商独角兽,年薪 万,刚好翻倍。
面试过程
话不多说,直接进入面试现场!
好未来
开始面试第一天上午投递好未来,下午 3 点面试,一共面试了 3 轮,问的问题比较多。
第一轮
面试官看了我的简历,首先让我画出 Eureka 的执行流程,这块在之前的准备过程中有深入看过,因此比较流畅的画出来并配合解释说明。
之后问到项目中使用分布式锁解决缓存重建并发的问题,并要求画出实际的执行流程,数据库也问的比较多,像事务的隔离级别,MySQL 实现可重复读的原理,索引等。
面试官给出了一个场景,在数据库主从同步的情况下,如果从库同步主库的数据延迟比较高,怎么才能在写到主库后立刻能够读取到数据。
我解释了主从同步的原理,并以此说明主库到从库的复制一定是有延迟的,因此要保证当写到主库的时候立刻能读到数据。
要么就直接配置那个接口读数据的话直接走主库,因为这种写完主库立刻要读取数据的场景比较少,可以做些特殊配置。
另一种方案就是在往主库写数据的时候,可以直接往内存缓存中写一份,设置一个较短的过期时间,后面可以直接从缓存中读到数据。我说完之后,面试官也没给出评价,就这么过去了。
此外,还问到一些基础性的问题,比较印象深刻的是:在加锁的时候,用什么锁对象是内存占用最小的,我说是 Object 对象,面试官说不对,我一时没想出来,面试结束后和朋友探讨,觉得应该是长度为 0 的 byte 数组。
其他还问到了 Collections.sort() 使用的排序算法,AQS,线程池,ThreadLocal 等等问题,主要都是一些考察基本功的问题,一轮面试就这么过去了!
第二轮
面试官更关注对一些技术的理解,问到了 ElasticSearch 的一些基础以及它和 MySQL 的区别在哪里;Eureka 和 Zookeeper 做服务发现的区别在哪里。
还问了分布式限流有哪些方案,以及用线程池进行限流的缺陷是什么,项目中系统日志的处理;还有 JVM 模型,JMM 模型,垃圾回收机制,垃圾收集器等问题。
之后聊了一些设计模式的使用,在项目中使用了哪些设计模式,对设计模式的几个原则的理解。
第二轮结束后,由于第三轮的面试官在开会,所以等了一段时间,等面试官来了之后,只聊了很短时间,面试官就说还有别的事,今天先到这里了。
主要问到了上家公司的加班情况,对加班的认识,职业规划,也问了几个技术问题,像 Tomcat 的优化这块,自我感觉答的不是很好。
整个面试从 3 点到 7 点,有点虎头蛇尾的感觉,结束后也没有消息了。
到家
面试一共三轮,上午 点过去,两轮技术面,下午两点过去,等了一会,然后跟 HR 聊了有半个多小时,HR 说明在一周之内会有结果。
第一轮
第一轮面试官的问题主要集中在基础上,我大概罗列了问到的一些问题,不同的简历不同人肯定问的也不太一样,有兴趣的同学可以参考看看。
主要是 JVM 模型,锁的原理,Synchronized 和 ReentrantLock的区别,偏向锁/轻量级锁/重量级锁的原理,能否从偏向锁直接升级成重量级锁。
Java 并发包里有哪些类,如何使用,线程池原理和参数配置,JVM 调优,堆大小的设置,多线程的线程数的设置,Volatile 原理,ThreadLocal 原理和使用。
Redis 和 Zookeeper 如何实现分布式锁,Redis 的数据类型,一些具体命令,比如要获取一个有序列表的前 个元素应该用什么命令。
数据库索引的使用,聚簇索引和非聚簇索引,没有主键的话,数据如何组织。
B+ 树的原理,InnoDB 引擎和 MyISAM 引擎的区别和使用场景,数据库隔离级别和原理,MySQL 的分库分表,MQ 的可靠性和顺序性,ES 插入数据的原理等。
第二轮
第二轮是部门 Leader 来面试,这轮面试主要集中在框架源码上,我画出了源码的执行流程,之后面试官在一些点深问,因为这块我看的比较全面,问的问题基本都答出来了。
然后这里面试官还问了在源码中我有学到什么东西,我讲了使用配置类代替 Properties 文件,Volatile 在单例模式中的使用,内存的多级缓存机制,线程池的各种不同应用场景,MeasureRate 统计一分钟内心跳次数,批处理机制等。
这里我的回答主要集中在代码编写层面,也可以从架构层面说下学到了哪些,我觉得后者更有高度。
最后我向面试官咨询了这个岗位具体做的事情,部门是基础服务部,面试官画图给我说明了部门内部一些项目划分,技术栈的使用,后续的规划等内容,并约我下午继续跟 HR 聊。
HR 面
下午跟 HR 的面试,HR 顺着简历上的公司一个个聊,问了离职原因,公司情况,如何向上司提出离职的,团队规模,是否带团队。
还问了上午面试的岗位知不知道具体要做什么,之后 HR 说了下公司的一些情况,上班时间,福利,加班情况,问了我现在的薪资情况,期望薪资,我问了下出结果的时间,HR 说一周之内。
第二周的周五下午六七点的时候,这家公司 HR 给我打电话,告诉我面试通过了,之后提到了给我的薪资,算下来竟然只给了我一个 5% 的涨幅。
HR 给出的解释是,因为我前家公司上一年只发了 薪,而他们有 薪和两个多月的绩效,用 个月的薪水除以 ,算下来平均到每个月也能达到我期望薪资的水平。
这个计算方法实在是膈应人,虽然 HR 后来表示可以跟 CEO 申请提高每月的 Base(大概提高到 % 的水平吧),不过当时我已经有较为满意的 Offer 了,还是决定不去这家了。
某生鲜电商独角兽
由于前面说了薪资,就不说具体公司名字了。这家公司我面试了两天,一共三面,第一天笔试加初面,然后第二天有两轮复试。
第一轮
一面主要还是基础,集中在 IO/并发/缓存/Redis/Zookeeper/分布式/JVM/数据库等。
其中问到 Redis 的单线程模型的时候,我这块了解的不是很清楚,只是知道使用 NIO 的方式,然后以自己的理解去说了,面试官表示这可能是我看过别的框架的模式,跟 Redis 搞混了,不过也算是答上来一些了。
之后聊了一些项目的情况,比如每日的访问量有多少,QPS 多少,订单量多少等数据,据此得出数据库的访问压力如何。
另外也深入问了使用分布式事务的一些问题,还有分布式事务在时间上的性能。
所以这里给各位兄弟强调一下,对自己的项目一定要非常熟悉,各个点都要考虑到。
一面跟面试官聊的还挺好,面试官也表示我的基础还不错,问我是不是平时都有学习,之后就是约二面了。
由于当时已经下午 1 点了,后面的面试官也在中午休息,而我下午也还有别的面试,因此 HR 跟我约第二天来复试。
第二轮
二面的面试官也聊了基础和一些设计上的问题,比如同时访问三个有相同功能的 API,要求将执行最快的结果返回,有哪些方式,这块主要还是考察对并发编程,并发控制的理解和掌握,有一些并发控制的类能够做到。
其他的还问到了,要开发一个新的 API,需要考虑哪些方面,把所有要考虑的地方都说出来,大家可以说下边界处理,高可用,并发问题,可扩展性,幂等性,重试机制等等,可以说的非常多。
总体问了有 6 块内容吧,面试官一边问也一边在记录,一些基础的问题这里就不再多说了。
第三轮
三面的面试官问的要更底层一些,Java 线程与内核线程的关系,与进程的关系;关于并发我所了解的方方面面。
对于这个,我从为什么有并发,并发问题产生的根源,解决并发问题的一些理论,Java 中解决并发问题的方式,不同方式的适用场景和对比等方面进行了回答。
另外还问到 Redis 的几种数据类型,以及每种数据类型的底层实现,跳表这种数据结构如何插入数据, Hash 如何扩容。
这块我跟面试官说具体扩容规则不太了解,然后向面试官说了我了解的 Java 中的 HashMap 的扩容规则和具体实现。
Tips:面试时如果遇到自己不太熟悉的部分,可以稍作变通,把自己熟悉的内容和面试官的问题结合起来。
之后又问了一些小的知识点,有的也没答好,像 CopyOnWrite 就不知道用来做什么,然后就是一些为什么离职之类的问题,对未来职业发展的考虑等。
之后面试官问我有什么想了解的,也问了我的期望薪资,我说了具体的数,也表示没想要太多,更看重平台的发展,最后面试官说明天 HR 会打电话给我。
HR 面
最后就是跟 HR 的沟通了,第二天 HR 打来电话告知面试通过,然后问了我期望薪资,沟通入职时间,之后加微信,按照 HR 的要求提供了一些材料,第二天就收到 Offer 了。
PS:最终楼主选择了这家公司,除了很有竞争力的薪资之外,我还很看重这家公司的发展平台,因为他们有非常大的用户量,会遇到各种技术挑战,是很好的提升锻炼的机会。
然后这里有一个开篇提到的小插曲:当时 HR 电话问我期望薪资的时候,我说 K。
结果后续加微信聊天时,HR 告诉我技术面试的反馈很好,决定给我 K,一个月还有 的补助,算下来一个月有 K,发 个月。这种 HR 主动加薪的事情我还是第一次见,意外之喜,哈哈!
玩吧
这家公司的职位是去做 App 后台的,用户量也不错,面试一共两轮技术面,最后是 HR 面。
第一轮
一面的时候,网络这块问的比较多,三次握手,四次挥手什么的,还有整个网络请求的执行流程,数据包的大小,对长连接的理解等。
然后数据库这块也问了一些,提供了一个场景,假如要实现一个最简单的朋友圈,用户可以看到朋友的朋友圈动态,朋友也可以看到用户发的动态,然后问表的设计。
我说了自己的实现,像用户表,好友表。面试官问有没有更好的方式,我没答上来,面试官表示这个轻易可能想不到,就问别的问题了,别的也没什么特殊的问题,都是一些基础的东西,大概聊了一个小时吧,就到了第二面了。
第二轮
二面是技术总监面的,整体没怎么聊技术,就是一些个人素质上的考察。比如:
为什么会选择做开发,没做别的用三个短语来描述自己的优点说说自己的缺点现在公司有系统稳定运行着,如果你发现了有新的技术能够改善现有系统,你会不会引进,会考虑哪些方面日常学习的方式,看过哪些书有没有带团队,描述下团队成员的优缺点,有没有改善有没有面试过别人,会从哪些方面考察职业规划是怎样的,想做技术管理还是技术专家对 Shell 熟不熟悉,写个 Word-Count 用到哪些命令最后还聊了下公司的氛围,项目的情况等。然后也没啥特殊的,就过了。
HR 面
最后跟 HR 聊,主要还是说了下公司的福利待遇,公司的氛围,也问了我现在有没有 Offer,对他们的感觉怎么样。
然后问了之前公司的薪资和现在的期望薪资,最后加了微信,告诉我两天内给结果。最后也是成功通过了面试并拿到了 Offer。
友信金服-人人贷
这家公司面试有三轮,大同小异,这里简短的说一下。
第一轮
一面仍然是基础的考察,像 CAS 的理解,和它存在的问题,ConcurrentHashMap 的锁机制,ElasticSearch 倒排索引,Eureka 的底层源码,还有服务访问的重试机制等等。
第二轮
二面上来问了垃圾回收的问题,类似下面的代码:
问 a 和 b 能否被垃圾回收?这里主要考察 JVM 如何判断一个对象是否可以被回收,是通过引用计数还是可达性分析,引用计数的方式会产生像上面代码一样的循环引用的问题,所以 JVM 没有采用这种方式。
第二个问题是,如果有个跟 Java 中原生的 String 一模一样的类,包括包名,类名都是一样的,方法也是一样的,唯独比原生的 String 的方法多个打印输出语句。
然后把它放进项目的依赖中,在写程序的时候,导入 String 类,问到底执行的是 Java 原生的 String 的方法还是自己写的 String 方法。
对于这个问题,可以考虑下 Java 中类加载的双亲委派模型。
然后就聊了项目的一些架构,问的比较细,要求我对每块都详细画图解释。
最后就是让画一个 Spring Cloud 技术栈所有框架的整体执行流程图,并对 Hystrix 的限流熔断机制做了解释说明,别的好像也没什么了。
这之后二面算是结束了,面试官和我说了下自己团队的情况,人员情况,要做的项目的情况等。
第三轮
最后一面是业务总监面的,面试官让我说了下自己在公司做了哪些事情,我挑其中一个项目做了仔细说明,然后说了下职业规划,对行业的看法等等。
最后 HR 和我加了微信,同样说是两天内给结果,不过第二天他们就给出通过的结果了,然后发了 Offer。
某实时数据分析服务公司
这是一家做体育赛事的实时数据分析展示的公司,公司不大,去年拿了 A 轮融资,看网上整体评价还不错,就去试了试。
面试总共有技术两轮,HR 一轮。去的时候首先是写笔试题。做完之后进入面试。
第一轮面试官没有聊太久,问的问题也比较偏基础,就是一些面试常问的问题,然后说了 Eureka 的执行原理,说完之后,面试官就去叫技术总监了。
第二轮面试是技术总监面的,技术点没问太多,主要集中在之前的笔试题上,笔试题包括 SQL 的考察,还有几道算法题:找出有序数组中指定元素出现的次数;二叉查找树从小到大排序。因为时间的问题,我主要写了实现思路。
还有一题是,有 瓶水,其中一瓶有毒,小白鼠喝一滴有毒的水一小时后会死,要在一小时找出来哪瓶水有毒最少需要几只小白鼠。
在 SQL 的考察这块,面试官看完我的答案后,又改了其中的需求,要求给出 SQL 的实现,另外也问到了 SQL 的执行效率。
这里给大家强调一下,我面的基本上每家公司面试都会问到数据库,所以这块还是挺重要的,需要重点去看。
然后关于找出有序数组中指定元素出现次数的问题,原来要求的时间复杂度是 O(lgn),后来面试官说不要求任何时间空间复杂度,如何简单的实现,我给出的方案是用 HashMap,相同的 Key 每出现一次,Value 加 1。
然后是小白鼠问题,说了解题思路,主要就是用位的思想,对 瓶水编码,实际只需要 4 个位就可以。
之后面试官还现场出了别的算法题,我基本都给出了结果,总体而言面试还比较顺畅,之后聊了下职业规划,技术发展,学习新技术的方法,面试官也聊了之后他们准备做的事情,并给我现场演示了他们的项目。
最后到了 HR 面,主要聊了下上家公司离职的原因,公司福利,上下班时间,我的期望薪水,还问到之前有没有带团队的经历等。
最终他们在第二周的周四才给出面试通过的结果并表示正在走 Offer 流程,由于 CEO 不在,在薪资上还没最终确定,我因为有了更满意的 Offer,因此婉拒了。
总结
总结一下,这两个月的面试,我觉得最重要的就是基础和项目这两块,基础一定要扎实,否则第一轮面试可能都过不了。
JVM,并发是非常高频被问到的地方,在开始面试之前一定要好好准备,另外也需要有自己非常熟悉的领域。
在这个领域里,面试官的一切问题你都可以 Hold 住,我觉得,对于这种基础好,而且有自己长处的面试者,面试官没有理由不喜欢。
还有项目这块,对项目的细节一定要清楚,各种方案的设计思路,实现细节等等都要了如指掌,这样在面试官对各种细节的追问下不至于手忙脚乱。