一个大厂大数据开发工程师的面试过程(面试题目+附答案)

MapReduce

1. 不指定语言,写一个WordCount的MapReduce

我:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下:

2. 上述写的程序中.map((_,1))的输出结果是什么

我:通过flatMap将其扁平化,而.map((_,1)) 则是每个出现单词,1这样的形式展现,此时还没归并。

3. 你能用SQL语句实现上述的MapReduce吗?要求按照基于某个字段的值的频次倒序,并且以维度——频次的形式结果展现?

我:基于某个字段——决定了要用group By,频次要用count聚合,倒序自然少不了desc。

补:框架搭好就是往里塞了:

4.给你一份乱序的100万个数字的文件,你如何来排序?

我:先拆分成若干小的,然后再排(思路是从希尔排序出发的) 

补:内部排序算法:希尔排序

转发关注后;++我vx :bmaaa01 即可获得更多免费资料领取方式!

Spark

1. 说一说Spark程序编写的一般步骤?

我:初始化,资源,数据源,并行化,rdd转化,action算子打印输出结果或者也可以存至相应的数据存储介质

补:具体的可看下图:

2. Spark有哪两种算子?

我:Transformation(转化)算子和Action(执行)算子。

3. Spark提交你的jar包时所用的命令是什么?

我:submit。 

面试官:spark-submit? 

我:嗯,spark-submit。

4. Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?

我:aggeragate 

面试官:还有呢? 

我:记不清了。。。

面试官:还有你刚刚写的那个groupByKey哈

补:

在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子,尽量使用map类的非shuffle算子。这样的话,没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以大大减少性能开销。

5. 你所理解的Spark的shuffle过程?

我:spark shuffle处于一个宽依赖,可以实现类似混洗的功能,将相同的Key分发至同一个Reducer上进行处理。

补:详细探究Spark的shuffle实现

6. 你如何从Kafka中获取数据?

我:topic 

补:分布式消息系统:Kafka

7. 对于Spark中的数据倾斜问题你有什么好的方案?

我:可以先分析基数大造成数据倾斜的维度,将其适当的拆分。

补:Spark性能优化指南:高级篇

转发关注后;++我vx :bmaaa01 即可获得更多免费资料领取方式!

编程

1.如果我有两个list,如何用Python语言取出这两个list中相同的元素?

我:list(set(list1).intersection(set(list2))),通过set 的intersection取交集的函数实现相同元素的提取。

2.请你给出在Python中较快获取一个元素的数据结构,并且说出其时间复杂度以及它的缺陷是什么?

我:因为之前也在做一些leetcode上的题目,多多少少重温了下数据结构,当时脑海里呈现的是数组方便查找,队列和栈方便插入删除,所以一听到较快获取果断数组了。

面试官:dict(字典) 

我:厉害!!

面试官:那它的时间复杂度你晓得嘛? 

我:不是特别了解,O(1),常数时间复杂度?

面试官:嗯,那你知道它的缺陷吗? 

我:(中午吃撑了,TradeOff哈)不晓得

面试官:空间复杂度较高哈

补: 反思了一下,之所以说错,可能和以前学习算法时,起承转合的过度,并未将栈、队列和map,或者dict直接比较,而是从数组切换到队列和栈,所以就和之前的那个PUT和POST差不多,训练逻辑正确,确实数组查询记录方便,但训练广度有些多样性不够。

算法备忘录——基础数据结构与复杂度 

常用数据结构和算法操作效率的对比总结

3. 做几道OJ的题目(英文的),说一说这个问题的要求和注意点,以及可以获得正确结果的你的思路?

恢复IP地址

Given a string containing only digits, restore it by returning all possible valid IP address combinations. Example Given “25525511135”, return [ “255.255.11.135”, “255.255.111.35” ] Order does not matter.

我:思考了一会儿,没想出来,只能想出个不通用的思路。 

面试官:给你个提示,尝试用树这个数据结构。

补:此处埋一个坑,学完树的数据结构再回来解决。

快乐数

Write an algorithm to determine if a number is happy. A happy number is a number defined by the following process: Starting with any positive integer, replace the number by the sum of the squares of its digits, and repeat the process until the number equals 1 (where it will stay), or it loops endlessly in a cycle which does not include 1. Those numbers for which this process ends in 1 are happy numbers. Example 19 is a happy number 1^2 + 9^2 = 82 8^2 + 2^2 = 68 6^2 + 8^2 = 100 1^2 + 0^2 + 0^2 = 1

我:思路是模拟过程法,即按照它验证一个数是否是快乐数的方式进行模拟,当然也有些取巧的方式,如果某个中间结果曾出现过,妥妥滴死循环嘛,即刻跳出。

面试官:思路是对的 

我:我觉得这会TLE,肯定有取巧的方法(这道题目之前好像接触过)

补:回去搜了一下,发现之前一直求助的一个大神的博客通过模拟过程用Python实现的: 

Happy Number (之前的怀疑有更巧方法在于时常保持偷懒的思维也是必要的)

4. 你常用的IDE有哪些?

我:Java:Eclipse;Python:PyCharm;Scala:IntelliJ IDEA;Shell:VIM

5. 你了解设计模式吗?

我:不了解,但以后回去买本O’Really的《设计模式》

6. 什么是Restful API?

我:由于对Restful的了解只停留在使用层面,给我的感觉像是一种资源的提交获取,GET获取,POST/DELETE/PUT都可以看作是一种提交操作

补:

【专业定义】:一种软件架构风格,设计风格而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

Devops

1. 数据库读写分离的目的是什么?

我:①减轻负载;②权限控制

补:读写分离的作用 

看了上面的文章,减轻负载是首要目的,至于权限控制,更像是一种实现方式,不像目的。

2. ZooKeeper是什么?非大数据领域,我们可以用ZooKeeper来做些什么?

我:ZooKeeper是分布式协调组件,非大数据领域,可以用ZooKeeper来做HA或者存储数据,比如配置信息啥的。(Znode) 

补:ZooKeeper 典型应用场景一览

转发关注后;++我vx :bmaaa01 即可获得更多免费资料领取方式!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容