本文为鲸鱼人工总结,请点个赞
内容会持续更新中~
内容多来自牛客,谢谢大佬们的分享,跪着唱感恩的心
超级棒的帖子
link1
1.字节跳动
1.怎么做数据预处理??
2.feature selection
- L1,L2是什么?
4.归一化
5.PCA?
6.如果一份数据feature过少怎么做
7.leetcode上面算法原题。。。
8.前端和后端采集数据会出现的问题
9.spark rdd介绍一下
- spark的懒依赖和宽依赖
11.100亿个数怎么求中位数
12.数组求top k
一道sql题 分组求每组top 3- 二叉树的后序遍历 非递归实现
14.mapreduce介绍一下
15.mapreduce中间有个combine是干嘛的,有什么好处,有什么使用限制吗
- 拿mapreduce join两个表 说一下流程
- hdfs小文件过多会怎么样
- spark的job,stage,task分别说一下
- DAGscheduler干了什么活
- stage划分的依据是什么
- 窄依赖 宽依赖解释一下
- tcp四次挥手介绍一下 为什么会有第二次、第三次、第四次?
- 为什么mysql底层用b+tree
- 用spark求一下dau吧
- kmeans聚类数据量小的时候会出现什么问题
- HashMap是怎样散列的,怎么解决冲突
- list下都有哪些类 arrayList和LinkedList的区别
2.淘宝
1.p值的意义
2.介绍一下Hive;一道Hive题(A,B两表,查询B表中没有,A表中有的;关键字段:学号,课程号)
3.反转字符串有哪几种方法
4.介绍一下词嵌入,one-hot和word2vec的区别,word2vec如何实现的
5.bagging和boosting的区别
6.问你常用的APP(淘宝),如果发现淘宝某一天销售额下降,如何分析?
7.用python写一个冒泡排序,但是不会写
阿里大数据方向
2.说说Spark Streaming实时处理数据的链路
3.Spark Streaming与kafka的两种集成方式与优缺点。
4.谈谈对Hadoop与Spark的理解。
5.说说Hive与HBase的区别
6.说说Hive的底层原理
7.HBase的底层原理
8.MapReduce的原理。
9.谈谈对Kafka的认识,Kafka的分区分配算法。
10.HBase的使用场景。
11.谈谈NoSQL。
12.UDAF与UDTF。
13.说说数据倾斜,以及发生的原因,如何解决。
14.说一下java集合类,说说HashMap的原理。
15.谈谈JDBC底层原理。
3.腾讯
1. 还知道哪些分类算法 / 介绍一下朴素贝叶斯,朴素贝叶斯的特征独立体现在那个方面?
2.case:如果想要发一张优惠券,发多少面额的优惠券使得达到50w活跃人数的同时成本最低
3.知道哪些聚类的算法,kmeans的原理,优势,劣势,怎么确定k值
4. roc-auc曲线
5.特征的选择
6.HDFS介绍、读写特性
7.ES和HDFS的区别
8.设检验和其应用
9.项目中出现的模型一定要理解原理,还被建议要看一下源码和论文(面试官大佬就是大佬。。。),比如xgboost啦,word2vec啦balabala
10问SVM、DT一般应用在什么场景上
11.举例GMM、HMM的应用场景,举了个天气海藻的例子和之前做的项目
12.问tcpip协议
13.xgb和gbdt以及区别
4.蘑菇街
1.sql的数据类型
2.问了一个业务问题,怎么利用用户的行为数据来衡量用户的“价值”
3.因为上一问提到了用户聚类,就问我用什么方法聚类,为什么
4.股票趋势能不能用时间序列模型来预测,如果可以考虑什么模型
股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。