我在面试过程中会问的一些题目

回答知乎文章“如何去判断一个面试者的深度学习水平”

传统机器学习:

1. bias 及 variance的含义,并结合ensemble method问哪种方法降低bias, 哪种方法降低variance

bias: 偏差,理解为残差,离最终目标的距离 都可以

variance:方差,理解为最终训练出来的数据分布的离散程度

ensemble方法,主要分两种:bagging and boosting

显然的,以随机森林为代表的bagging方法 从算法设计的角度上就是以提高偏差为代价来降低预测值的方差

反之,以gbdt为代表的boosting方法,就是以提高方差为代价来降低预测值的偏差

单纯以rf,gbdt来讨论的话,我更愿意在分类问题中使用随机森林,回归问题中使用gbdt

当然xgboost是大杀器,哈哈哈哈

2. lr与svm的区别和联系

判别函数,目标函数,优化求解方法 三个角度来考虑区别

联系的话,我脑海里只对LR和朴素贝叶斯之间有联系哈哈哈哈。。

LR的判别函数:sigmoid化的线性回归方程

SVM的判别函数:距离可分超平面的几何间隔

LR 的目标函数:最大化对样本的归类事实的极大似然估计

SVM的目标函数:最大化样本归类事实的几何间隔(几何间隔相当于函数间隔的标准化,除了一个\vert \vert w \vert  \vert )

                            且带有约束条件:每一个训练样本的几何间隔必须大于等于目标几何间隔

                            最终化简为最小化 {\vert  \vert w \vert  \vert }^2

LR的优化求解:加入了L1-norm的LR可用坐标下降的方式来求解,L2-norm及其他可用梯度下降来求解

SVM的优化求解:由于存在几何间隔的约束条件, 这其实是个凸二次规划(convex qurdratic programming)问题

                                在求解问题的时候,可抛出一个问题:什么是支持向量(嘘,就是那些等式约束成立的样本点~)

                               且在求解过程中,也需要允许少数outlier不满足约束条件,所以在几何间隔\gamma中又需要引入一个松弛变量\xi

                                并需要对此松弛变量进行惩罚,使松弛的样本尽量少

相互之间的联系:我觉得没什么理论上的联系哈哈哈哈哈哈,主要是区别太大了

3. gbdt与adaboost的区别和联系

先说联系吧,都是booster家族,adaboost出现的更早,对当时学术界的启发性更强

同样从判别函数,目标函数,优化求解方法 三个角度来考虑区别

gbdt的判别函数:样本落在每颗树叶子结点上值的线性加和

adaboost的判别函数:样本落在每颗子树的加权平均

gbdt的目标函数:由于是叠加式的算法,目标函数只定义在第t轮,即在当前找个一个最优的树结构使得

当前的目标残差最小,其中叶子结点的值是由残差的梯度确定的~

adaboost的目标函数:在t轮,最小化指数损失函数

gbdt的优化求解:使用梯度下降进行负梯度的拟合

adaboost的优化求解:对指标损失函数进行偏导数计算即可

4. 手推svm

懒,埋个坑,以后再推。。

5.给一个算法,例如LR,问这个算法的model ,evaluate, optimization

LR的model:sigmoid化的线性回归方程

LR 的evaluate:最大化对样本的归类事实的极大似然估计

LR的optimization:加入了L1-norm的LR可用坐标下降的方式来求解,L2-norm及其他可用梯度下降来求解

6.深度学习为什么不用二阶优化

原因一:牛顿法需要用到梯度和Hessian矩阵,这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式,遑论直接得到其梯度表达式,更不要说得到基于梯度的Hessian矩阵了。

原因二:即使可以得到梯度和Hessian矩阵,当输入向量的维度NN较大时,Hessian矩阵的大小是N×NN×N,所需要的内存非常大。

原因三:在高维非凸优化问题中,鞍点相对于局部最小值的数量非常多,而且鞍点处的损失值相对于局部最小值处也比较大。而二阶优化算法是寻找梯度为0的点,所以很容易陷入鞍点。


7.Batch size 大小会怎么影响收敛速度

直观上来说,batch size 太小容易没法收敛

研究表明大的batchsize收敛到sharp minimum,而小的batchsize收敛到flat minimum,后者具有更好的泛化能力。两者的区别就在于变化的趋势,一个快一个慢,造成这个现象的主要原因是小的batchsize带来的噪声有助于逃离sharp minimum。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352