第一题
你所在的行业,常用的数据分析指标有哪些?请简述。
我是做招聘软件的,这行虽然落后 😅,但其实也是有数据分析指标的——招聘指标。稍微列几个常用的指标,这些指标常常出现在管理系统的 Dashboard 页面上:
招聘周期:找到合适的雇佣候选人所用的时间
录用时间:从接触候选人到候选人接受工作之间的天数
工作一年流失率:顾名思义一年级生的离职比例
招聘质量:一般由每年绩效衡量,比较不同年景或不同渠道入职的员工素质
候选人满意度:跟踪招聘过程中设定的期望是否符合实际情况的一种度量手段
人均成本:招聘总投入
/
招聘人数渠道成本:通过对不同渠道的广告投入
/
通过成功申请的访问者人数,用于衡量每位员工的采购渠道成本招聘渠道有效比:通过衡量渠道中所有不同步骤的有效性,指定每个步骤的收益率
达到生产力时间:刚入职的员工几乎都是负产出的,通过一定培训后才能达到正产出;该指标用于衡量达到生产力的时间,或达到最佳生产力水平的时间,用于改善技能培训等事宜
第二题
Google 搜索引擎是如何对搜索结果进行排序的?(请用自己的语言描述 PageRank 算法。)
PageRank 算法,又称佩奇排名,是 Google 公司对其搜索引擎搜索结果中的网页进行排名的一种算法。
PageRank 算法通过输出概率分布来体现某人随机地点击某个链接的概率——PR 值。
算法定义有点抽象,我们通过一个简化版的示例来介绍一下如何计算 PR 值。假设总共只有四个网页 A、B、C、D,所有的页面只指向 A,那么 A 的 PR 值就是 B、C、D 的 PR 总和:
再比如 B 链接到 A 和 C;C 链接到 A;并且 D 链接到 A、B、C:
B 就会分出去半票 给 A 、C ;C 给 A 一票;D 给其他各页面三分之一票,结果PR(A)
的值就是:
概括一下:算法会根据每个页面总出度L(x)
——指向其他页面的总个数——平分该页面的 PR 值,并将其加到所指向的页面:
算法最后会添加一个系数 d
做修正:
- 给添加出度权重后的 PR 值再乘上该修正系数
d
- 并保证每个页面的最小值为
(1-d) / N
,N
为集合中网页的数目
p.s. d
是根据上网者使用浏览器书签的平均频率估算而得,大约为 0.85
我们得到:
同理,我们把该公式泛化到所有的页面,即:
写成矩阵形式:集合中所有页面的 PR 值可以由一个特殊的邻接矩阵的特征向量表示,这个特征向量 R 为:
PageRank 算法中,一个页面的 PR 值直接取决于指向它的的页面。如果在最初给每个网页一个随机且非零的 PR 值,通过上述公式经过多次迭代,这些页面的 PR 值会收敛某个定值,即最终结果。