经验| 来,教你们假装成算法行家(入门)

以下算法在大部分的情况下表现都非常好,算是工作中常用算法,具体如下:

  1. Boosted Decision Tree,以 https://github.com/dmlc/xgboost 为代表,大部分比赛里都可以作为不错的baseline使用。
  1. Deep neural network。由于neural network本身就有特征提取的效果,在一些比赛中,能为最后的model ensemble提供一个供选择的模型。由于training的时间跟neural network的大小,还有数据量的大小都有关,如果没有GPU支持的话,很多都需要training很久的时间。
  2. Random Forest Tree. 跟Boosted Decision Tree类似,属于跑得快,效果好,还能有feature selection功能的模型。也是个不错的baseline。

要装成算法专家,不需要彻底了解以上算法任何一个原理,但你需要懂得算法核心概念和算法意义 —— 对产品有什么用:

  • 为什么这么干?
  • 效果怎么样?
  • 跟之前的方法比有什么优势?

先来个错误的算法使用例子:

  • 汽车客户:想做个用户画像,分个类,能精准投放广告
  • 你:好,这是你想要的结果,我们分了四类用户,第一类“炒股、XXX 影迷、经常旅游、偶尔上一下 XX 公开课”…
  • 汽车客户(暂停对方):等等,你说「经常旅游」,我可以推测要给这类用户销售适用旅行的车吗?XXX 影迷,貌似用他做汽车宣传不那么妥,而且最近有不少绯闻,我不太理解为什么要知道他「上过什么公开课」、他炒股能知道他喜欢什么车吗?
  • 你:这是根据上千万个标签统计的,先用 Random Forest Tree 筛了一遍有价值特征 ,K-Means 聚类这些特征,这样就能精细化用户,至于第一类结果是比较显著特征,应该优先关注。。。
  • 汽车客户(又暂停对方):可我还是不知道向他们投放什么广告。。。

以上就是做数据用户画像最大缺陷,听起来高大上,贴了 N 多标签完全不知道想干嘛。

那好的算法做画像应该怎么样呢?引用 360 数据科学家负责人北冥乘海生做法:

原理:这里面最关键的诀窍,是深入研究某个具体行业的用户决策过程。

例子:汽车行业用户决策逻辑比较清晰。一个准备购买汽车的用户,首先考虑的因素,一定是价格。有二十万预算,就买不了五十万的车,也不大会考虑十万以下的车。接下来要挑选的,就是车型了。如果家里有两个孩子,十有八九会考虑七座车;要是单身贵族,没准会弄个跑车玩玩。这两项都是比较理性甚至刚性的约束。而在这之后,才是对品牌精挑细选。因此,汽车行业的标签体系大体应该是:价格—>车型—>品牌,注意重要程度的排序是不能错的。如果从直觉上先考虑品牌、调性,那便是形式主义的思路了

效果与优势(说服力):标签没法衡量准确性,那怎么判断用户画像结果的质量呢?这里要用到reach/CTR曲线。我们以下图为例来说说。

上图是一条典型的reach/CTR曲线:它的横坐标即reach,表示的是某个标签(例如“汽车”)触及到的用户在整体用户中的占比;它的纵坐标即CTR,表示的是该标签的用户在对应类型的广告(上例中为汽车广告)上表现出来的点击率。

为什么会是一条曲线呢?因为我们在做受众定向时,往往会在用户在该标签的得分上设置一个阈值,判断是否是该类型用户,随着阈值设置的不同,reach水平就会变化,相应地CTR也就会变化。这条曲线的最右端,即reach等于100%的点,对应的CTR是该类型广告的平均点击率,这个点跟模型无关,是固定的。而随着reach的降低,一般来说CTR会对应提高(当然这一点没有理论上的保证)。一般来说,两条reach/CTR曲线相比时,整体处于上方的曲线有较好的定向性能

我再通俗一点,将用研定性发现的用户决策、使用过程成果,用算法进行模拟,使产品符合用户心智,但与定性优势在于,我可以量化我的成果,而非猜测。 期间,可以结合算法某些特性来说一下,就是开头介绍的内容,还是以汽车广告推送为例:

  • 我们利用 Random Forest Tree,将用户购买决策影响因素(所谓 features )排了序,再结合之前定性调研,发现 top3 按照这样排序, 75 % 成功预测汽车是否购买(目标、效果与优势),比没有用算法高出 60 %,如果能更充分考虑因素之间关系(比如 Deep neural network )会提升至 80%,但这样做时间投入和成本太高(training time 和设备),不值得。

注释*:

  • 见到算法有 “ tree/树 ”字眼,有 selection 筛选的,通常就是影响因素重要性排序,成本低
  • 见到算法有 “deep neural network 、深度神经网络”字眼,就是对影响因素之间深入探讨,但成本高

总结:

想假装算法行家,在一堆不懂的人面前讲解,可以这样做:

  • 上一些反面例子,告诉他们互联网讲的都是错的(用户画像就是一个好例子)—— 形成权威
  • 告诉他们做算法要有产品指标思考,不是炫耀算法怎么样(告诉他们算法的价值在于解决产品问题,不是炫耀算法怎么强)—— 逐步确立权威
  • 实在被人问到能否结合例子解释下,先告诉他们里面原理和代码实现很复杂,但我可以举一个用户买车例子来简单说明 —— 假装成功
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容