节假日最适合做的事,是从日常事务里跳出来,尝试做一些抽象思考,例如说,纷繁复杂的互联网数据工作,大体是怎样一个架构,通俗地说,也就是内部结构和具体工作分布。 作为类比,先看看...
前言 这半个月除了工作上的事,一直忙于学习机器学习基础理论,每天背着四五本书上下班,还蛮有读书时的感觉。之前写了一篇文章,叫基于用户画像的实时异步化视频推荐系统,应该说只是完...
个人主页:http://www.linbingdong.com 简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群...
作为IT从业者,今天看到这边篇文章,自己的想法还是挺多的,转载过来保存一下,方便自己后期阅读吧。 美团数据仓库,在过去的两年中,与我们的业务一起高速发展。在这一演进过程中,有...
zeppelin 为交互式分析查询提供了可视化界面。 在zeppelin上使用spark NoteBook,有spark和livy两种方式。 软件版本 zeppelin版本:...
今天看到一篇有关云计算技术文章,把虚拟化和虚机集群管理OpenStack、容器Docker和容器集群管理Kubernetes、通用资源调度管理器Mesos和大数据处理调度管理...
最近一段日子,怎么在一个大的新闻候选集合(假设有10w条新闻)选出用来做 CTR 预估的小集合(假设是100条新闻)困扰我们已久,昨夜我夜观星象,突来灵感,遂有此文。 首先,...
文章转载自知乎专栏“撩撩数据吧”。原文链接:https://zhuanlan.zhihu.com/p/21486408?refer=jiago #文前小絮#公司要做数据分析,...
不管会不会,先混个耳熟..... 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtier...
Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块。作为使用者的我们,搞清楚 Spark 是如何管理内存的,对我们编码、调试及优化过程会有很大...