Hadoop离线数据分析平台实战——290活跃用户分析
项目进度
模块名称 | 完成情况 |
---|---|
用户基本信息分析(MR)� | 未完成 |
浏览器信息分析(MR) | 未完成 |
地域信息分析(MR) | 未完成 |
外链信息分析(MR) | 未完成 |
用户浏览深度分析(Hive) | 未完成 |
订单分析(Hive) | 未完成 |
事件分析(Hive) | 未完成 |
模块介绍
和分析新增用户一样,活跃用户也需要在用户基本信息分析模块和浏览器分析模块中展示,因此也可以将其写成一个mapreduce任务。
计算规则
active_user计算规则:当天所有数据中,uuid的去重个数。
最终数据保存:
stats_user和stats_device_browser
。
涉及到的列(除了维度列和created列外):active_users。
涉及到其他表有dimension_platform、dimension_date、dimension_browser。
编码步骤
- 编写mapper相关类
- 编写reduce相关类
- 编写入口类
- 编写collector类和给定输出配置(xml).
- 测试
注意:测试的时候指定参数为-d 2017-01-01或者-d 2017-12-31
eclipse参数指定运行
- 选择Run->Run Configuration..按钮或者选择选择快捷按钮。

