比特舞者 - 简书

发简信

比特舞者

31
关注
11
粉丝
33
文章
18499

字数
10

收获喜欢
1

总资产

IP属地：北京

JavaEdge

手把手教你用Python实现分布式爬虫(四) - scrapy爬取技术文章网站
相关源码搭建scrapy的开发环境，本文介绍scrapy的常用命令以及工程目录结构分析，本文中也会详细的讲解xpath和css选择器的使用。然后通过scrapy提供的spi...

1283 0 1
小小少年Boy

MapReduce过程详解及其性能优化
MapReduce过程详解及其性能优化 [toc] 转载：MapReduce过程详解及其性能优化总结详情从JVM的角度看Map和Reduce： 1. Map阶段包括 ...

7039 2 18
清幽之地

数据同步利器 - canal
前言大约两年以前，笔者在一个项目中遇到了数据同步的难题。当时，系统部署了几十个实例，分为1个中心平台和N个分中心平台，而每一个系统都对应一个单独的数据库实例。在数据库层...

4006 3 45
惊不意外

HIVE：小文件合并
HDFS非常容易存储大数据文件，如果Hive中存在过多的小文件会给namecode带来巨大的性能压力。同时小文件过多会影响JOB的执行，hadoop会将一个job转换成多个t...

7354 0 2
雪飘千里

kafka监听mysql实时数据变更
在做报表数据统计时，我们用的是mysql + kafka + Spark Streaming方案，kafka监听mysql订单表中订单状态，然后发送到spark stream...

10171 3 77
香山上的麻雀

Hive 企业级调优总结(一)
1.开启Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，...

369 0 5