风暴之芽 - 简书

发简信

6
关注
2
粉丝
30
文章
43803

字数
6

收获喜欢
1

总资产

IP属地：浙江

风暴之芽

北大开源了中文分词工具包：准确率远超THULAC、结巴分词！
最近，北大开源了一个中文分词工具包，它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达 18.55% 和 20.42，而北大的 pkuseg 只有 ...

822 0 0
风暴之芽

3f29eb5edacd
写了 0 字，被 153 人关注，获得了 3 个喜欢

风暴之芽

牛肉圆粉不加葱
写了 125404 字，被 1239 人关注，获得了 700 个喜欢

永不止步 Keep Moving
风暴之芽

spark实现user CF
user CF是基于相似用户的推荐方法，实现这种推荐的基本思路是：计算出相似用户得分，获取相似用户的物品集合的打分，最后两个得分相乘，得出相似用户推荐的物品集合topN。 ...

1196 0 0
风暴之芽

余弦相似度
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。对于两个向量，如果...

2815 0 0
风暴之芽

推荐系统的推荐策略
推荐系统的目的是为客户推荐最合适的同类产品，这些产品包括文章、商品、音乐、视频等等，这些推荐系统比较成熟的例如淘宝、京东等各种电商的推荐（掌柜精选、相关产品推荐），各类门户网...

2961 0 1
风暴之芽

Python 字典(Dictionary) keys()方法
Python 字典(Dictionary) keys() 函数以列表返回一个字典所有的键。 keys()方法语法： dict.keys() 参数 NA。返回值返回一个字典...

816 0 0

风暴之芽

iterrows(), iteritems(), itertuples()对dataframe进行遍历
iterrows():将DataFrame迭代为(insex, Series)对。 itertuples():将DataFrame迭代为元祖。 iteritems():将Da...

5586 0 1
风暴之芽

hbase整合hive
Hbase是被设计用来做K-V查询，但有时候也会遇到基于Hbase表的复杂统计，写MR很不方便。hive考虑到这一点，提供了操作Hbase表的接口。hive读取Hbase表，...

543 0 0
风暴之芽

Hbase知识要点
hbase是列式数据库，rowkey是字典序的。每个列族是一个文件，将经常一起查询的列放到同一个列族中，减少文件的寻址时间。数据模型: rowkey：是Bytearray，...

368 0 0
风暴之芽

zookeeper
zookeeper是松散耦合的分布式系统中粗粒度锁以及可靠性存储的系统，具有保管数据、提供监听等功能，存储的容量不高，具有开源、高效的、可协同工作的特点，其数据模型具有命名空...

415 0 0
风暴之芽

streaming接kafka的Receiver和Direct方式
一 Receiver方式 Receiver是使用Kafka的high level的consumer API来实现的。Receiver从Kafka中获取数据都是存储在Spark...

1554 0 0

风暴之芽

streaming容错机制
实时流式处理系统是7*24小时运行的，同时可以从各种同时可以从各种各样的系统错误中恢复，在设计之处，Spark Streaing就支持driver和worker节点的错误恢复...

584 0 0
风暴之芽

streaming全局变量和checkpiont
全局变量算子是updataStateByKey，需要设置checkpiont机制。 checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DA...

236 0 0
风暴之芽

streaming 窗口操作
streaming的窗口操作是对一定时间段内的处理，主要是有两个参数：窗口长度和窗口滑动时间。下图中窗口长度是30秒，滑动时间是10秒，可以设置为分钟其他窗口函数：

184 0 0
风暴之芽

spark streaming运行原理和架构
spark streaming是spark 核心API的拓展，是一个实时数据计算工具，具备高吞吐量、容错机制的特点，支持多种数据源获取数据，接受kafka、flume、HDF...

1226 0 0
风暴之芽

kafka知识要点
kafka的特点： 1.消息持久化：通过0（1）的磁盘数据结构提供数据的持久化，kafka中可以存储数据，存储量决定可以放多少数据，数据按照接受顺序发送给streaming，...

374 0 0

风暴之芽

flume要点知识
flume是一款可以从不同的数据源把数据集中存到HDFS或者Hbase中，flume通过agent来完成接受收集数据，agent是一个独立的守护进程，从客户端处接受数据，传给...

457 0 0
风暴之芽

RDD和DataFrame的区别
spark3.0版本可能不太公布底层的RDD，以后使用dataframe将成为趋势，现在大都数公司也多使用dataframe来处理数据 RDD、DataFrame和DataS...

10586 0 3
风暴之芽

常用DataFrame算子
DataFrame 的函数 Action 操作 1、collect() ,返回值是一个数组，返回dataframe集合所有的行 2、collectAsList() 返回值是一...

2843 0 0

暂无个人介绍