最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 ...
![240](https://cdn2.jianshu.io/assets/default_avatar/4-3397163ecdb3855a0a4139c34a695885.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 ...
user CF是基于相似用户的推荐方法,实现这种推荐的基本思路是:计算出相似用户得分,获取相似用户的物品集合的打分,最后两个得分相乘,得出相似用户推荐的物品集合topN。 ...
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。 对于两个向量,如果...
推荐系统的目的是为客户推荐最合适的同类产品,这些产品包括文章、商品、音乐、视频等等,这些推荐系统比较成熟的例如淘宝、京东等各种电商的推荐(掌柜精选、相关产品推荐),各类门户网...
Python 字典(Dictionary) keys() 函数以列表返回一个字典所有的键。 keys()方法语法: dict.keys() 参数 NA。 返回值 返回一个字典...
iterrows():将DataFrame迭代为(insex, Series)对。 itertuples():将DataFrame迭代为元祖。 iteritems():将Da...
Hbase是被设计用来做K-V查询,但有时候也会遇到基于Hbase表的复杂统计,写MR很不方便。hive考虑到这一点,提供了操作Hbase表的接口。hive读取Hbase表,...
hbase是列式数据库,rowkey是字典序的。每个列族是一个文件,将经常一起查询的列放到同一个列族中,减少文件的寻址时间。 数据模型: rowkey:是Bytearray,...
zookeeper是松散耦合的分布式系统中粗粒度锁以及可靠性存储的系统,具有保管数据、提供监听等功能,存储的容量不高,具有开源、高效的、可协同工作的特点,其数据模型具有命名空...
一 Receiver方式 Receiver是使用Kafka的high level的consumer API来实现的。Receiver从Kafka中获取数据都是存储在Spark...
实时流式处理系统是7*24小时运行的,同时可以从各种同时可以从各种各样的系统错误中恢复,在设计之处,Spark Streaing就支持driver和worker节点的错误恢复...
全局变量算子是updataStateByKey,需要设置checkpiont机制。 checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DA...
streaming的窗口操作是对一定时间段内的处理,主要是有两个参数:窗口长度和窗口滑动时间。 下图中窗口长度是30秒,滑动时间是10秒,可以设置为分钟 其他窗口函数:
spark streaming是spark 核心API的拓展,是一个实时数据计算工具,具备高吞吐量、容错机制的特点,支持多种数据源获取数据,接受kafka、flume、HDF...
kafka的特点: 1.消息持久化:通过0(1)的磁盘数据结构提供数据的持久化,kafka中可以存储数据,存储量决定可以放多少数据,数据按照接受顺序发送给streaming,...
flume是一款可以从不同的数据源把数据集中存到HDFS或者Hbase中,flume通过agent来完成接受收集数据,agent是一个独立的守护进程,从客户端处接受数据,传给...
spark3.0版本可能不太公布底层的RDD,以后使用dataframe将成为趋势,现在大都数公司也多使用dataframe来处理数据 RDD、DataFrame和DataS...
DataFrame 的函数 Action 操作 1、collect() ,返回值是一个数组,返回dataframe集合所有的行 2、collectAsList() 返回值是一...