plato特性1:分布式全局编码

源码实现：graph/structure/vid_encoder.hpp

全局顶点编码器

当空洞顶点(没有边的无效顶点)很多时，可以对顶点进行重新编码，比如有1,100这两个顶点，进行重新连续编码后为0,1。因为采样csr/csc结构在内存中存储图，所以说顶点数值范围变小后，构图就更加节省内存。
具体来说：在加载边文件后，对边的src,dst顶点进行全局编码，以减少顶点范围，然后再使用编完码的边进行构造图。

分布式全局编码流程

采样mpi通信实现分布式计算，每个计算节点在初始阶段，先对要加载的边文件进行均分，使每个计算节点都只加载部分的边文件，以增加整体加载速度，然后在对图进行分区(Edge-cut+ alpha)。而分布式全局编码是在每个计算节点加载完边数据后，在进行图分区之前做的事情。

分布式全局编码步骤：

0加载节点负责的文件，得到边数据，存放在edges buffer中
1每个计算节点将自己读取到的边顶点，根据shuffle规则发送到指定节点上，同时使用map_ids接收其它节点发送过来的顶点。
2节点将接收到存在map_ids中的顶点存到数组local_ids[]中，数组大小为map_ids中元素个数
3节点通过MPI_Allgather得到每个节点接收到的顶点数,，存在local_size[3]数组中
4通过MPI_Allreduce得到全局有效顶点个数
5通过MPI_Allreducer将全局有效顶点存到大数组global_ids中，数组大小为全局有效顶点数，此时每个顶点的所在数组下标就是顶点新的编码id.
6将global_ids中顶点存储id_map中，key=有效顶点， value=顶点在global_ids中数组下标, global_ids则每个计算节点上一直保存用于decode。
7遍历edges buffer使用id_map将边的顶点vid替换为编码后的顶点id.
8.当前图计算完成后，在输出结果时对id进行decode，通过global_ids[id]来得到id编码前的顶点vid.

shuffle规则

第一种（简单起见，案例使用方案）: vid % nodes
第二种: murmur_hash2(vid, seed) % nodes

图解

分布式全局顶点编码器

其它

`MPI_Allgatherv`函数讲解

MPI_Allgatherv: 所有节点都接收所有顶点发送过来的信息，因为每个节点发送的信息个数可能不一样，所以在用接收数组recvbuf接收j节点发来的消息sendbuf时，要通过displ数组指明sendbuf存在recvbuf中的偏移位置。

下面代码实现就是每个计算节点将自己接收到的顶点local_ids发送给所有节点，同时用global_ids_接收所有节点发过来的数据，但是每个节点发送的local_ids数据量可能会不一样，所以使用displs来表明第j个计算节点数据存放在global_ids_中的偏移位置。为此需要在此之前计算好displs中的数值：存放计算节点中顶点数的累加和。

MPI_Allgatherv(
    &local_ids[0], local_ids.size(), get_mpi_data_type<VID_T>(), &global_ids_[0],
    &recvcounts[0], &displs[0], get_mpi_data_type<VID_T>(), MPI_COMM_WORLD);
  if (0 == cluster_info.partition_id_) {
    LOG(INFO) << "all gather cost: " << watch.show("t1") / 1000.0;
  }

cuckoohash_map使用

在分布式全局编码中在1步中，每个节点遍历edgebuffer中的边，并根据shuffle规则将边上的顶点发送到对应节点上。此处每次发送完一个顶点要标记该顶点已经发过了，避免在后面的边中再次遇到这个顶点时重复发送。所以需要使用hash_map这种O(1)时间复杂度的结构来存放哪些顶点已经发送过了。在加上会使用多线程来操作，所以hash_map要支持并发读写。程序中使用了开源的cuckoohash_map：高性能压缩hashmap支持并发读写。（不知道和folly的ConcurrentHashMap比起来效果咋样，但是至少使用它比使用folly简单，folly依赖太多了包含内容太综合了）
使用案例局部代码：

#include "libcuckoo/cuckoohash_map.hh
using cuckoomap_t = cuckoohash_map<VID_T, vid_t, std::hash<VID_T>, std::equal_to<VID_T>,  std::allocator<std::pair<const VID_T, vid_t> > >;

if (opts_.src_need_encode_) {
   // src是否已经发送过了
   bool upserted = used.upsert(edge->src_, [](vid_t&){}, 0);
   if (upserted) {
       // 规矩shuffle规则得到src要发送的节点
        auto send_to = murmur_hash2(&(edge->src_), sizeof(VID_T)) % cluster_info.partitions_;
       context.send(send_to, edge->src_);
   }
}

参考

MPI-收集到全局(Gather-to-all)

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,122评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,070评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,491评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,636评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,676评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,541评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,292评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,211评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,655评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,846评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,965评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,684评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,295评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,894评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,012评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,126评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,914评论 2赞 355

plato特性1:分布式全局编码

全局顶点编码器

分布式全局编码流程

shuffle规则

图解

其它

MPI_Allgatherv函数讲解

cuckoohash_map使用

参考

推荐阅读更多精彩内容

`MPI_Allgatherv`函数讲解