从全球顶级数据库大会 SIGMOD 看数据库发展趋势

第一，机器学习的比重进一步增加，尤其图学习（graph learning）可能成为新的热点。近年来，越来越多的系统领域的会议会专门开设机器学习的专区，主要是运用一些机器学习的方法来优化系统或者算法。其中，有一个方向最近异军突起，就是图学习。简单来说，图学习就是在图上的机器学习。和其他用机器学习解决实际问题类似，图学习通过 embedding 的方式，从 graph 中提取出特征向量（feature vector），再用机器学习的方法解决图中那些困难的问题，包括分类、子图匹配、链接预测（classfication，subgraph matching，link prediction）等。

从会议的倾向和 NSF (National Science Foundation) 的指导来看，这个趋势还会持续火热。我们也收到很多学生和教授关于是否支持图学习的询问。从图数据库供应商角度出发，图学习是 NebulaGraph 的应用之一。我们不能仅仅满足于提供图数据库核心，还得为上层应用提供库、接口，甚至优化，来保证上层应用的顺利高效运行。从另一个角度出发，如果我们的 NebulaGraph 可以帮助学界在一些领域，比如在图学习方面有所突破，对我们公司、全行业发展也是大有裨益的。

除了机器学习，我认为另一个热点趋势就是内存，包括 in-memory database, persistent memory 等。目前非易失性存储（non volatile memory），或者叫持久性存储（persistent memory），经过学术界和工业界十多年的共同努力已经越来越成熟。目前针对如何使用持久性存储的研究也是非常火热，几乎所有系统的顶会都有大量相关的文章。

具体到数据库领域，就包括：如何设计内存数据库（in-memory database）、如何将持久性存储（persistent memory）和 SSD、DRAM 等混合使用，如何解决内存隔离（memory segregation）的问题。NebulaGraph 作为图数据库供应商，也应该积极拥抱新硬件带来的改变，积极探索基于 persistent memory 的存储系统。

图的优势与发展方向

除了新趋势，我在会议中最大的收获和思考是关于图数据库（GDBMS）和关系型数据库（RDBMS）的比较。会上有不少人表达「为什么不基于关系型数据库来实现 graph datababse」的疑虑。

因为关系型数据库经过多年优化，确实已经武装到了牙齿。比如 Peter Boncz 教授（LDBC 创始人之一）在今年早些时候在 EDBT / ICDT 会议上做了个主题演讲——《The (Sorry) State of Graph Database Systems 》，提出当前 GDBMS 跟 RDBMS 相比，在计算和存储层都还有很多地方需要提高，尤其是针对子图匹配（subgraph matching）这样的 AP 查询。他提出了针对子图匹配场景的性能基准测试（Benchmark）。在他的实验环境下，没有一款图数据库软件在「子图匹配」场景上的性能能够接近 Hyper 和 Umbra 这两款关系型数据库（见下面图1）。

图 1：在 Subgraph matching 上，GRDMS 不如一些特殊的 RDBMS，具体可看 Slides。

这个实验的设置固然有值得探讨的地方，但 Peter 作为 LDBC 的创始人，他的核心目的自然不是贬低图数据库，只是想借用子图匹配——这个图数据库优化得还不够好的一种查询场景，来鼓励各个图数据库厂商提升自己的产品。

从更广的图景来看，我们 NebulaGraph 作为图数据库厂商，必须把握图数据库和关系型数据库的区别和优势：https://www.xiaohongshu.com/discovery/item/6310bd780000000008021382

https://www.xiaohongshu.com/discovery/item/6310b1ae00000000080211d1

https://www.xiaohongshu.com/discovery/item/630e0962000000001203a7d3

https://www.xiaohongshu.com/discovery/item/6310afd8000000001203a758

一是图查询，尤其是 GQL 相对于 SQL 的易用性和高效性。

二是易用性，Neo4J 的 CEO，Emil Eifrem 有个非常好的例子：对于一个 AP 系统非常常见的查询，如果使用 SQL 需要 23 个 SELECT，21 个 WHERE，11 个 JOIN，9 个 UNION，最后形成一个巨长无比的查询语句（query）。但如果使用图相关语句，只需要一个 MATCH 和一个 WHERE。对于使用 SQL，很有可能是无法完成工作或者极易出错，而对于后者使用图相关语句，则可以省下无数人力物力。

关于性能，除了在关联关系查询中，图数据库相较于关系型数据库的天然优势，还需要在其他图相关的各种查询上（不止于上文提到的子图匹配 subraph matching）取得对于关系型数据库的优势。这其实也是 Peter 提出子图查询这个检测基准对于我们的核心启示。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,997评论 6赞 502
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,603评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,359评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,309评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,346评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,258评论 1赞 300
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,122评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,970评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,403评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,596评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,769评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,464评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,075评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,705评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,848评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,831评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,678评论 2赞 354

从全球顶级数据库大会 SIGMOD 看数据库发展趋势

推荐阅读更多精彩内容