走进大数据之拓扑数据分析方法

拓扑数据分析(TDA)，顾名思义，就是把拓扑学与数据分析结合的一种分析方法，用于深入研究大数据中潜藏的有价值的关系。

相比于主成分分析、聚类分析这些常用的方法，TDA不仅可以有效地捕捉高维数据空间的拓扑信息，而且擅长发现一些用传统方法无法发现的小分类。这种方法也因此曾在基因与癌症研究领域大显身手。

1、什么是拓扑数据分析

拓扑学研究的是一些特殊的几何性质，这些性质在图形连续改变形状后还能继续保持不变，称为“拓扑性质”。而在复杂的高维数据内部也存在着类似的结构性质，我们可以形象地称之为数据的形状（特征）。

和通常研究的成对关系相比，这种相互关系的形状之中可能潜藏了巨大的研究价值。要理解数据的形状，就必须求助于拓扑学。TDA所做的就是抽取这种形状并进行分析。

那么到底如何来刻画数据的形状呢？下图是一个简单的例子：

左边是一只手的采样数据点，宏观看来像一只手。右边则是经过拓扑数据分析得到的图，有点像一只手的骨架。从左边到右边，就是一次形状重构的过程。这种重构用了很少量的点和边去刻画原始数据集，同时保留了原始数据的基本特征。

2、拓扑数据分析的三个要点

1）TDA的输入可以是一个距离矩阵，表示任意两数据点之间的距离。

它研究的是与坐标无关的形状，完全不受坐标的限制。这也意味着拓扑形状的构建依赖于距离函数的定义，或者说相似度概念的定义。坐标无关的特性，使得TDA可以整合来自不同平台的数据，尽管这些数据的结构不太一样，你只需要给出合理的距离函数。这是TDA的一个优点，通用性。

举个例子，TDA在癌症分析领域的成功，这种通用性是一个重要原因。因为不同癌症数据集的指标、结构都不尽相同，而TDA可以轻松整合。

2）TDA研究的数据形状，可以容忍数据小范围的变形与失真。

想象在一块橡皮上写了一个字母”A”，你用力挤压拉扯这块橡皮，字母”A”虽然有点扭曲变形，但是“一个三角形带两个脚”这样的基本特征仍然存在。从上面“手”的例子也可以看出，TDA对小误差的容忍度很大。

3）如果我们要粗略的描绘一个湖泊轮廓，最简洁的就是使用一个多边形。

拓扑处理的是抽象的形状，最典型的例子就是用六边形来表示圆，这只需要用到6个点和6条边。

TDA使用这种形式压缩数据，用有限的点和边来表示大量的数据，并且保留了数据重要的特征。

3、拓扑数据分析的主要步骤

用一个滤波函数对每个数据点计算一个滤波值。这个滤波函数可以是数据矩阵的线性投影，比如PCA。也可以是距离矩阵的密度估计或者中心度指标，比如L-infinity（L-infinity的取值是该点到离它最远的点的距离，是一个中心度指标）。

数据点按照其滤波值，从小到大被分到不同的滤波值区间里。参照下图中“手”被切成等宽的块。但需要注意的是，相邻的滤波值区间设置有一定的重叠区域，也就是重叠区域的点同时属于两个区间（这一点很重要）。

对每个区间里的数据分别做聚类。

把上一步骤中各区间聚类的得到的小类放在一起，每一个小类用一个大小不同的圆表示。若两个类之间存在相同的原始数据点（这就是区间需要相互重叠的原因），则在它们之间加上一条边。

对上述圆和边组成的图形施加一层力学布局，让其达到平衡，就得到最终的“数据图形”。

下图是一个简单的示意图，便于理解：

4、案例：ayasdi公司关于NBA球员的研究

有一份关于NBA球员的数据集，这份数据集编码了球员在场上表现的各个方面，包括篮板、助攻、失误、抢断、封锁、犯规、得分等各项指标的每分钟频率。对这份数据集进行拓扑化后，得到了下面这张图。

篮球运动员的位置一般分为控球后卫、得分后卫、小前锋、大前锋、中锋。然而在上图的网络中，我们看到了比传统的五个位置更为精细的结构。比如在网络的左侧，守卫被细分成了三个组，攻击守卫、防守守卫、击球守卫。在网络的中下部我们可以看到三个比较小的块，其中有“NBA全明星”（Allstar NBA) 和“NBA全明星第二梯队”（Allstar NBA 2nd Team)。

“NBA全明星”这个组几乎由NBA历史上最优秀的球员组成，“第二梯队”虽然也都是由全能的优秀球员组成但表现上可能不如全明星组。

有意思的是，在全明星组中还有一些不太知名的球员，这些球员也许就是潜在的未来明星球员。

写在最后

拓扑数据分析作为一种强大的工具，已经开始被广泛的应用。在未来基于TDA的算法肯定会不断的提出和完善。目前关于TDA详细的中文资料比较少，附上一份简单的python实现以供交流。

https://github.com/yxdong/tda

本文作者：杨晓东（点融黑帮），任职于点融data团队，喜欢徒步，爱好动漫，每天下午点奶茶，欢迎交流或者拼单。

最后编辑于：2017.12.05 07:04:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,042评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 89,996评论 2赞 384
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,674评论 0赞 345
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,340评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,404评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,749评论 1赞 289
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,902评论 3赞 405
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,662评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,110评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,451评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,577评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,258评论 4赞 328
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,848评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,726评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,952评论 1赞 264
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,271评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,452评论 2赞 348