基本因子挖掘 -机器学习1 Kmeans

总体思路

对于基本面因子的挖掘，总体来说，进行数据清洗整理后，通过IC因子分析，来确定有效的因子。在通过选出的有效因子，运用机器学习各类型算法或者其它常规的算法，来刷选出标的。

IC算法

在此对于IC因子进行一定的简介。IC即信息系数（Information Coefficient），表示所选股票的因子值与股票下期收益率的截面相关系数，通过 IC 值可以判断因子值对下期收益率的预测能力。信息系数的绝对值越大，该因子越有效。IC为负表示因子值越小越好，IC为正表示因子值越大越好。 IC计算分为Rank IC 和 Normal IC 其存在的差异性为：Rank IC 是通过计算测试因子数值与排序的名次之间的相关性系数，而Normal IC 则是计算因子数值与其涨跌幅之间的相关性系数。相关公式如下：
$\begin{array}{l} RankIC(n) = \frac {Cov(x,r)} {n} \\note: \\x: \quad value\; of\; factor \\r: \quad rank\; of\; factor \\n: \quad amount\; of\; the\; cross\; sectional\; datas \end{array}$
$\begin{array}{l} NormalIC(n) = \frac {Cov(x,v)} {n} \\note: \\x: \quad value\; of\; factor \\v: \quad change\; of\; stock \\n: \quad amount\; of\; the\; cross\; sectional\; datas \end{array}$

alphalens模块的使用

alphalens 是一个辅助进行IC有效性因子检测的模块，具体使用方法在此不加以阐述。IC分析流程：

1数据处理后需要的数据格式

data.png

2 部分分组后收益数据可视化部分截图

pic1.png

3 IC数值图表

table.png

pic2.png

有效性因子的刷选与数据挖掘

通过IC进行有效性因子进行刷选后，注意！！！对于选择出来的基本面多因子，很多存在高度相关的因子，因此在进行数据挖掘挖掘之间，需要对因子的相关性进行检测。因子相关性table

table2.png
剔除高度相关的因子后，便可以使用选出的因子进行因子的挖掘，从而建立策略。在这里对于多种机器学习算法，例如Kmeans，随机森林，SVM，逻辑回归等。只对Kmeans算法的运用进行阐述，Kmeans算法的数学推导过程不做阐述。
Kmeans在此是一种探索性的运用，只是基于一种想法进行的数据验证。
在这里先对Kmeans算法的内容做一个简述，k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。
$\color{red}{idea\; start}$
从阐述中，不难发现，Kmeans算法是一种发现多维度下，在几何空间中具有邻近关系的聚类算法。那么在知道有效因子的情况下,基于多因子下，使用Kmeans便可以发现在多因子下，哪一些股票具有高度的空间邻近性，那么对于这些聚类分组后高关联性的股票组合，对其涨跌幅或者其他性质进行研究，探索出在这些分组中是否具有在某一方面性质很明显的股票。例如：某一个分组的股票普遍随机时间区间内平均涨跌幅均有极大可能优于其他分组。
在发现某种性质后，便可以基于该性质建立策略，进行工程化并回测，验证策略的有效性。
这里说明一点，由于Kmeans算法进行分组时需要自己设定分组数量，这里需要进行各种尝试。同时由于分组时初始点数据选择是随机的，导致大概率下，进行聚类时，例如某一数据第一次分类可能在第一组，而第二次分类就在第二组。这里需要解决此问题。
解决办法：无论分组在哪一组，具有高度空间邻近性的数据点必定极高概率每一次分组都在同一组中，那么对于每一个数据的每一次数据分组结果均进行分组数字化标签，而后进行协方差计算，高度线性相关
的便是同一组的数据点。
在此种方式下需要考虑一种比较细的问题，便是由于定义高度相关性是需要阈值的，而在设定阈值后，极有可能出现数据A与数据B高度相关，数据B与数据C高度相关，但数据A与数据C稍低于阈值，从而非高度相关。在此情况需要考虑是取交集还是并集的问题！！！同时需要设计算法来进行高度相关的刷选过程。
$\color{red}{idea\; end}$
在此附上某一性质下刷选出的分组结果截图，其标的均为沪深300成分股。

pic3.png

最后编辑于：2020.04.28 15:00:36

禁止转载，如需转载请通过简信或评论联系作者。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 229,908评论 6赞 541
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,324评论 3赞 429
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 178,018评论 0赞 383
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,675评论 1赞 317
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,417评论 6赞 412
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,783评论 1赞 329
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,779评论 3赞 446
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 42,960评论 0赞 290
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,522评论 1赞 335
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,267评论 3赞 358
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,471评论 1赞 374
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 39,009评论 5赞 363
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,698评论 3赞 348
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 35,099评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,386评论 1赞 294
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,204评论 3赞 398
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,436评论 2赞 378

基本因子挖掘 -机器学习1 Kmeans

总体思路

IC算法

alphalens模块的使用

有效性因子的刷选与数据挖掘

推荐阅读更多精彩内容