你有一天突然看k线图一拍大腿想到一个好的交易模型,觉得自己找到了一个“印钞机”,于是迅速去跑回测,又一拍大腿,年化利润率30%,满仓,干!
但是现实很残酷,没几个月赔光了。
发生甚么事了?
下面我将提出3点可能的原因,并按照概率从大到小进行排序:
1、有偏样本
你所发现的模型本来就脱胎于现实的数据挖掘,这个过程是这样的,你先发现了积聚数据,然后在积聚数据中找了一个摇钱树模型,其实你这是陷入了“循环论证”的怪圈。
假设我宣布,我能在抛硬币时连续抛出正面,因为在我小时候一直在练习抛硬币,我可以制造证据证明我的抛硬币技能。假设我刚刚抛了20次硬币,得到了9次正面和11次背面。这没有任何奇特之处。不过,如果我能想出一种脆弱的借口,丢弃10个背面的数据,那么,瞧,我在10次抛硬币实验中抛出了9个正面。这是令人信服的证据吗?当然不是。
在随机现象中,经常发生“数据积聚”的现象,比如说,连续十一次扔硬币出现正面,假如我的模型恰好符合这些积聚的数据,我当然可以自大地认为我发现了摇钱树。(我看别的答案都管这叫做“幸存者偏差”,随便吧,怎么叫都行。)
在决策点那个时间点上,我其实不知道我接下来的决策会造成什么样的影响(进入哪个平行宇宙),但是是我必须做出选择。
在我做出选择后,宇宙分裂为N个平行宇宙。
我把平行宇宙三当做是我们的主宇宙,也就是能被我们观测的宇宙,里面包含了历史上的所有信息。
而其他宇宙,是不能被我们观测到的宇宙,提取不到数据,可以看做在决策点的那个时间点上,有可能发生的但没有发生的风险,但是这种风险在决策点的时候是我们必须承担的。
我们的历史,我们过去记载的数据只是代表我们这一个宇宙,一条时间线上面的数据。如果平行宇宙的理论是正确的话,那么我们每次做决策宇宙分裂的时候,其他平行宇宙的数据我们是观测不到的,这导致我们回测的数据必须是也只能是一个“有偏样本”,我们留在市场的每个人都是幸存者,只能观察自己可以观察到的数据来自嗨。
世界那么大,总会找到支持模型的样本。
2、现实的易变性
世界有着易变性,而且这种易变性不是遵循着线性变化的。当前的市场的规律和状态正在进行着潜移默化的改变,而你不为所知。
想象一下,我们的科技是不是在发展?一些能够改变世界的因素是不是在发生变化?
有人会说,人性不变,交易里面的规律就不会变。可能对吧,但是我们的主观看法能够改变客观世界的价格,但是客观世界也有它们自己的不以人的意志为转移的规律啊!
我们的人文社科历史确实是在不断重演的,但是我们的自然科学的历史一直是在进步的,从来都没倒退过。而金融世界是由社会科学和自然科学互相叠加影响而成的,在人文的历史中我们可以寻找规律,但是找到的规律不能用于科技史。科技一旦出现,原先的假设条件就再也回不去了。
科技黑天鹅(此处的黑天鹅指的是正向黑天鹅)没准就是“突然给你来这么一下子”,让你无所适从。我们把历史上的科技进步都称作是“革命”,比如说工业革命等,可见,科技进步具有一定的突变性,她不像是渐进的保守主义者,而是激进的黑天鹅。
我们的世界是必然性和偶然性、社会科学和自然科学、主观与客观相互交织相互影响的世界。没有一种理论可以永远包打天下,如果有,那么也像是“大力丸”一样的药效,名不副实罢了。
你会发现你的模型在实测的时候胜负交替发生,但是你也统计不到你的胜率和赔率到底是多少。在这种情况下,你很可能很快就放弃治疗了。
As I said before, the market dynamics depends on four basic factors: the nature & intrinsic value of the assets, the spectrum of trader species, the price formation mechanism, and the regulatory philosophy & action of regulators. It is a multivariate function. Even only one factor is ignored, the results are most likely not as expected by the regulators. 正如我之前所说,市场动态取决于四个基本因素:资产的性质和内在价值,交易者种类的范围,价格形成机制,以及监管者的监管理念和行动。它是一个多元函数。即使只有一个因素被忽略,结果也很可能不像监管者预期的那样。
资产的性质和内在价值,就是和科技进步,客观世界密切相关的变量。当然政策、价格形成机制、交易者这些变量都是主观客观互相影响互相纠缠形成的。不存在单一的模型通向“投资圣杯”。
3、样本量太小形成不了结论
可能你的策略脱胎于某个金融产品,但是这个金融产品是新兴事物,还没发展壮大,你的回测数据样本量有限,提高不了数据的置信区间。
这里面我要着重说一下集思录大佬凌波大大的双低可转债轮动策略。这个策略好是好,最大的问题就是运行才4年,还没经过牛熊轮换的检验,而且早期可转债数量比较少,只有50多个。
我觉得回测的数据不应来源于数据挖掘,从过去的数据中寻找模型可能会犯先射箭再画靶心的错误。如果我们仅仅根据过去的趋势去预测未来,而不去考虑这些趋势是否有逻辑上的意义,那么我们的模型可能就会与未来发生的事相去甚远。
没有逻辑支撑会有多可笑呢?
一项研究考察7过去350年的英国演讲家,发现平均句子长度从弗朗西斯培根的每句72.2词下降到了温斯顿·丘吉尔的每句24.2词。按照这个速度,每句单词数量将在一百年后达到零点,然后变成负值。
按照上述推论,我们现在都应该是“哑巴演说家”。
在一段时间里,金价和银价的比值波动很大,在1970到1985的15年中,金价和银价的比值总是能够回到34:1到38:1之间,假如你根据这个规律,做一个模型,在价格偏离比值的时候卖出高估的标的,买进低估的标的,等待着金价和银价的比值收敛于34:1~38:1,那么,你会在1985年到2012年直接爆仓出局,如果你继续追加保证金(期货自带杠杆),那么你的损失将会超过10倍本金,因为1986年到2012年,金银价格比例的平均值是66。为什么金价和银价的比例会维持在一个神秘的区间?你能否说明其解释?如果不能,那么为什么不把它当做是某种巧合呢?
被饲养了1000天的火鸡,在第1001天被饲养员端上了饭桌,因为感恩节到了。
我们应该直接提出模型(从零开始),然后用未来的数据去验证对不对。
后视镜里面可能没有未来。
哦对了我一个清华的同学在做私募,他说模型没用……