第一次看到对nominal, ordinal, interval 和ratio types解释的这么简单清楚的介绍:
https://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/
2017-02-06
1)Exploring the Impact of Inter-smell Relations on
Software Maintainability: An Empirical Study (ICSE 2013):
PCA 主成分分析用在一篇论文里来分析collocated code smell
2)Analyzing the Impact of Antipatterns on Change-Proneness Using Fine-GrainedCliff's delta effect size (WCRE 2012)用来验证一个分布比另一个分布值要大或者小(R中的orddom包),配合wilcoxon test验证2个分部差异显著,便能很好的支持自己的观点。
Source Code Changes
前提是:这2个都具体原理是啥。
http://www.cnblogs.com/lafengdatascientist/p/5554167.html
感觉这个好像特别适合实验。。
Fisher-score,可以用在监督方法中评估单个feature的discriminative effect。
poisson distribution可以来对一堆数据进行异常点的检测,可以自动推测出一个阈值(在某个条件下)
Cohen's kappa,可以评估你的预测结果,与别人真实打分结果的inter-aggrement的程度。这个在评估工具,涉及到与人为评分比较时比较有用。https://en.wikipedia.org/wiki/Cohen%27s_kappa
观察2 groups的数据是否存在difference。可以使用mann-whiteney test(wilcoxon test)(这个一般用p-value值表示差异显著),然后辅助Cliffs delta effect size(表示差异有多大)。
研究2组相关性的一般用spearman相关系数啥的。
要做多元素对目标元素的影响,一般用回归模型的,当目标元素是bool类型时,一般用逻辑回归。
1。直方图的分类数一般来说大致等于样本容量的平方根比较合适
2。简单随机抽样一般抽的数目少于总体数目的5%时,才能保证样本中个体的独立性。
3。p-value的值在统计过程中应用了中心极限定理,所以为了使得这个方法有效,样本容量
必须足够大,通常应大于或等于30。有时假设检验对小样本也是有效的。
4。当总体标准差不知,但样本标准差知,且样本容量足够大,则假设检验的p-value则用正太
分布的z-分值来计算即z检验。当样本容量比较小,则用t统计量来检验即t检验。但无论样本容量大小,
只要总体标准差是已知的,均适合用z检验来检验原假设算出相应的p-value。
这里有一个前提,就是你认为的变量服从或者近似服从正太分布。
5。不要求样本来自正太分布的假设检验叫任意分布假设检验,也叫非参数检验。
6. Testing the differences between the activities of future
committers and the activities of developers
We conducted a Wilcoxon signed-rank test. A nonparametric
tests which does not assume a normal distribution
as is the case in our data set.