R语言之书笔记:初级统计学

概念

  • 数值型变量
    数值型变量:是将观测值以数值形式存储起来的变量,分为连续型和离散型两种类型。
    连续型变量:可以取某个区间中的任何值,可以是任何位数,有无限个可能值。
    离散型变量:只能取离散数据,如果有取值范围,就是有限个可能取值。

  • 分类变量
    分类变量:有名义变量和有序变量两种形式。
    名义变量:不能按照逻辑顺序排序的分类变量,例如性别。
    有序变量:可以排序的分类变量,例如药物剂量,低、中、高。

  • 参数和统计量
    参数:总体的特征叫作参数。
    统计量:样本的特征叫作统计量,统计量是参数的估计量。

集中趋势:均值、中位数、众数

  • 均值:mean()
  • 中位数:median()
xdata <- c(2,4.4,3,3,2,2.2,2,4)
x.bar <- mean(xdata)
x.bar
m.bar <- median(xdata)
m.bar
  • 众数、最小数、最大数:table()/min()/max()
xtab <- table(xdata)
xtab
min(xdata)
max(xdata)
range(xdata) # 返回xdata的最小值和最大值
#
max(xtab)
d.bar <- xtab[xtab==max(xtab)] # 频数最大的观测值为众数
d.bar
  • 忽略缺失值或者未定义的变量(NA或NaN): 增加参数na.rm = TRUE
    sum/prod/mean/median/max/min/rang——都可以使用参数na.rm
mean(c(1,4,NA))
mean(c(1,4,NaN))
#
mean(c(1,4,NA),na.rm=TRUE)
mean(c(1,4,NaN),na.rm=TRUE)
  • 对分组数据求统计量:tapply()
mean(chickwts$weight[chickwts$feed=="casein"])
mean(chickwts$weight[chickwts$feed=="horsebean"])
mean(chickwts$weight[chickwts$feed=="linseed"])
mean(chickwts$weight[chickwts$feed=="meatmeal"])
mean(chickwts$weight[chickwts$feed=="soybean"])
mean(chickwts$weight[chickwts$feed=="sunflower"])
#分别求平均值很麻烦
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=mean)
# 使用tapply 批量求出各组的平均值

计数、百分比和比例

  • table()计数,除以nrow()观测数,即可求出比例或百分比
table(chickwts$feed)
table(chickwts$feed)/nrow(chickwts)
  • 计算逻辑标记向量的和计数,计算逻辑标记向量的均值即可求出比例
sum(chickwts$feed=="soybean")/nrow(chickwts)
mean(chickwts$feed=="soybean")

#可以使用这种方法计算组合样本的比例:
mean(chickwts$feed=="soybean"|chickwts$feed=="horsebean")
  • 使用tapply()批量求出比例, round()设置小数位
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=function(x) length(x)/nrow(chickwts))
round(table(chickwts$feed)/nrow(chickwts),digits=3)
# 比例乘以100得到百分比:
round(mean(chickwts$feed=="soybean")*100,1)

四分位数、百分位数和五分位数

  • quantile() 求分位数和百分位数
xdata <- c(2,4.4,3,3,2,2.2,2,4)
quantile(xdata,prob=0.8) # 0.8分位数
quantile(xdata,prob=c(0,0.25,0.5,0.75,1)) # 同时计算多个分位数
quantile(chickwts$weight,prob=c(0.25,0.75)) # 计算下四分位数和上四分位数
  • summary()计算五分位数和平均值
summary(xdata)
summary(quakes$mag[quakes$depth<400])

离散程度:方差、标准差和四分位差

  • 方差:var(),标准差sd(),四分位差IQR()
  • sqrt()计算平方根
xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)

var(xdata)
sd(xdata)
IQR(xdata)
#
sqrt(var(xdata))
as.numeric(quantile(xdata,0.75)-quantile(xdata,0.25))
#
sd(ydata)
IQR(ydata)
#
sd(chickwts$weight)
IQR(chickwts$weight)
#
IQR(quakes$mag[quakes$depth<400])

协方差和相关系数

  • 协方差:表示两个数值型变量在什么程度上一起变化。正数可能存在正线性关系,负数可能存在负线性关系,等于零不存在线性关系。


    协方差计算公式
  • 相关系数:最常用Pearson相关系数,取值[-1,1],越接近0,相关关系越弱。


    相关系数计算公式
  • cov() 计算协方差,cor() 计算相关系数

xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)
cov(xdata,ydata)
cov(xdata,ydata)/(sd(xdata)*sd(ydata))
cor(xdata,ydata)

#
plot(quakes$mag,quakes$stations,xlab="Magnitude",ylab="No. of stations")
cov(quakes$mag,quakes$stations)
cor(quakes$mag,quakes$stations)

异常值

在实际中,是否剔除奇异值很难确定,现阶段重要的是了解奇异值对分析产生影响,并且在统计研究之前应检查一下原始数据。
均值与奇异值高度相关,所有任何依赖均值的统计量如方差或协方差也会受影响,分位数以及相关统计量不会受到奇异值的影响,这种统计性质成为稳健性。

本章重要代码

mean:算术平均数
median:中位数
table:汇总频数
min,max,range:最小值,最大值,范围
round:四舍五入
quantile:分位数、百分位数
summary:五位数概况法
jitter:绘图中的抖动点
var,sd:方差,标准差
IQR:四分位差
cov,cor:协方差,相关系数

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,817评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,329评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,354评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,498评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,600评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,829评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,979评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,722评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,189评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,519评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,654评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,940评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,762评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,993评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,382评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,543评论 2 349

推荐阅读更多精彩内容