统计学(stastics)是收集、分析和解释数据的科学。
描述统计(descriptive statistics)是研究数据还搜集、整理和描述的统计分支。描述统计的内容包括取得所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映研究现象的一般性特征。
推断统计(inferential statistics)是研究如何利用样本数据来推断总体特征的统计学分支。(研究者所关心的是总体的某些特征,但是血多总体太大,无法对每个个提进行测量,例如,一个地区的人口,be可能一一测量每个人的特征,有时。我们要得到所需要的数据,往往需要破坏性实验,抽取部分样本推断总体)
统计数据的类型
统计数据是对现象进行测量的结果。例如,对经济活动总量进行测量可以得到国内生产总是(GDP)的数据,对股票变动水平变动的额测量可以得到股票价格指数的数据。由于使用测量尺度不同,统计数据可以分为不同类型。
1 按照剂量尺度的不同可以将统计数据分为分类数据、顺序数据和数值型数据。
分类数据(categoricaldata):只能归于某一类别的非数字型数据。
分类数据是对事物进行分类的结果,数据表现为类别,是用文字来表述的。它由分类尺度计量形成的。例如,人口按性别分为男、女两类;企业按照经济性质分为国有、集体、私营、合资、独资企业等,这些均属于分类数据。为了统计上的简便我们可以用数字代码来表示各个类别,例如,用1表示“男性”,0表示“女性”。
顺序数据(rank data):只能归于某一有序类别的非数字型数据。
顺序数据也是对事物进行分类的结果,但这些类别是有序的。他是有顺序尺度计量形成的。例如,将产品分为一等品、二等品、三等品、次等品等;考试成绩分为优、良、及格、不及格等。同样我们也可以对顺序数据进行编码例如。1表示“非常同意“,2表示”同意,“3表示”保持中立“,4表示”不同意“,5表示”非常不同意“。
数值型数据(metric data):按数字尺度测量的观测值
数值型数据是使用自然或者度量衡单位对事物进行测量的结果,其结果表现为具体数值。显示中我们所处理的大多数是数值型数据。
分类数据和顺序数据说明的是事物的品行特征,通常使用文字来表述的,其结果表现为类别,因为也可统称为定性数据或者品质数据(qualitative data);数值行书说明的是现象的数量,通常是用数值来表现的,因为也可成为定量数据或数量数据(quantitative data)。
2 按照统计数据的收集方法,可以将统计数据分为观测数据和实验数据
观测数据(observationaldata):通过调查或观测而收集到的数据
观测数据是在没有对事物认为控制条件下而得到的,有关社会经济现象的统计数据几乎都是观测数据。
实验数据(experimentaldata):在实验中控制实验对象而收集到的数据。
例如,对一种新药疗效的实验数据,对一种新的农作物品种的实验数据。自然科学领域的大多数数据都为实验数据。
3 按照描述对象与时间的关系,可以将统计数据分为截面数据和时间序列数据。
截面数据(cross-sectionaldata):在相同或近似相同的时间点上收集的数据
截面数据所描述的是现象在某一时刻变化情况。例如2002年我过各地区国内生产总值数据就是截面数据。
时间序列数据(time seriesdata)在不同时间上收集到的数据
时间序列数据所描述的是现象随时间变化的情况,例如1996年至2002年我过的国内生产总值数据就是时间序列数据
总之,区分数据的类型十分重要,因为不同的数据类型那个,我将采用不同的统计方法来进行处理和分析。例如,对分类数据通常计算书个组的频数或频率,计算其重数和差异比率,进行列连表分析和卡方检验等;对顺序数据,可以计算其中位数和四分位差,计算等级相关系数等;对数值型数据可以用更多的统计方法进行处理,如各种统计计量、进行参数估计和检验等。
统计数据的基本概念
总体(population):包含研究的全部个体(数据)的集合
样本(sample):从总体中抽出的一部分元素的集合
样本容量或样本量(sample size):构成样本的元素数目
总体通常是我们所关心的一些个体组成,如由多个企业构成的集合,多个居民构成的几何,多个人构成的集合,等等。组成总体的每一个元素成为个体。由多个企业构成的总体中,每一个企业是一个个体;由多个居民构成的总体中,每一个人就是一个个体。
有些总体的范围确定是比较容易的,例如,检验一批灯泡的使用寿命,这一匹灯泡构成的集合就是总体,每一个灯泡就是一个个体,总体的范围是很清楚的。但有些场合总体范围的确定比较苦难,例如,对于新推出的一种饮料,要想知道消费者是否喜欢,首先必须弄清楚哪些人是消费对象,也就是确定构成该饮料的消费者这一总体。但事实上,我们很难确定哪些消费者消费该饮料,总体范围的确定十分复杂。当总体范围难以确定时,可以根据研究的目的来定义总体。
总体可以根据数目是否可数可以分为优先总体和无限总体。
有限总体是指总体的范围是能够明确的,而且元素数目是有限可数的。例如,如果若干个企业构成的总体就是有限总体,一批待检验的灯泡也是优先总体。无限总i是指总体包含的元素是无限的不可数的。例如,在科学实验中,每一个实验数据可看作是某个总体的一个元素,而实验则可以无限地进行下去,因此由实验数据构成的总体是一个无限总体。
总体分为有限总体和无线总体的主要目的是为了判别在抽样中每次是否独立。对于无限总体,每次抽取一个单位,并不影响下一次抽样的结果,因此每一次抽样可以看作是独立的。对于有限总体,抽取一个单位后,总体元素就会减少一个,前一次的抽样结果往往会影像第二次的抽样结果,因此每次抽取的样本不是独立的。
最后,对总体做进一步解释。前面说到,要检验一批灯泡的寿命,这一批灯泡的集合就是总体。在统计问题中我们只关心每只灯泡的寿命,而不是灯泡本身,所以我们可以把这一批灯泡的寿命作为总体,这个总体是一些实属构成的集合。对于一般情况,有限总体是有限个实数的集合。。。如果不是针对一批特定的灯泡,而是全面的考察某企业生产的灯泡的寿命,可能的寿命是多少呢?答案是“非负实数“,这是一个无限的总体。在统计推断中我们通常面对的是无限总体,因为通常把总体看作是无限变量。
参数(parameter):用来描述总体特征的概括性数字度量
参数是研究者想要了解的总体某种特征值。我们所关心的参数常有总体平均数、标准差、总体比例等。
由于总体数据通常是不知道的。所以参数也是一个未知数。例如我们不知道一个地区多有人口的平均年龄,不知道一个城市所有家庭的收入差距,不知道一批产品的合格率等等。因此我们需要进行抽样,根据样本计算出某些只去故居总体参数。
统计量(statistic):用来描述样本特征的概括性数字度量
统计量是根据样本数据计算出来的一个量,他是样本的函数。通常我们所关心的样本统计量有品均数、样本标准差、样本比例等。
由于样本是我们已经抽出来的,所以统计量是知道的。抽样的目的就是要根据样本去估计总体参数。力图,用样本平均数….去估计总体平均数….,用样本标准差…去估计总体标准差..,用样本比例p去估计总体样本…等等。
除了样本均值、样本比例、样本方差这类统计量外,还有一些是为了统计分析的需要而构造出来的统计量,如统计检验的z统计量,t统计量,F统计量等,他们的含义后续解释。
变量(variable):说明某种特征的概念
变量的特点是从一次观察到下一次观察会呈现出的差别或变化。如“商品的销售额”、“受教育程度”、“产品质量等级”等都是变量。变量的具体指成为变量值。例如商品的数量可以是:20万元,30万元、50万元…..,这些数字就是变量值。统计数据就是变量的具体体现。变量可以分为一下几种类型:
分类变量(categorical variable):说明事物类别的一个名称
分类变量的取值就是分类数就。如“性别”就是分类变量,起变量值为“男”或“女”;“经济类型也是一个分类变量”,其变量值可以为“国有经济”“集体经济”“个体经济”等。
顺序变量(rank variable)说明事物有序类别的一个名称
顺序变量的取值就是顺序数据。如“产品等级”就是一个顺序变量,其变量值可以为“一等品”、“二等品”,“三等品”“次品”等。
数值型变量(metric variable)说明事物数字特征的一个名称
数值型变量的取值就是数值型数据。“产品产量”、“商品销售额”、“零件尺寸”、“年龄”、“时间”等都是数值变量,这些变量可以取不同的数值。数值型变量根据其取值的不同,可以分为离散型变量和连续变量。
离散型变量(discrete variable):只能取可数值的变量
离散变量只能取有限个值,而其取值都以整位数断开,可以一一列绝,如“企业数”、“产品数量”等就是离散变量。
连续型变量(continuous variable):可以在一个或者多个区间取任意值的变量
连续变量的取值是连续不断的,不能一 一列举,如“年龄”、“温度”等都是连续变量。在对社会和经济问题的研究中,当离散变量的取值很多时,我们也可以将离散变量当作连续变量来处理。
变量这一概念我们以后需要经常用到,但多数情况下我们所说的变量主要指数值型变量,大多数统计方法所处理的也都是数值型变量,因为有时把数值型变量简称为变量。
以上文字仅供学习交流,用于商业用途的的法人或个体所产生的法律责任后果自负。