上次给大家分享了《2017年最全的excel函数大全14—统计函数(4)》,这次分享给大家统计函数(5)。
LINEST 函数
描述
LINEST函数可通过使用最小二乘法计算与现有数据最佳拟合的直线,来计算某直线的统计值,然后返回描述此直线的数组。 也可以将LINEST与其他函数结合使用来计算未知参数中其他类型的线性模型的统计值,包括多项式、对数、指数和幂级数。 因为此函数返回数值数组,所以它必须以数组公式的形式输入。 请按照本文中的案例使用此函数。
直线的公式为:
y = mx + b
- 或 -
y = m1x1 + m2x2 + ... + b
如果有多个区域的 x 值,其中因变量 y 值是自变量 x 值的函数。 m 值是与每个 x 值相对应的系数,b 为常量。 注意,y、x 和 m 可以是向量。LINEST函数返回的数组为 {mn,mn-1,...,m1,b}。LINEST函数还可返回附加回归统计值。
用法
LINEST(known_y's, [known_x's], [const], [stats])
LINEST 函数用法具有下列参数:
用法
Known_y's必需。 关系表达式 y = mx + b 中已知的 y 值集合。
如果known_y's对应的单元格区域在单独一列中,则known_x's的每一列被视为一个独立的变量。
如果known_y's对应的单元格区域在单独一行中,则known_x's的每一行被视为一个独立的变量。
Known_x's可选。 关系表达式 y = mx + b 中已知的 x 值集合。
known_x's对应的单元格区域可以包含一组或多组变量。 如果仅使用一个变量,那么只要known_x's和known_y's具有相同的维数,则它们可以是任何形状的区域。 如果用到多个变量,则known_y's必须为向量(即必须为一行或一列)。
如果省略known_x's,则假设该数组为 {1,2,3,...},其大小与known_y's相同。
const可选。 一个逻辑值,用于指定是否将常量 b 强制设为 0。
如果const为 TRUE 或省略,b 将按正常计算。
如果const为 FALSE,b 将被设为 0,并同时调整 m 值使 y = mx。
stats可选。 一个逻辑值,用于指定是否返回附加回归统计值。
如果stats为 TRUE,则LINEST函数返回附加回归统计值,这时返回的数组为{mn,mn-1,...,m1,b;sen,sen-1,...,se1,seb;r2,sey;F,df;ssreg,ssresid}。
如果stats为 FALSE 或省略,则函数LINEST只返回系数 m 和常量 b。
附加回归统计值如下:
下面的图示显示了附加回归统计值返回的顺序。
备注
可以使用斜率和 y 轴截距描述任何直线:
斜率 (m):
通常记为 m,如果需要计算斜率,则选取直线上的两点,(x1,y1) 和 (x2,y2);斜率等于 (y2 - y1)/(x2 - x1)。
Y 轴截距 (b):
通常记为 b,直线的 y 轴的截距为直线通过 y 轴时与 y 轴交点的数值。
直线的公式为 y = mx + b。 如果知道了 m 和 b 的值,将 y 或 x 的值代入公式就可计算出直线上的任意一点。 还可以使用TREND函数。
当只有一个自变量 x 时,可直接利用下面公式得到斜率和 y 轴截距值:
斜率:
=INDEX(LINEST(known_y's,known_x's),1)
Y 轴截距:
=INDEX(LINEST(known_y's,known_x's),2)
数据的离散程度决定了LINEST函数计算的直线的精确度。 数据越接近线性,LINEST模型就越精确。LINEST函数使用最小二乘法来判定数据的最佳拟合。 当只有一个自变量 x 时,m 和 b 是根据下面的公式计算出的:
其中,x 和 y 是样本平均值;即,x =AVERAGE(known x's)且y = AVERAGE(known_y's)。
直线和曲线拟合函数LINEST和LOGEST可用来计算与给定数据拟合程度最高的直线或指数曲线, 但需要判断两者中哪一个与数据拟合程度最高。可以用函数TREND(known_y's,known_x's)来计算直线,或用函数GROWTH(known_y's, known_x's)来计算指数曲线。 这些不带new_x's参数的函数可在实际数据点上根据直线或曲线来返回 y 预测值的数组, 然后可以将预测值与实际值进行比较。 可能需要用图表方式来直观地比较二者。
回归分析时,Excel 会计算每一点的 y 的估计值和实际值的平方差。 这些平方差之和称为残差平方和 (ssresid)。 然后 Excel 会计算总平方和 (sstotal)。 当参数const= TRUE 或被省略时,总平方和是 y 的实际值和平均值的平方差之和。 当参数const= FALSE 时,总平方和是 y 的实际值的平方和(不需要从每个 y 值中减去平均值)。 回归平方和 (ssreg) 可通过公式 ssreg = sstotal - ssresid 计算出来。 残差平方和与总平方和的比值越小,判定系数 r2 的值就越大,r2 是用来判断从回归分析求得的公式是否足以描述变量之间关系的指示器。 r2 = ssreg/sstotal。
在某些情况下,一个或多个 X 列可能没有出现在其他 X 列中的附加预测值(假设 Y's 和 X's 位于列中)。 换句话说,删除一个或多个 X 列可能会得到同样精度的 y 预测值。 在这种情况下,应从回归模型中省略这些多余的 X 列。 这种现象被称为“共线”,因为任何多余的 X 列都可被表示为多个非多余 X 列的和。LINEST函数会检查是否存在共线,并在识别出多余的 X 列之后从回归模型中删除所有这些列。 由于包含 0 系数以及 0 se 数值,因此已删除的 X 列能在LINEST输出中被识别出来。 如果一个或多个多余的列被删除,则将影响 df,原因是 df 取决于实际用于预测目的的 X 列的数量。 有关计算 df 的详细信息,请参阅案例 4。 如果由于删除多余的 X 列而更改了 df,则也会影响 sey 和 F 的值。 实际上,出现共线的情况应该相对很少。但是,如果某些 X 列仅包含 0 和 1 数值作为实验中的对象是否属于特定组成员的指示器,则很可能引起共线。 如果const= TRUE 或被省略,则LINEST函数可有效地插入所有 1 数值的其他 X 列以便为截距建立模型。 如果在一列中,1 对应于每个男性对象,0 对应于女性对象;而在另一列中,1 对应于每个女性对象,0 对应于男性对象,那么后一列就是多余的,因为其中的项可通过从所有 1 值的另一列(通过LINEST函数添加)中减去“男性指示器”列中的项来获得。
在没有 X 列因共线而被从模型中删除时,请用以下方法计算 df 的值:如果known_x’s有k列且const= TRUE 或被省略,那么 df = n – k – 1。 如果const= FALSE,那么 df = n - k。 在这两种情况下,每次由于共线而删除一个 X 列都会使 df 的值加 1。
对于返回结果为数组的公式,必须以数组公式的形式输入。
注意:在 Excel Online 中,不能创建数组公式。
当输入一个数组常量(如known_x's)作为参数时,请使用逗号分隔同一行中的各值,使用分号分隔各行。 分隔符可能会因区域设置的不同而有所不同。
注意,如果 y 的回归分析预测值超出了用来计算公式的 y 值的范围,它们可能是无效的。
LINEST函数中使用的下层算法与SLOPE和INTERCEPT函数中使用的下层算法不同。 当数据未定且共线时,这些算法之间的差异会导致不同的结果。 例如,如果参数known_y's的数据点为 0,参数known_x's的数据点为 1:
LINEST会返回值 0。LINEST函数的算法用来返回共线数据的合理结果,在这种情况下至少可找到一个答案。
SLOPE和INTERCEPT返回 错误 #DIV/0!。SLOPE和INTERCEPT函数的算法只用来查找一个答案,在这种情况下可能有多个答案。
除了使用LOGEST计算其他回归分析类型的统计值外,还可以使用LINEST计算其他回归分析类型的范围,方法是将 x 和 y 变量的函数作为LINEST的 x 和 y 系列输入。 例如,下面的公式:
=LINEST(yvalues, xvalues^COLUMN($A:$C))
将在您使用 y 值的单个列和 x 值的单个列计算下面的方程式的近似立方(多项式次数 3)值时运行:
y = m1*x + m2*x^2 + m3*x^3 + b
可以调整此公式以计算其他类型的回归,但是在某些情况下,需要调整输出值和其他统计值。
LINEST 函数返回的 F 检验值与FTEST 函数返回的 F 检验值不同。 LINEST 返回 F 统计值,而 FTEST 返回概率。
案例
案例 1 - 斜率和 Y 轴截距
案例 2 - 简单线性回归
案例 3 - 多重线性回归
案例 4 - 使用 F 和 r2 统计值
在上例中,判定系数 r2 为 0.99675(函数LINEST的输出单元格 A17 中的值),表明自变量与销售价格之间存在很强的相关性。 可以通过 F 统计值来确定具有如此高的 r2 值的结果偶然发生的可能性。
假设事实上在变量间不存在相关性,但选用 11 个办公楼作为小样本进行统计分析却导致很强的相关性。 术语“Alpha”表示得出这样的相关性结论错误的概率。
LINEST函数输出中的 F 和 df 值可被用于评估偶然出现较高 F 值的可能性。 F 可与发布的 F 分布表中的值进行比较,或者 Excel 中的FDIST函数可被用于计算偶然出现较高 F 值的概率。 适当的 F 分布具有 v1 和 v2 自由度。 如果 n 是数据点的个数且 const = TRUE 或被省略,那么 v1 = n – df – 1 且 v2 = df。 (如果 const = FALSE,那么 v1 = n – df 且 v2 = df。)用法为FDIST(F,v1,v2) 的FDIST函数将返回偶然出现较高 F 值的概率。 在本例中,df = 6(单元格 B18)且 F = 459.753674(单元格 A18)。
假设 Alpha 值为 0.05,v1 = 11 – 6 – 1 = 4 且 v2 = 6,那么 F 的临界值为 4.53。 由于 F = 459.753674 远大于 4.53,所以偶然出现高 F 值的可能性非常低。 (因为,在 Alpha = 0.05 的情况下,当 F 超过临界值 4.53 时,known_y’s和known_x’s之间没有关系这一假设不成立。)使用 Excel 中的FDIST函数可获得偶然出现高 F 值的概率。 例如,FDIST(459.753674, 4, 6) = 1.37E-7,是一个极小的概率。 于是可以断定,无论通过在表中查找 F 的临界值,还是使用FDIST函数,回归公式都可用于预测该区域中的办公楼的评估价值。 请注意,使用在上一段中计算出的 v1 和 v2 的正确值是非常关键的。
案例 5 - 计算 t 统计值
另一个假设测试可以判定每个斜率系数是否可以用来估算案例 3中的办公楼的评估价值。 例如,要测试年龄系数的统计显著性水平,以 13.268(单元格 A15 中年龄系数的估计标准误差)除 -234.24(年龄斜率系数)。 下面是 t 观察值:
t = m4 ÷ se4 = -234.24 ÷ 13.268 = -17.7
如果 t 的绝对值足够大,那么可以断定斜率系数可用来估算案例 3中的办公楼的评估价值。 下表显示了 4 个 t 观察值的绝对值。
如果查阅统计手册里的表,将会发现:双尾、自由度为 6、Alpha = 0.05 的 t 临界值为 2.447。 该临界值还可使用 Excel 中的TINV函数计算。TINV(0.05,6) = 2.447。 既然 t 的绝对值为 17.7,大于 2.447,则办公楼的使用年数对于估算办公楼的评估价值来说是一个重要变量。 用同样方法,可以测试其他每个自变量的统计显著性水平。 以下是每个自变量的 t 观察值。
这些值的绝对值都大于 2.447;因此,回归公式的所有变量都可用来估算此区域内的办公楼的评估价值。
LOGEST 函数
描述
在回归分析中,计算最符合数据的指数回归拟合曲线,并返回描述该曲线的数值数组。 因为此函数返回数值数组,所以它必须以数组公式的形式输入。
曲线的公式为:
y = b*m^x
或者
y = (b*(m1^x1)*(m2^x2)*_)
如果有多个 x 值,其中因变量 y 值是自变量 x 值的函数。 m 值是各指数 x 的底,而 b 值是常量值。 注意,y、x 和 m 可以是向量。 LOGEST 函数返回的数组为 {mn,mn-1,...,m1,b}。
用法
LOGEST(known_y's, [known_x's], [const], [stats])
LOGEST 函数用法具有以下参数:
Known_y's必需。 关系表达式 y = b*m^x 中已知的 y 值集合。
如果数组 known_y's 在单独一列中,则 known_x's 的每一列被视为一个独立的变量。
如果数组 known_y's 在单独一行中,则 known_x's 的每一行被视为一个独立的变量。
Known_x's可选。 关系表达式 y=b*m^x 中已知的 x 值集合,为可选参数。
数组 known_x's 可以包含一组或多组变量。 如果仅使用一个变量,那么只要 known_x's 和 known_y's 具有相同的维数,则它们可以是任何形状的区域。 如果使用多个变量,则 known_y's 必须是向量(即具有一列高度或一行宽度的单元格区域)。
如果省略 known_x's,则假设该数组为 {1,2,3,...},其大小与 known_y's 相同。
Const可选。 一个逻辑值,用于指定是否将常量 b 强制设为 1。
如果 const 为 TRUE 或省略,b 将按正常计算。
如果 const 为 FALSE,则常量 b 将设为 1,而 m 的值满足公式 y=m^x。
Stats可选。 一个逻辑值,用于指定是否返回附加回归统计值。
如果 stats 为 TRUE,函数 LOGEST 将返回附加的回归统计值,因此返回的数组为 {mn,mn-1,...,m1,b;sen,sen-1,...,se1,seb;r 2,sey; F,df;ssreg,ssresid}。
如果 stats 为 FALSE 或省略,则函数 LOGEST 只返回系数 m 和常量 b。
有关附加的回归统计值的详细信息,请参阅LINEST 函数。
备注
由数据绘出的图越近似于指数曲线,则计算出来的曲线就越符合原来给定的数据。 正如 LINEST 函数一样,LOGEST 函数返回一组描述数值间相互关系的数值数组,但 LINEST 函数是用直线来拟合数据,而 LOGEST 函数则以指数曲线来拟合数据。 有关详细信息,请参阅 LINEST 函数。
当仅有一个自变量 x 时,可直接用下面的公式计算出 y 轴截距 (b) 的值:
Y 轴截距 (b):
INDEX(LOGEST(known_y's,known_x's),2)
可用 y=b*m^x 公式来预测 y 的值,但是 Microsoft Excel 另外提供了可以预测因变量 y 值的 GROWTH 函数。 有关详细信息,请参阅GROWTH 函数。
对于返回结果为数组的公式,必须以数组公式的形式输入。
注意:在 Excel Online 中,不能创建数组公式。
当输入一个数组常量(如 known_x's)作为参数时,请使用逗号分隔同一行中的各值,使用分号分隔各行。 分隔符可能会因区域设置的不同而有所不同。
应注意的一点是:如果由回归公式所预测的 y 值超出用来计算回归公式的 y 的取值区间,则该值可能无效。
案例
案例 1
案例 2
LOGNORM.DIST 函数
描述
返回 x 的对数分布函数,此处的 ln(x) 是含有 Mean 与 Standard_dev 参数的正态分布。
使用此函数可以分析经过对数变换的数据。
用法
LOGNORM.DIST(x,mean,standard_dev,cumulative)
LOGNORM.DIST 函数用法具有下列参数:
X必需。 用来计算函数的值。
Mean必需。 ln(x) 的平均值。
standard_dev必需。 ln(x) 的标准偏差。
cumulative必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 LOGNORM.DIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。
备注
如果任一参数为非数值型,则 LOGNORM.DIST 返回 错误值 #VALUE!。
如果 x ≤ 0 或 standard_dev ≤ 0,则 LOGNORM.DIST 返回 错误值 #NUM!。
对数累积分布函数的公式为:
LOGNORM.DIST(x,µ,o) = NORM.S.DIST(1n(x)-µ / o)
案例
LOGNORM.INV 函数
描述
返回 x 的对数累积分布函数的反函数值,此处的 ln(x) 是服从参数 Mean 和 Standard_dev 的正态分布。 如果 p = LOGNORM.DIST(x,...),则 LOGNORM.INV(p,...) = x。
使用对数分布可分析经过对数变换的数据。
用法
LOGNORM.INV(probability, mean, standard_dev)
LOGNORM.INV 函数用法具有下列参数:
Probability必需。 与对数分布相关的概率。
Mean必需。 ln(x) 的平均值。
standard_dev必需。 ln(x) 的标准偏差。
备注
如果任一参数为非数值型,则 LOGNORM.INV 返回 错误值 #VALUE!。
如果 probability <= 0 或 probability >= 1,则 LOGNORM.INV 返回 错误值 #NUM!。
如果 standard_dev <= 0,则 LOGNORM.INV 返回 错误值 #NUM!。
案例
MAX 函数
描述
返回一组值中的最大值。
用法
MAX(number1, [number2], ...)
MAX 函数用法具有下列参数:
number1, number2, ...Number1 是必需的,后续数字是可选的。 要从中查找最大值的 1 到 255 个数字。
备注
参数可以是数字或者是包含数字的名称、数组或引用。
逻辑值和直接键入到参数列表中代表数字的文本被计算在内。
如果参数是一个数组或引用,则只使用其中的数字。 数组或引用中的空白单元格、逻辑值或文本将被忽略。
如果参数不包含任何数字,则 MAX 返回 0(零)。
如果参数为错误值或为不能转换为数字的文本,将会导致错误。
如果要使计算包括引用中的逻辑值和代表数字的文本,请使用 MAXA 函数。
案例
MAXA 函数
描述
返回参数列表中的最大值。
MAXA 与 MINA 相似。有关详细信息,请参阅MINA 函数的案例。
用法
MAXA(value1,[value2],...)
MAXA 函数用法具有下列参数:
Value1必需。 要从中找出最大值的第一个数值参数。
Value2,...可选。 要从中找出最大值的 2 到 255 个数值参数。
备注
参数可以是下列形式:数值;包含数值的名称、数组或引用;数字的文本表示;或者引用中的逻辑值,例如 TRUE 和 FALSE。
逻辑值和直接键入到参数列表中代表数字的文本被计算在内。
如果参数为数组或引用,则只使用其中的数值。 数组或引用中的空白单元格和文本值将被忽略。
如果参数为错误值或为不能转换为数字的文本,将会导致错误。
包含 TRUE 的参数作为 1 来计算;包含文本或 FALSE 的参数作为 0(零)来计算。
如果参数不包含任何值,则 MAXA 返回 0(零)。
如果要使计算不包括引用中的逻辑值和代表数字的文本,请使用 MAX 函数。
案例
MAXIFS 函数
描述
MAXIFS 函数返回一组给定条件或标准指定的单元格中的最大值。
用法
MAXIFS(max_range, criteria_range1, criteria1, [criteria_range2, criteria2], ...)
备注
max_range 和 criteria_rangeN 参数的大小和形状必须相同,否则这些函数会返回 #VALUE! 错误。
案例
案例 1
案例 2
案例 3
案例 4
案例 5
案例 6
MEDIAN 函数
描述
返回一组已知数字的中值。 中值是一组数的中间数。
用法
MEDIAN(number1, [number2], ...)
MEDIAN 函数用法具有下列参数:
number1, number2, ...Number1 是必需的,后续数字是可选的。 要计算中值的 1 到 255 个数字。
备注
如果参数集合中包含偶数个数字,MEDIAN 将返回位于中间的两个数的平均值。 请参阅案例中的第二个公式。
参数可以是数字或者是包含数字的名称、数组或引用。
逻辑值和直接键入到参数列表中代表数字的文本被计算在内。
如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。
如果参数为错误值或为不能转换为数字的文本,将会导致错误。
注意:MEDIAN 函数用于度量集中趋势,集中趋势在统计分步中是一组数字的中心位置。 最常用的集中趋势度量方式有以下三种:
平均值平均值是算术平均数,由一组数相加然后除以这些数的个数计算得出。 例如,2、3、3、5、7 和 10 的平均值为 30 除以 6,即 5。
中值中值是一组数中间位置的数;即一半数的值比中值大,另一半数的值比中值小。 例如,2、3、3、5、7 和 10 的中值是 4。
众数众数是一组数中最常出现的数。 例如,2、3、3、5、7 和 10 的众数是 3。
对于对称分布的一组数来说,这三种集中趋势的度量是相同的。 对于偏态分布的一组数来说,这三种集中趋势的度量可能不同。
案例
MIN 函数
描述
返回一组值中的最小值。
用法
MIN(number1, [number2], ...)
MIN 函数用法具有下列参数:
number1, number2, ...number1 是可选的,后续数字是可选的。 要从中查找最小值的 1 到 255 个数字。
备注
参数可以是数字或者是包含数字的名称、数组或引用。
逻辑值和直接键入到参数列表中代表数字的文本被计算在内。
如果参数是一个数组或引用,则只使用其中的数字。 数组或引用中的空白单元格、逻辑值或文本将被忽略。
如果参数不包含任何数字,则 MIN 返回 0。
如果参数为错误值或为不能转换为数字的文本,将会导致错误。
如果您想要在引用中将逻辑值和数字的文本表示形式作为计算的一部分包括,则使用 MINA 函数。
案例
MINA 函数
描述
返回参数列表中的最小值。
用法
MINA(value1, [value2], ...)
MINA 函数用法具有下列参数:
Value1, value2, ...Value1 是必需的,后续值是可选的。 要从中查找最小值的 1 到 255 个数值。
备注
参数可以是下列形式:数值;包含数值的名称、数组或引用;数字的文本表示;或者引用中的逻辑值,例如 TRUE 和 FALSE。
如果参数为数组或引用,则只使用其中的数值。 数组或引用中的空白单元格和文本值将被忽略。
包含 TRUE 的参数作为 1 来计算;包含文本或 FALSE 的参数作为 0(零)来计算。
如果参数为错误值或为不能转换为数字的文本,将会导致错误。
如果参数不包含任何值,则 MINA 返回 0。
如果要使计算不包括引用中的逻辑值和代表数字的文本,请使用 MIN 函数。
案例
以上是所有EXCEL的统计函数(5)描述用法以及使用案例。这次分享中存在哪些疑问或者哪些不足,可以在下面进行评论。如果觉得不错,可以分享给你的朋友,让大家一起掌握这些excel的统计函数(5)。