六月SAT考试结束后,很多同学反应数学的data analysis部分很难。但实际上SAT中考察的data analysis的知识点并不难,主要是一些基础的统计学知识,之所以在考试时无从下手,只是因为这个部分的知识点容易被同学们遗忘、同学们对于这部分知识点不太熟悉所导致的。所以今天我们就来介绍一下data analysis中center and spread的知识点,并讲解一下一种容易考到的题型:异常值对于各个统计量的影响。
SAT数学异常值知识点讲解
平均数 (Mean)
平均数是数据集(data set)中所有值的总和除以值的数量。它反映了数据的中心趋势。
计算公式:x̄=(x1+x2+x3+…xn)/n
异常值对平均数的影响:异常值会显著影响平均数。一个极大或极小的值会拉动平均数,导致它偏离大多数数据点。增加一个很大的异常值或移去一个很小的异常值,会令平均数变大;增加一个很小的异常值或移去一个很大的异常值,会令平均数变小。
中位数 (Median)
中位数是将所有数据排序后位于中间的值。如果数据点数为偶数,则中位数是位于中间的两个数的平均值。它也是一种数据的中心趋势度量,但比平均数更不受极端值影响,因为决定中位数的是数据的位置。
计算方法:将数据排序,选择中间的值。如果是偶数个数据,取中间两个值的平均。
位置公式:position=(n+1)/2
异常值对中位数影响:中位数对异常值不敏感。除非异常值导致中位数位置的变化,否则中位数基本不变。
*拓展:平均数和中位数的大小比较
当数据分布接近关于中心对称是,平均数约等于中位数(图片),如果数据分布完全对称,这个数据集的平均数等于中位数(mean = median)。
上图的数据分布情况可以看作是一个数据集加了一些很小的异常值,会导致平均数变小,中位数可能不变。上图的数据分布叫做左偏态(skewed to the left),这种分布下平均数小于中位数(mean < median)。
上图的数据分布情况可以看作是一个数据集加了一些很大的异常值,会导致平均数变大,中位数可能不变。上图的数据分布叫做右偏态(skewed to the right),这种分布下平均数大于中位数(mean > median)。
范围 (Range)
范围是数据集中最大值与最小值之间的差值。它反映了数据的分布宽度。
计算公式:范围=最大值−最小值
异常值对范围的影响:异常值会显著影响范围。一个极端的最大值或最小值会显著增加范围。
标准差 (Standard Deviation)
标准差是衡量数据分散程度的指标,表示数据点与平均数之间的平均距离。
计算公式:
(公式中的图片为平均值)
异常值对标准差影响:异常值会显著影响标准差。因为标准差是基于所有数据点的平方差,极端值会导致平方差增大,进而增大标准差。
?异常值的影响总结
平均数:
加入一个异常值会使平均数向异常值方向偏移;
去掉异常值会使平均数更接近数据的实际中心。
中位数:
中位数对异常值相对不敏感。
除非异常值数量非常多或影响排序的中间位置,否则中位数变化不大。
范围:
加入一个极大或极小的异常值会显著增加范围;
去掉异常值会显著减小范围。
标准差:
加入异常值会增加标准差,因为异常值增加了数据的分散程度;
去掉异常值会减少标准差,使数据看起来更加集中。
总之,异常值会对平均数,范围和标准差产生显著影响,而对中位数的影响则取决于异常值的位置和数量。去掉异常值通常会使这些统计量更能反映数据的真实分布。
SAT数学异常值真题演练
在看完上面的讲解后,让我们来做几道题感受一下异常值是如何影响数据集中的统计量的。
上面这道题,我们发现data set X和data set Y这两个数据集的区别只在data set X多了最右的一个点,因此我们可以把data set X看作是data set Y增加了一个大的异常值:增加一个大的异常值,平均数(mean)会增大;中位数(median)只跟它的位置有关,data set Y共有9个点,它的中位数在第5个点,对应的值是3,data set X共有10个点,它的中位数是第5和第6个点之和的二分之一,对应的值也是3,因此两个数据集中位数相等。
综上所述,这道题只有II的描述是对的,因此选择B选项。
上面这道题,首先我们观察数据集,发现12对于这个数据集来说是一个异常小的值,因此12是这个数据集的outlier。移除一个异常小的值,会另平均数变大,因此平均数会增加。
对于中位数,这道题有一个小陷阱,就是它给的数据集不是按顺序排列的,因此我们第一步需要先把数据按顺序排列。我们从大到小排列后得到:12 52 53 58 62 62 66 67 68 70。在移除异常值12之前,这个数据集的中位数是第5和第6个数之和的二分之一,即62;在移除异常值之后,中位数取九个数中的第5位数,我们发现还是62,因此移除异常值前后中位数不变。
所以这道题我们选择C选项。
上面这道题我们发现这个数据集的数据分布是左偏的,因此它的平均数小于中位数,所以我们选择B选项。
总结
看完讲解和真题演练后,不知道同学们是否掌握了今天的知识点。在我们学习SAT数学的过程中,需要对每一个板块进行查缺补漏,不能遗漏任何一个大大小小的知识点。只有准备的全面充分,才能在考试中战无不胜,取得满分。
SAT数学福利
TD SAT教研组为大家准备了机考SAT数学难题合集,现在扫描下方二维码,添加TD小马甲的微信,并发送暗号「SAT数学难题合集」就可以领取咯~