下列哪个统计量用于描述该地区居民收入的差距状况,且受异常值影响最小。(C)
A.样本中位数
B.样本极差
C.样本四分位间距
D.样本标准差
四分位间距是一种被广泛接受的在数据中寻找异常值的方法。
使用四分位距或IQR时,完整数据集被分成四个相等的部分或四分位数。四分位数之间的距离用于确定IQR。这是它的工作原理。假设有一个非常多样化的15个朋友,他们的年龄如下:31、21、 26、30、31、45、47、32、53、54、55、38、43、57、64。如果要找到IQR,将执行以下操作:
1、按年龄从小到大排序。
2、找到中间值并在此之上和之下创建一个组。
3、为每个创建的组找到中间值。
4、找出上下组中间的差异。
知道如何找到四分位距,可以用它来定义异常值。这最常用的方法使用IQR查找异常值的方法是将异常值定义为Q1以下1点5 x IQR或Q3以上1点5xIQR之外的值。异常值的阈值只是由使用的数据定义的。尽管可能出现负龄,但异常值计算仅考虑数值。在这种情况下,Q1值为31,Q3值为35。这意味着IQR仅为4。
现在,IQR的1点5倍为6。任何低于25或高于41的值都将被视为异常值。现在,21、57和64岁的朋友被认为是异常值。