大数据分析的数学基础(大数据分析的数学原理)

作者:教育资讯网 2024-08-16 08:45:29 777

从事大数据分析行业,理论知识是必不可少的,尤其是一些数学知识。我整理了一些基本的数学术语:

分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数,即二分位数。

大数据分析的数学基础(大数据分析的数学原理)

众数(Mode)是统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用M表示。理性理解:简单的说,就是一组数据中占比例最多的那个数。

极差(Range)又称范围误差或全距,以R表示,是用来表示统计资料中的变异量数(measuresofvariation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。即最大值最小值(也就是极差)来评价一组数据的离散度。

四分位差(quartiledeviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。计算公式为:Q=Q3-Q1四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。

方差(variance)用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。方差是衡量源数据和期望值相差的度量值。

标准差(StandardDeviation),中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

相关推荐

热门推荐

猜你喜欢