• ×
    支持199IT发展可加入知识交流群(4000+用户),最有价值数据分享和讨论!
    点击即可加入!
    关闭

    人人都需要掌握的 5 个基本统计概念

     

    在数据科学艺术的执行中,统计可以说是一个强大的工具。从高层次来看,统计学是利用数学对数据进行分析的学科。基本的可视化(柱状图等)会给受众一些深层的信息,但通过统计,我们可以用一种更富?#34892;?#24687;驱动力和更有针对性的方式对数据进行操作。统计中的数学可以帮助我们对数据形成具体的结论,而不仅仅是猜测。

    通过统计,我们可以获得更深入、更细致入微的见解,能够了解数据的确切结构,并在此基础上了解如何应用其他数据科学技术来获取更多信息。

    今天,我们来看看数据科学家需要掌握的5个基本统计概念及其应用。

    统计特征(Statistical Features)

    统计特征可能是数据科学中最常用的统计概念。它通常是你在研究数据集时使用的第一种统计技术,包括偏差(bias)、方差(variance)、平均值(mean)、中位数(median)、百分位数(percentiles)等。这很好理解,在代码中也非常容?#36164;?#29616;。下图可以说明这些特征。

    一个基本的箱须图(box- whisker-plot)

    中间的那条线是数据的中位数(median),中位数比平均值(mean)更常用,因为它更不容易受到极端数值的影响。第一四分位数(first quartile,Q1)?#23548;?#19978;是第25%的数,换句话说,是样本所有数值?#23578;?#21040;大排列后第25%的数字。第三四分位数(third quartile,Q3)是第75%的数,即样本所有数值?#23578;?#21040;大排列后第75%的数字。上限和下限即样本数据非异常范围内的最大值和最小值。第一四分位数和第三四分位数组成箱须图中的箱子(box plot),第一四分位数-下限以及第三四分位数-上限连接的线段即须(whisker)

    箱须图完美地说明了我们可以用基本统计特征得出什么结论:

    • 当箱子较短?#20445;?#24847;味着样本的数据差别不大,因为在较小范围里?#34892;?#22810;值。
    • 当箱子较长?#20445;?#24847;味着样本的数据差别很大,因为数据分散在较大范围内。
    • 如果中位数接近箱子底部,那么就意味着样本中更多数据的数值较小,?#39318;?#20559;态分布;如果中位数接近箱子顶部,那么就意味着样本中更多数据的数值较大,?#35270;移?#24577;分布。基本上,如果中位数的那条线不在箱子中间,那么就意味着数据分?#35745;?#24577;。
    • “须”很长?这意味着你的样本数据有较高的标准差和方差,换句话说,数据分布分散。如果箱子一边有很长的须,而另一边较短,那么你的数据可能只在一个方向上更为分散。
    • 所有这些信息都来自于很容易计算的简单统计特征!当你需要快速获取有意义的数据统计图?#20445;?#20320;可以试着画箱须图。

    概率分布(Probability Distributions)

    概率能?#29615;从?#38543;机事件出现的可能性大小。在数据科学中,概率通常被量化在0-1之间,概率为0意味着不可能事件(一定条件下必然不发生的事件),概率为1表示必然事件(一定条件下必然发生的事件)。概率分布是一个函数,表示实验中所有可能值的概率。下图可以帮你理解概率分布。

    常见的概率分布。

    均匀分布(左)、正态分布(中)、?#27492;?#20998;布(右)

    • 均匀分布(Uniform Distribution)是3种概率分布中最基本的一种。它在区间内只有一个值,也就是说在相同长度间隔的分布概率是等可能的,范围之外的概率都是0。相当于一个“开或关”的分布。我们也可以把它看作是一个有两个类别的分类变量:0或者那个一定的值。你的分类变量可能有多个值,不仅仅是0,但我们可以把它看作多重均匀分布的分段函数。
    • 正态分布(Normal distribution),又称高斯分布(Gaussian Distribution),由其平均值和标准差定义。正态分布的对称轴是样本平均值,随着样本平均值的变化在坐标轴上左右移动,标准差描述了正态分布的离散程度(即数据是广泛分布还是高度集中)。它由平均数所在处开始,分别向左右两侧逐渐均匀下降。与其他分布(如?#27492;?#20998;布)相比,正态分布的标?#35745;?#24046;在所有方向上都是相同的。因此,通过正态分布,我们就可以清楚知道样本的平均值和离散程度。
    • ?#27492;?#20998;布(Poisson Distribution)和正态分布相似,但多了偏斜率。如果偏度值非常小,那么?#27492;?#20998;布在各个方向上的分布就和正态分布相似,相对均?#21462;?#20294;当偏度值很大?#20445;?#25968;据在不同方向上的分布就不同:在一个方向上,它将非常分散;而在另一个方向上,它将高度集中。?#27492;?#20998;布很适合描述单位时间内随机事件发生的次数。

    还得说一句题外话,除了上述三种分布之外,还有其他非常多的概率分布,你都可以深入研究,但这三种分?#23478;?#32463;给我们提供了相当多的价值。

    我们可以用均匀分布快速查看和解释分类变量。如果看到高斯分布,那我们知道?#34892;?#35768;多多算法,它们在默认情况下都会执行地非常优异,我们应该选择它们。对于?#27492;?#20998;布,我们发?#30452;?#39035;谨慎地选择一种算法,它拥有足够的鲁棒性应对时空的变量。

    维数约简(Dimensionality Reduction)

    维数约简这个术语很好理解:有一个数据集,我们想减少它的维度数量。在数据科学中,这个数量是特征变量的数量。维数约简的意义就是降低原来的维数,并保证原数据库的完整性,在约简后的空间中执行后续程序将大大减少运算量,提高数据挖掘效率,且挖掘出来的结果与原有数据集所获得结果基本一致。更广泛的说就是?#20048;?#20102;维数灾难的发生。看下图获得更详细的解释:

    维数约简

    立方体代表我们的样本数据集,它有三个维度,共1000个点。以现有的计算能力,1000个点很容易就能处理,但处理更大范围的数据还是会遇到问题。然而,仅仅从二维的角度来看数据集,比如从立方体的一侧来看,我们可以看到区分所有的颜色还是很容易的。通过维数约简,我们可以将三维数据投射(project)到二维平面上。这把我们需要计算的点数减少到100,?#34892;?#22320;节约了大量的计算时间。

    另一种维数约简的方式是特征修剪(feature pruning)。利用特征修剪,我们基本可以删去对我们的分析不重要的特征。例如,研究一个数据集之后,我们可能发现该数据集有10个特征,其中,有7个特征与输出有很高的相关性,而其余3个相关性不高。那么这3个低相关性特征可能就不值得计算了,我们可以在不影响输出的情况下从分析中删掉它们。

    最常用的维数约简方法是主成分分析(PCA),本质上是创建新的向量,这些向量可以尽可能多地?#20174;?#21407;始变量的信息特征(即它们的相关性)。

    PCA可用于上述两种维数约简方式。在这个教程中可以获得更多相关信息。

    过采样和欠采样(Over and Under Sampling)

    过采样和欠采样是用于分类问题的统计技术。有?#20445;?#20998;类数据集可能过于偏向于一边。例如,类别1有2000个样本,类别2只有200个。我们能够用来建模、预测的许多机器学习技术都?#29615;?#29992;了!但是,过采样和欠采样可以解决这个问题。请看这张图:

    欠采样(左)和过采样(右)

    上图里,两张数据图中蓝色类别的样本比橙色多多了。在这种情况下,我们有两个预处理选项,可以帮助训练我们的机器学习模型。

    欠采样意味着我们从多数类中选择一些数据,只使用和少数类数量一致的样本。这种选择不是随便挑选的,而是要保证类的概率分布不变。这很容易!我们选取少量样本,使样本数据集更加均?#21462;?/p>

    过采样意味着创建少数类样本的副本,使少数类与多数类拥有数量一致的样本。副本创建需要保证少数类的概率分布不变。我们不需要收集更多的样本就能使样本数据集更加均?#21462;?/p>

    贝?#31471;?#32479;计(Bayesian Statistics)

    想要完全理解为什?#27425;?#20204;要用贝?#31471;?#32479;计,首先需要理解频率统计(Frequency Statistics)的缺陷。频率统计是大多数人听到“概率”一次时首先会想到的一种统计类型,频率统计检测一个事件(或者假设)是否发生,它通过长时间的试验计算某个事件发生的可能性(试验是在同等条件下进行的),唯一计算的数据是先验数据(prior data)。

    可以看这个例子。假如我给你一个骰子,问你掷出6的几率是多少。大多数人会说是1/6。确?#31561;?#27492;,如果做频率分析,某人?#23383;?#39600;子10000次,计算每个数字出现的频率,那?#27425;?#20204;可以看到结果每个数字出现的频率大约是1/6。

    但如果有人告诉你,给你的骰子不那?#22402;?#25972;,总是6朝上呢?由于频率分析只考虑了之前的数据,上述分析中,骰子不规整的因素没有被考虑进去。

    而贝?#31471;?#32479;计就考虑了这一点。我们可以用下图的贝?#31471;?#27861;则(Baye’s Theoram)来说明:

    贝?#31471;?#27861;则

    方程中,H代表一个事件,E代表另一个,P即?#21576;?#20214;发生的概率。

    P(H)即先验概率,基本上就是数据分析的结果,即之前事件H发生的概率。

    P(E|H)被称作相似度,指假设事件H成立?#20445;?#20107;件E发生的概率。

    P(E)指事件E成立的先验概率,也被称作标准化常量。

    P(H|E)即后验概率,指E发生后,发生H的概率。

    例如,如果你想投掷骰子10000次,前1000次全掷出的是6,你很怀?#24910;?#23376;不规整了。如果我告诉你骰子确实不规整,你是相信我,还是认为这是个骗局呢?

    如果频率分析没有什么缺陷,那?#27425;?#20204;会比较自信地认定接下来的投掷出现6的概率仍是1/6。而如果骰子确实不规整,或是不基于其自身的先验概率及频率分析,我们在预测接下来数字出现的概率?#20445;?#23601;必须要考虑到骰子的因素。当我们不能准?#20998;?#24713;一个事物的本?#36866;保?#21487;以依靠与事物特定本质相关的事件出现的多少去判断其本?#36866;?#24615;的概率。正如你从方程式中能能看到的,贝?#31471;?#32479;计把所有因素都考虑在内了。当你觉得之前的数据不能很好地代表未来数据和结果的时候,就应该使用贝?#31471;?#32479;计。

    作者|George Seif

    原题|The 5 Basic Statistics Concepts Data Scientists Need to Know

    源自|towardsdatascience.com

    转自|36Kr

    ?#34892;?#25903;持199IT
    我们致力为中国互联网研究和咨询及IT行业数据专?#31561;?#21592;和决策者提供一个数据共享平台。

    要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
    滚动到顶部
    宁夏十一选五平台 11选5每天赚200元不难 三张牌炸鸡 足球彩票4场进球彩 544844大红鹰网一尾中特平 河南今天快三开奖结果 七星彩最大奖7000万 通比牛牛平台手机版下载 4399诈金花 福彩排列五走势图 福建36选7体育彩票 sg飞艇是官方开奖么 135888平特一肖主一码 3d试机号怎么算开奖号 广东十一选五任二多少钱 幸运赛车规律