• ×
    支持199IT發展可加入知識交流群(4000+用戶),最有價值數據分享和討論!
    點擊即可加入!
    關閉

    人人都需要掌握的 5 個基本統計概念

     

    在數據科學藝術的執行中,統計可以說是一個強大的工具。從高層次來看,統計學是利用數學對數據進行分析的學科。基本的可視化(柱狀圖等)會給受眾一些深層的信息,但通過統計,我們可以用一種更富有信息驅動力和更有針對性的方式對數據進行操作。統計中的數學可以幫助我們對數據形成具體的結論,而不僅僅是猜測。

    通過統計,我們可以獲得更深入、更細致入微的見解,能夠了解數據的確切結構,并在此基礎上了解如何應用其他數據科學技術來獲取更多信息。

    今天,我們來看看數據科學家需要掌握的5個基本統計概念及其應用。

    統計特征(Statistical Features)

    統計特征可能是數據科學中最常用的統計概念。它通常是你在研究數據集時使用的第一種統計技術,包括偏差(bias)、方差(variance)、平均值(mean)、中位數(median)、百分位數(percentiles)等。這很好理解,在代碼中也非常容易實現。下圖可以說明這些特征。

    一個基本的箱須圖(box- whisker-plot)

    中間的那條線是數據的中位數(median),中位數比平均值(mean)更常用,因為它更不容易受到極端數值的影響。第一四分位數(first quartile,Q1)實際上是第25%的數,換句話說,是樣本所有數值由小到大排列后第25%的數字。第三四分位數(third quartile,Q3)是第75%的數,即樣本所有數值由小到大排列后第75%的數字。上限和下限即樣本數據非異常范圍內的最大值和最小值。第一四分位數和第三四分位數組成箱須圖中的箱子(box plot),第一四分位數-下限以及第三四分位數-上限連接的線段即須(whisker)

    箱須圖完美地說明了我們可以用基本統計特征得出什么結論:

    • 當箱子較短時,意味著樣本的數據差別不大,因為在較小范圍里有許多值。
    • 當箱子較長時,意味著樣本的數據差別很大,因為數據分散在較大范圍內。
    • 如果中位數接近箱子底部,那么就意味著樣本中更多數據的數值較小,呈左偏態分布;如果中位數接近箱子頂部,那么就意味著樣本中更多數據的數值較大,呈右偏態分布。基本上,如果中位數的那條線不在箱子中間,那么就意味著數據分布偏態。
    • “須”很長?這意味著你的樣本數據有較高的標準差和方差,換句話說,數據分布分散。如果箱子一邊有很長的須,而另一邊較短,那么你的數據可能只在一個方向上更為分散。
    • 所有這些信息都來自于很容易計算的簡單統計特征!當你需要快速獲取有意義的數據統計圖時,你可以試著畫箱須圖。

    概率分布(Probability Distributions)

    概率能夠反映隨機事件出現的可能性大小。在數據科學中,概率通常被量化在0-1之間,概率為0意味著不可能事件(一定條件下必然不發生的事件),概率為1表示必然事件(一定條件下必然發生的事件)。概率分布是一個函數,表示實驗中所有可能值的概率。下圖可以幫你理解概率分布。

    常見的概率分布。

    均勻分布(左)、正態分布(中)、泊松分布(右)

    • 均勻分布(Uniform Distribution)是3種概率分布中最基本的一種。它在區間內只有一個值,也就是說在相同長度間隔的分布概率是等可能的,范圍之外的概率都是0。相當于一個“開或關”的分布。我們也可以把它看作是一個有兩個類別的分類變量:0或者那個一定的值。你的分類變量可能有多個值,不僅僅是0,但我們可以把它看作多重均勻分布的分段函數。
    • 正態分布(Normal distribution),又稱高斯分布(Gaussian Distribution),由其平均值和標準差定義。正態分布的對稱軸是樣本平均值,隨著樣本平均值的變化在坐標軸上左右移動,標準差描述了正態分布的離散程度(即數據是廣泛分布還是高度集中)。它由平均數所在處開始,分別向左右兩側逐漸均勻下降。與其他分布(如泊松分布)相比,正態分布的標準偏差在所有方向上都是相同的。因此,通過正態分布,我們就可以清楚知道樣本的平均值和離散程度。
    • 泊松分布(Poisson Distribution)和正態分布相似,但多了偏斜率。如果偏度值非常小,那么泊松分布在各個方向上的分布就和正態分布相似,相對均勻。但當偏度值很大時,數據在不同方向上的分布就不同:在一個方向上,它將非常分散;而在另一個方向上,它將高度集中。泊松分布很適合描述單位時間內隨機事件發生的次數。

    還得說一句題外話,除了上述三種分布之外,還有其他非常多的概率分布,你都可以深入研究,但這三種分布已經給我們提供了相當多的價值。

    我們可以用均勻分布快速查看和解釋分類變量。如果看到高斯分布,那我們知道有許許多多算法,它們在默認情況下都會執行地非常優異,我們應該選擇它們。對于泊松分布,我們發現必須謹慎地選擇一種算法,它擁有足夠的魯棒性應對時空的變量。

    維數約簡(Dimensionality Reduction)

    維數約簡這個術語很好理解:有一個數據集,我們想減少它的維度數量。在數據科學中,這個數量是特征變量的數量。維數約簡的意義就是降低原來的維數,并保證原數據庫的完整性,在約簡后的空間中執行后續程序將大大減少運算量,提高數據挖掘效率,且挖掘出來的結果與原有數據集所獲得結果基本一致。更廣泛的說就是防止了維數災難的發生。看下圖獲得更詳細的解釋:

    維數約簡

    立方體代表我們的樣本數據集,它有三個維度,共1000個點。以現有的計算能力,1000個點很容易就能處理,但處理更大范圍的數據還是會遇到問題。然而,僅僅從二維的角度來看數據集,比如從立方體的一側來看,我們可以看到區分所有的顏色還是很容易的。通過維數約簡,我們可以將三維數據投射(project)到二維平面上。這把我們需要計算的點數減少到100,有效地節約了大量的計算時間。

    另一種維數約簡的方式是特征修剪(feature pruning)。利用特征修剪,我們基本可以刪去對我們的分析不重要的特征。例如,研究一個數據集之后,我們可能發現該數據集有10個特征,其中,有7個特征與輸出有很高的相關性,而其余3個相關性不高。那么這3個低相關性特征可能就不值得計算了,我們可以在不影響輸出的情況下從分析中刪掉它們。

    最常用的維數約簡方法是主成分分析(PCA),本質上是創建新的向量,這些向量可以盡可能多地反映原始變量的信息特征(即它們的相關性)。

    PCA可用于上述兩種維數約簡方式。在這個教程中可以獲得更多相關信息。

    過采樣和欠采樣(Over and Under Sampling)

    過采樣和欠采樣是用于分類問題的統計技術。有時,分類數據集可能過于偏向于一邊。例如,類別1有2000個樣本,類別2只有200個。我們能夠用來建模、預測的許多機器學習技術都沒法用了!但是,過采樣和欠采樣可以解決這個問題。請看這張圖:

    欠采樣(左)和過采樣(右)

    上圖里,兩張數據圖中藍色類別的樣本比橙色多多了。在這種情況下,我們有兩個預處理選項,可以幫助訓練我們的機器學習模型。

    欠采樣意味著我們從多數類中選擇一些數據,只使用和少數類數量一致的樣本。這種選擇不是隨便挑選的,而是要保證類的概率分布不變。這很容易!我們選取少量樣本,使樣本數據集更加均勻。

    過采樣意味著創建少數類樣本的副本,使少數類與多數類擁有數量一致的樣本。副本創建需要保證少數類的概率分布不變。我們不需要收集更多的樣本就能使樣本數據集更加均勻。

    貝葉斯統計(Bayesian Statistics)

    想要完全理解為什么我們要用貝葉斯統計,首先需要理解頻率統計(Frequency Statistics)的缺陷。頻率統計是大多數人聽到“概率”一次時首先會想到的一種統計類型,頻率統計檢測一個事件(或者假設)是否發生,它通過長時間的試驗計算某個事件發生的可能性(試驗是在同等條件下進行的),唯一計算的數據是先驗數據(prior data)。

    可以看這個例子。假如我給你一個骰子,問你擲出6的幾率是多少。大多數人會說是1/6。確實如此,如果做頻率分析,某人拋擲骰子10000次,計算每個數字出現的頻率,那么我們可以看到結果每個數字出現的頻率大約是1/6。

    但如果有人告訴你,給你的骰子不那么規整,總是6朝上呢?由于頻率分析只考慮了之前的數據,上述分析中,骰子不規整的因素沒有被考慮進去。

    而貝葉斯統計就考慮了這一點。我們可以用下圖的貝葉斯法則(Baye’s Theoram)來說明:

    貝葉斯法則

    方程中,H代表一個事件,E代表另一個,P即某事件發生的概率。

    P(H)即先驗概率,基本上就是數據分析的結果,即之前事件H發生的概率。

    P(E|H)被稱作相似度,指假設事件H成立時,事件E發生的概率。

    P(E)指事件E成立的先驗概率,也被稱作標準化常量。

    P(H|E)即后驗概率,指E發生后,發生H的概率。

    例如,如果你想投擲骰子10000次,前1000次全擲出的是6,你很懷疑骰子不規整了。如果我告訴你骰子確實不規整,你是相信我,還是認為這是個騙局呢?

    如果頻率分析沒有什么缺陷,那么我們會比較自信地認定接下來的投擲出現6的概率仍是1/6。而如果骰子確實不規整,或是不基于其自身的先驗概率及頻率分析,我們在預測接下來數字出現的概率時,就必須要考慮到骰子的因素。當我們不能準確知悉一個事物的本質時,可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率。正如你從方程式中能能看到的,貝葉斯統計把所有因素都考慮在內了。當你覺得之前的數據不能很好地代表未來數據和結果的時候,就應該使用貝葉斯統計。

    作者|George Seif

    原題|The 5 Basic Statistics Concepts Data Scientists Need to Know

    源自|towardsdatascience.com

    轉自|36Kr

    感謝支持199IT
    我們致力為中國互聯網研究和咨詢及IT行業數據專業人員和決策者提供一個數據共享平臺。

    要繼續訪問我們的網站,只需關閉您的廣告攔截器并刷新頁面。
    滾動到頂部
    --> 宁夏十一选五平台