統計從頭學(二) 假設檢定入門

(文章內容皆為記錄本人之學習過程,非以分享為目的)
## 平均值:
1) 比例與平均意義相同:比例只是把定性的變數用0、1表示後彙整出來的平均值。

2)
 一般情況,中位數或是眾數當代表值比平均值有利於掌握實際現況,不會被資料的不規則分佈所影響(ex: 財富數據的平均值容易被富豪所影響)。
 
而平均值因為計算上的方便,被高斯等人拿來當作量測值包含的偏差減到最低的理想真值,其是以最小平方法為基礎。

從平均值回頭來看資料,可以發現,當資料的變動性符合常態分佈,最小平方法就是最理想的推估方法,平均值就是最理想的推估值。這也是黑天鵝作者最不滿的地方,因為非常態的金融工程用很多統計學知識都是以常態分佈為基礎。


3)衍伸:中央極限定理 (Central Limit Theorem)
這定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變量之和近似服從常態分布的條件。
其白話的表達是說,原始資料,其隨意抽數量為n的樣本夠多次的話,那樣本的總和或平均數的分佈會尊循常態分佈。

理論的說: 
從同一母體取出樣本數為n之無限多組樣本,此無限多組樣本之平均數之分佈,稱為「樣本平均數抽樣分佈」,當「樣本平均數抽樣分佈」抽樣之樣本數n趨近於無限大時,依據「中央極限定理」,其分佈具有以下特性:
a. 樣本平均數抽樣分佈會趨近常態分佈。
b. 樣本平均數抽樣分佈之平均數會等於母群體平均數。
c. 樣本平均數抽樣分佈的標準差,又稱「平均數之標準誤」,會等於母群體標準差除以樣本數 n 的平方根。
    (隨著n增加,平均數之標準誤會隨之變小。)



藉由中央極限定理,讓未知分布的母群體平均數可以進行估計標準誤是對「平均數抽樣誤差」的測量, 通常以X ± 2SE(X) 來估計母體平均數 μ,母體平均數μ有95%機率落入此範圍內。
中央極限定理中指出,當取樣數n夠大時,樣本平均數抽樣分佈可表示為一常態分佈; 故可使用Z轉換公式來得知某樣本平均數在此樣本平均數抽樣分佈中的相對位置,並可進行查表得知出現大於、小於該平均數值之機率。 
此處的 Z分數 = ( 樣本平均數 - 母體平均數 ) / 平均數之標準誤。




## 標準差:
1)四分位數範圍比變異數(或標準差)有利於掌握資料的實際分佈狀況。

2)標準差,就是所有資料與平均值的 "平均差距",也就是資料的離散程度,在常態分佈下,其比四分位數更方便計算,且更方便掌握資料範圍,其重要觀念就是(68% - 95% -99%)的分佈範圍。
只有在以平均值為分佈中心之描述時,才能用標準差來描述離度; 標準差為0表示沒有離度,也就是資料都相同。

3) 在統計分析中,標準差是用來判別分析結果誤差大小,或是說結果是否有顯著性差異的基礎。

## 誤差:
1) 誤差定義:
樣本的統計量中,直觀的來說,大家都可以了解樣本數越少其錯誤的可能性就越大。
 而統計學上就是用誤差來描述這一狀況,其定義為,有限抽樣資料之平均值(或比例),有多少機會與真值產生多大的偏離。

2) 誤差範圍與資料量的關係:
樣本平均值的標準誤差(SE, Standard Error) = 母體標準差  /  (樣本資料筆數  開根號)
    SE_{{\bar  {x}}}\ ={\frac  {s}{{\sqrt  {n}}}}
依中央極限定理,無數個樣本平均值分佈為常態,所以單一樣本的平均值分佈標準差,就是標準誤差。

推廣到比例:
 








##假設檢定(單一母體):
1) 檢定(Statistical power):當存在某種差距的假設為真成立時,可確實稱為顯著性差異的機率。

2)檢定要避免的兩大錯誤:
.第一型:明明沒差異,卻視為有差異。
.第二型:確實有差異存在,卻無法發現。

3)假設:是一個關於母體參數的敘述,一般我們會使用資料來驗證這個陳述是否合理,假設分成兩種: 虛無假設(null hypothesis, H0對立假設(alternative hypothesis, H1
    
虛無假設代表的就是沒有差異或是變數之間無關(相同),當虛無假設「被推翻」時,「對立假設就會成立」,其中,對立假設是我們真正想證實的論點。

虛無假設目的是,當不存在某種關係是研究的起點(類似法律的無罪推論),也就是說直到我們可以證明存在差異,否則我們只能假定沒有差異;因此,當變數有差異產生時,我們必須先假設差異是出於偶然。

注意,虛無假設與對立假設間必須是週延且互斥,其間絕無重疊的模糊地帶;也無任何無法涵蓋的真空地帶。如:
H0:μ1=μ2
H1:μ1≠μ2
若安排成
H0:μ1=μ2
H1:μ1≦μ2
就有等於時會發生重疊,而無法互斥。
但若安排成
H0:μ1<μ2
H1:μ1>μ2

則當兩者恰好等於時,就變成真空地帶,沒有被任一個假設涵蓋。 

4) 檢定假設(hypothesis testing)就是檢定一個假設,也就是基於資料證據力與機率理論, 判斷假設是否為合理敘述的過程,也可以說是一個把用來推翻假設的信心水準,予以量化的步驟。









5) 假設檢定之類型與單/雙尾檢定 :
 

6)假設檢定步驟:
a.設定虛無假設H0
b.設定對立假設H1
c.決定顯著水準(α)
d.選擇適當的檢定統計量(z、t、F、……),以及決定危險域(棄卻域之臨界點)
e.計算所選之檢定統計量的觀察值

f.結論:當檢定統計量的觀察值落入危險域,棄卻虛無假設H0;反之,無法棄卻虛無假設H0(接受虛無假設) 


7)單一母體平均數檢定--大樣本Z檢定、小樣本t檢定 






8) 檢定統計假設的兩種方法如下:
(1)臨界值法(critical value method):給定顯著水準α值,然後決定拒絕域後,再依所得之樣本,計算其樣本之統計量(即為檢定),最後再判定上述檢定值是否落在拒絕域中。

(2)P 值法(P-value method):在 為真的條件下,計算由給定之樣本導致拒絕 的最大機率。不論是單尾或雙尾檢定,若P小於α值,則拒絕虛無假設 ,否則便勉強接受 。




8) p值:

 P 值代表著是「機率」,也就是虛無假設為「真」時,從樣本資料來作檢定會得到的機率(顯著性),所以p值是越小越好。


常見的,就是 P 值小於 5%時,認為虛無假設可以被推翻,我們的假設成立。 
大於5%時,我們認為,沒有足夠的證據推翻虛無假設,或說「在5%的水平之下,沒有充分的證據來推翻虛無假設」

用p值重看兩種錯誤形式:

Type I error (第一型錯誤): reject a true null hypothesis. P(Type I error) = α. α 又稱為 significance level (顯著水準)。
Type II error (第二型錯誤): don't reject a false null hypothesis. P(Type II error) = β.




##假設檢定(兩獨立樣本):

1)  母體變異數已知(樣本30以上) 



2)母體變異數未知(樣本數30以上):

































6) 信賴區間定義:[不可能成立的虛無假設]與[無法完全否定]的虛無假設間的界線。


7) Z檢定:
    






3.彙整資料的基準:
比較基準(分析軸)的觀念就是,把最終成果相關的變數(相依變數),與可能的原因所產生的變數(獨立變數)做一個可以客觀分析的連結,而所謂的客觀分析通常是比較、構成、及變化。

而比較、構成、及變化的表達方式就是顯現出 有差異、有變化、有類型,再用統計去檢定其顯著性。







留言

這個網誌中的熱門文章

資料科學從頭學(五) Linear Regression

資料科學從頭學(四) SVM(線性)