統計從頭學(二) 假設檢定入門
(文章內容皆為記錄本人之學習過程,非以分享為目的) ## 平均值: 1) 比例與平均意義相同: 比例只是把定性的變數用0、1表示後彙整出來的平均值。 2) 一般情況,中位數或是眾數當代表值比平均值有利於 掌握實際現況 ,不會被資料的不規則分佈所影響(ex: 財富數據的平均值容易被富豪所影響)。 而平均值因為計算上的方便,被高斯等人拿來當作量測值包含的偏差減到最低的 理想真值 ,其是以最小平方法為基礎。 從平均值回頭來看資料,可以發現,當資料的變動性符合常態分佈,最小平方法就是最理想的推估方法,平均值就是最理想的推估值。 這也是黑天鵝作者最不滿的地方,因為非常態的金融工程用很多統計學知識都是以常態分佈為基礎。 3)衍伸:中央極限定理 (Central Limit Theorem) 這定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變量之和近似服從常態分布的條件。 其白話的表達是說,原始資料,其隨意抽數量為n的樣本夠多次的話,那樣本的總和或平均數的分佈會尊循常態分佈。 理論的說: 從同一母體取出樣本數為n之無限多組樣本,此無限多組樣本之平均數之分佈,稱為「樣本平均數抽樣分佈」, 當「樣本平均數抽樣分佈」抽樣之樣本數n趨近於無限大時,依據「中央極限定理」,其分佈具有以下特性: a. 樣本平均數抽樣分佈會趨近常態分佈。 b. 樣本平均數抽樣分佈之平均數會等於母群體平均數。 c. 樣本平均數抽樣分佈的標準差,又稱「平均數之標準誤」,會等於母群體標準差除以樣本數 n 的平方根。 (隨著n增加,平均數之標準誤會隨之變小。) 藉由中央極限定理, 讓未知分布的母群體平均數可以進行估計 ; 標準誤是對「平均數抽樣誤差」的測量, 通常以X ± 2SE(X) 來估計母體平均數 μ, 母體平均數μ有95%機率落入此範圍內。 中央極限定理中指出,當取樣數n夠大時,樣本平均數抽樣分佈可表示為 一常態分佈; 故可使用Z轉換公式來得知某樣本平均數在此樣本平均數抽樣分佈中的相對位置, 並可進行查表得知出現大於、小於該平均數值之機率。 此處的 Z分數 = ( 樣本平均數 - 母體平均數 ) / 平均數之...