統計從頭學(一) 學習架構

(文章內容皆為記錄本人之學習過程,非以分享為目的)


一、概念:  從樣本(sample) 來推論(inference) 母體(population):
         統計就是用樣本(已知) 來想辦法了解 母體(未知)的一個過程,母體永遠是無法100%完全確認的,所以嘗試表達母體過程中,誤差評估(Error of Estimation)與不確定性的表達很重要。

        為了有效推論母體,用特徵值來描述母體是必須的,這些特徵值即稱為參數,而從樣本所描繪、計算出來的數值(統計量),就是用來推論母體參數。



二、學習架構:

1. 明確定義問題,讓母體範圍具體化,並可以用相關量化參數(特徵值)來描述母體,並可以產生有效的樣本數據。


2. 樣本(或是數據)的產生,以及其偏差(bias)、變異(variability):
      樣本(數據)可以藉由量測、觀察、抽樣、實驗、紀錄...等方式產生,樣本最重要的就是有代表性,也就是沒有偏離母體參數,以及有足夠有數量來減少變異性以及降低誤差界線以及提高推論的可信度(用機率表示)。

      統計學目標是找到無偏差,但是變異程度可以接受樣本。



3.不確定性的概念: 機率
由於母體是未知的,或是某些問題本身就是具有不確定性,因此不確定性的模型建構與相關描述是必須的,其需要機率相關知識,內容包含:  機率定理、隨機變數、離散與連續機率分布。

比較:
機率: 機率模型已知下,去計算某些事件的機率。
統計: 機率模型未知下,去用樣本數據建構機率模型。

















https://www.youtube.com/watch?v=XKZ0m9M3Zc4&list=PLw9fh2FrjAqu1Gj_WznO-humCJT-OB2zF&index=2





4.描述統計基本知識: 數據整合與處理:
     基本數字描述分布、常態分布、圖形呈現、關聯性描述(散步圖、相關係數、回歸、預測、因果)

5. 推論統計基本知識:
    信賴敘述(confidence statement)
    顯著性檢定
    假設檢驗



6.廣義線性模型
   






















(圖表來源:  書籍 [統計學,最強的商業武器] )



其他:  統計與機器學習比較:

















https://www.youtube.com/watch?v=vc2BimJ3XJA&index=5&list=PLXVfgk9fNX2I7tB6oIINGBmW50rrmFTqf

留言

這個網誌中的熱門文章

統計從頭學(二) 假設檢定入門

資料科學從頭學(五) Linear Regression

資料科學從頭學(四) SVM(線性)