發表文章

目前顯示的是 7月, 2017的文章

統計從頭學(二) 假設檢定入門

圖片
(文章內容皆為記錄本人之學習過程,非以分享為目的) ## 平均值: 1) 比例與平均意義相同: 比例只是把定性的變數用0、1表示後彙整出來的平均值。 2)  一般情況,中位數或是眾數當代表值比平均值有利於 掌握實際現況 ,不會被資料的不規則分佈所影響(ex: 財富數據的平均值容易被富豪所影響)。   而平均值因為計算上的方便,被高斯等人拿來當作量測值包含的偏差減到最低的 理想真值 ,其是以最小平方法為基礎。 從平均值回頭來看資料,可以發現,當資料的變動性符合常態分佈,最小平方法就是最理想的推估方法,平均值就是最理想的推估值。 這也是黑天鵝作者最不滿的地方,因為非常態的金融工程用很多統計學知識都是以常態分佈為基礎。 3)衍伸:中央極限定理 (Central Limit Theorem) 這定理是數理統計學和誤差分析的理論基礎,指出了大量隨機變量之和近似服從常態分布的條件。 其白話的表達是說,原始資料,其隨意抽數量為n的樣本夠多次的話,那樣本的總和或平均數的分佈會尊循常態分佈。 理論的說:  從同一母體取出樣本數為n之無限多組樣本,此無限多組樣本之平均數之分佈,稱為「樣本平均數抽樣分佈」, 當「樣本平均數抽樣分佈」抽樣之樣本數n趨近於無限大時,依據「中央極限定理」,其分佈具有以下特性: a. 樣本平均數抽樣分佈會趨近常態分佈。 b. 樣本平均數抽樣分佈之平均數會等於母群體平均數。 c. 樣本平均數抽樣分佈的標準差,又稱「平均數之標準誤」,會等於母群體標準差除以樣本數 n 的平方根。     (隨著n增加,平均數之標準誤會隨之變小。) 藉由中央極限定理, 讓未知分布的母群體平均數可以進行估計 ; 標準誤是對「平均數抽樣誤差」的測量, 通常以X ± 2SE(X) 來估計母體平均數 μ, 母體平均數μ有95%機率落入此範圍內。 中央極限定理中指出,當取樣數n夠大時,樣本平均數抽樣分佈可表示為 一常態分佈;  故可使用Z轉換公式來得知某樣本平均數在此樣本平均數抽樣分佈中的相對位置, 並可進行查表得知出現大於、小於該平均數值之機率。  此處的 Z分數 = ( 樣本平均數 - 母體平均數 ) / 平均數之...

資料科學從頭學(五) Linear Regression

圖片
(文章內容皆為記錄本人之學習過程,非以分享為目的) 1.數學基礎:    微積分、線性代數、統計學之檢定 2.用途: 1)迴歸分析屬於多變量分析的一種,所謂多變量分析是用於 分析 多個變數間的關聯 。 2)迴歸分析分為線性與非線性,主要用於連續尺度,且至少一個 相依變數 的問題( 獨立變數 可以是一個或多個),針對離散的變數另有變化形式的羅吉斯回歸...等方法處理。 本篇文章純探討線性回歸中的 Simple Linear Regression、Multiple Linear Regression p.s. 相依變數:又稱反應變數,就是真正想比較、想了解的東西。 獨立變數:又稱解釋變數,想藉由本因素找出與相依變數的關聯性。 3)統計學亦有很多迴歸的章節,針對廣義線性模型分類如下 4)多變項線性迴歸的變數選取是一個值得探討的重點主題,其嚴重影響模型的擬合度與解釋性。 3.理論 : Linear Regression 即為用一條直線來擬合點位資料,而縱軸(Y軸)通常是我們比較關心的相依變數,X軸是用來尋找關係的獨立變數,可以一個或多個,也可以多方嘗試找到最好的組合。 該直線的表示方式如下: 上圖可知簡單線性迴歸是多變項線性迴歸的一個特例。 參數估計方法分為最小平方估計法(Least squares estimate method),也就是讓每個真實資料點的y值(相依變數)與擬合線的距離平方總和最小化,此問題可用多變函數求極值的數學方法求解: 上式Q為差的總和,分別對各參數偏微分後可以得到k+1個多項式,如下: 以上可以用正規方程(Normal equation)或是梯度下降法(Gradient descent)來解,但一般特徵不太多的話,用正規方程的效果會比較好,如下: 解完參數後即可帶回方程式,並得到我們的直線。 4. 討論: 1)模型基本假設:     a.線性(Linearity):獨立變數與相依變數為線性關係。     b.條件常態分布(Multivariate normality):     ...

資料科學從頭學(四) SVM(線性)

圖片
(文章內容皆為記錄本人之學習過程,非以分享為目的) 理論參考:林宗勳的網路教學資料 (daniel@cmlab.csie.ntu.edu.tw) 1.數學基礎:   .線性代數(向量空間的直線、平面、距離....等)   .多變數限制條件求極值  Lagrange multiplier method(拉格朗日乘數) 2.用途: SVM (Support Vector Machines)是一種分類演算法,在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢。 3.理論: SVM目標是找出一個超平面(Hyperplane),使之將兩個不同的集合分開,以二維的例子來說 希望找到一條線來區分集合點(如下),距離兩邊界最大的就稱為Optimal Separating Hyperplane  (OSH)。 (以上均為向量) 以與 Optimal Separating Hyperplane平行,並且最靠近兩邊的超平面( Support Hyperplane   )來求解。以上圖的例子來說,那兩條虛線就是 Support Hyperplane。 將Support Hyperplane 寫成如下的式子:  因為變數過多,讓等號兩邊同乘常數使δ =1 , 並定義Separating Hyperplane與兩個Support Hyperplane的距離為d,兩個Separating Hyperplan之間的距離margin 是2d,以下計算距離d: (備註:參考兩平行線求距離之公式)  Support Hyperplan與Optimal Separating Hyperplane的距離在±1以內(我們已經先做過尺度調整),所以我們將限制條件寫成下面兩個式子: 限定條件的關係,上面的最佳化問題可以利用Lagrange Multiplier Method將上面的式子轉成一個二次方程式,找出可以使L為最小值的w, b, αi。(αi就是Lagrange Multiplier) 分別對變數 W 、b偏微分後,加上限制條件供三...

資料科學從頭學(三)加快速度

(文章內容皆為記錄本人之學習過程,非以分享為目的) Udemy 4 門資料科學相關課程(總時數  93.5 小時)全聽完有點太慢, 為了快速開始進行研究主題,必須再大幅縮短資學習時間 , 因此先挑選   Course3. Data Science and Machine Learning with Python - Hands On (9 Hours) 先把常用的機器學習演算法看過一遍,並且 將演算法分類後 挑選出第一階段要實作的演算法, 分類參考文章: https://unsupervisedmethods.com/cheat-sheet-of-machine-learning-and-python-and-math-cheat-sheets-a4afe4e791b6 以下是我個人初步分類的準則: • Purpose • Data characteristic • Most popular • Speed demanded • Accuracy  demanded 其中速度和精準度目前我還沒有足夠知識去評估,因此先跳過。 以上準則各別為: Purpose : • Classification • Prediction value • Discovering structure ( Clustering ) • Finding relationship • Dimension reduction  • Special purpose ( EX : Image recognition ) 分類參考文章: https://unsupervisedmethods.com/cheat-sheet-of-machine-learning-and-python-and-math-cheat-sheets-a4afe4e791b6 Data characteristic : • Have answer or not • Type : Numeral 、 String 、 Boolean 、 Time Series 、 Space 、 Text 、 O...