發表文章

目前顯示的是 6月, 2017的文章

資料科學從頭學(二)初學.Udemy 4門初學課程

圖片
(文章內容皆為記錄本人之學習過程,非以分享為目的) 一、目標:           7 、 8 月完成 Udemy 4 門資料科學相關課程,總時數 93.5 小時。 二、做法:           7 月份完成課程一遍, 8 月份挑出不熟與需要加強的地方精進。         7 月份平均每周 23.4 小時,等於每天 4.6 小時 ( 五天 ) + 2 小時以上練習。         ( google calendar 紀錄課程與累積時數 ) 三、原則:         每堂課邊看邊分類出  1. 基礎 : 一定要懂、 2. 八月份精進精進名單、 3.有概念 就好 四、課程內容: Course1. Data Science A-Z : Real-Life Data Science Exercises (21 Hours) This course will give you a full overview of the Data Science journey. Upon completing this course you will know: How to clean and prepare your data for analysis How to perform basic visualisation of your data How to model your data How to curve-fit your data And finally, how to present your findings and wow the audience In this course you will develop a good understanding of the following tools: SQL SSIS Tableau Gretl 重點: 1) 學整體概念優先於個別工具學習 2) 掌握資料庫相關概念 注意: 1) Tableau 、 Gretl  都是付費工具,以體驗為主,不求精進 Course2. Machine Learning

統計從頭學(一) 學習架構

圖片
(文章內容皆為記錄本人之學習過程,非以分享為目的) 一、概念:  從樣本(sample) 來推論(inference) 母體(population):          統計就是用 樣本(已知)  來想辦法了解  母體(未知) 的一個過程,母體永遠是無法100%完全確認的,所以嘗試表達母體過程中, 誤差評估 (Error of Estimation)與 不確定性 的表達很重要。         為了有效推論母體,用 特徵值 來描述母體是必須的,這些特徵值即稱為 參數 ,而從樣本所描繪、計算出來的數值(統計量),就是用來推論母體參數。 二、學習架構: 1. 明確定義問題,讓母體範圍具體化,並可以用相關量化參數(特徵值)來描述母體,並可以產生有效的樣本數據。 2. 樣本(或是數據)的產生,以及其偏差(bias)、變異(variability):       樣本(數據)可以藉由量測、觀察、抽樣、實驗、紀錄...等方式產生,樣本最重要的就是有代表性,也就是沒有偏離母體參數,以及有足夠有數量來減少變異性以及降低誤差界線以及提高推論的可信度(用機率表示)。       統計學目標是找到無偏差,但是變異程度可以接受樣本。 3.不確定性的概念: 機率 由於母體是未知的,或是某些問題本身就是具有不確定性,因此不確定性的模型建構與相關描述是必須的,其需要機率相關知識,內容包含:   機率定理、隨機變數、離散與連續機率分布。 比較: 機率: 機率模型 已知 下,去計算某些事件的機率。 統計: 機率模型 未知 下,去用樣本數據建構機率模型。 https://www.youtube.com/watch?v=XKZ0m9M3Zc4&list=PLw9fh2FrjAqu1Gj_WznO-humCJT-OB2zF&index=2 4.描述統計基本知識:   數據整合與處理:      基本數字描述分布、常態分布、圖形呈現、關聯性描述(散步圖、相關係數、回歸、預測、因果) 5. 推論統計基本知識:     信賴敘述(confidence statement)     顯著性檢定     假設檢驗 6.廣義線性模型    

資料科學從頭學(一)開始.尋找方向

(文章內容皆為記錄本人之學習過程,非以分享為目的) 一、目的:: 資料科學家相關要求:1.機器學習基礎, 2.優秀的編程能力,  3.分析和解決實際問題的能力。 實務流程: 收集數據、分析數據,確定學習目標,選擇算法、實現、測試並且改進的完整流程好的編程能力,代碼習慣和對計算效率的分析能力。 基礎知識: 概率/統計/線性代數的知識,數學期望,CLT,Markov Chain,normal/student’s t distribution,或是PCA/SVD這些很基礎的東西。高維空間的一些特性有直覺上的認識,這部分並不是強行要求背公式,要理解。 深度學習: 神經網絡的基礎知識(BP),以及常見的目標函數,激活函數和優化算法。在此基礎上,對于常見的CNN/RNN網絡,我們當然希望面試者能夠理解它們各自的參數代表什麽,比較好的初始參數,BP的計算,以及常見超參數的調整策略。 參考資料:https://www.facebook.com/EmotibotTaipei/posts/1889380767950535 二、需求: 1.快速  2.紮實要快速掌握機器學習的概念,但對於理論還是要適當速度去補上。 Google X領導人 Astro Teller 隨著創新週期變得愈來愈短,學習適應的時間愈來愈少,我們現在面對的是:「不穩定的固定狀態,以及偶爾不穩定狀態的差異。」他說,靜止穩定的時代已經結束了,但這並不是指我們無法獲得新的穩定:「新的穩定狀態必然是動態穩定。就像騎腳踏車一樣,無法停止不動,但如果你雙腳不停地踩,就能夠一直前進。儘管這不是人類的自然狀態,我們還是必須學習在不斷變動的世界中,保持動態穩定。」我們都必須學會「騎腳踏車」的技巧。泰勒說:「說來奇怪,我們可以在這樣的變動下重新獲得平靜,但這必須透過不斷地重新學習才能做到。我們肯定還沒有訓練自己的孩子,告訴他們如何保持動態穩定。」 喬許.考夫曼 (Josh Kaufman)  3 招聰明學習法 + 20 小時 = 學會新技能 1.拆解步驟和任務:目標拆解成小片段,小到目標成果可以具體化,決定你要做到哪個程度,選擇出最重要的部分開始練習。 2.學習到你能自行修正的程度:尋找一些可用資源輔助學習,但別讓資源阻擋你開始練習。例如,你可以找 20 本相關讀物,但別讓自己非得看