Exploratory Data Analysis 探索式資料分析
- 瞭解資料,獲取資料的資訊、結構和特點。
- 檢查有無離群值或異常值,看資料是否有誤。
- 分析各變數間的關聯性,找出重要的變數。進行EDA能檢查資料是否符合分析前的假設、在模型建立前先發現潛在的錯誤,並進一步調整分析方向
EDA 4-plot 視覺化
- 趨勢圖
- 散佈圖 – 資料符合隨機分布時,如圖資料無結構性且隨機散落。
- 直方圖 – 資料常態分布時,如圖呈鐘形分布。
- 正態概率圖 – 資料常態分佈時,如圖呈線性。
Quantitative Techniques 統計量化
- 資料中標準值為何?
- 資料的百分位數?
- 哪些屬於重要資訊?
- 多變量中有無結構?
- 資料中有沒有離群值?
https://www.sightingdata.com/post/how-to-do-eda/
- 數據代表性
- 數據中的變數的分佈及變異為何?
- 各變數之間的關聯為何?
—-
對正確的問題有個近似的答案,勝過對錯的問題有精確的答案。