EDA

Exploratory Data Analysis 探索式資料分析

  1. 瞭解資料,獲取資料的資訊、結構和特點。
  2. 檢查有無離群值或異常值,看資料是否有誤。
  3. 分析各變數間的關聯性,找出重要的變數。進行EDA能檢查資料是否符合分析前的假設、在模型建立前先發現潛在的錯誤,並進一步調整分析方向

EDA 4-plot 視覺化

  1. 趨勢圖
  2. 散佈圖 – 資料符合隨機分布時,如圖資料無結構性且隨機散落。
  3. 直方圖 – 資料常態分布時,如圖呈鐘形分布。
  4. 正態概率圖 – 資料常態分佈時,如圖呈線性。

Quantitative Techniques 統計量化

  1. 資料中標準值為何?
  2. 資料的百分位數?
  3. 哪些屬於重要資訊?
  4. 多變量中有無結構?
  5. 資料中有沒有離群值?

https://www.sightingdata.com/post/how-to-do-eda/

  • 數據代表性
  • 數據中的變數的分佈及變異為何?
  • 各變數之間的關聯為何?

—-

https://baubimedi.medium.com/%E9%80%9F%E8%A8%98ai%E8%AA%B2%E7%A8%8B-%E7%B5%B1%E8%A8%88%E8%88%87%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90-%E5%9B%9B-3cf14683b98f

對正確的問題有個近似的答案,勝過對錯的問題有精確的答案。