Knowledge Discovery

知識發現的知識類型

https://wiki.mbalib.com/zh-tw/%E7%9F%A5%E8%AF%86%E5%8F%91%E7%8E%B0

  1. 廣義型知識 (Generalization):
  2. 分類型知識 (Classification & Clustering):
  3. 關聯型知識 (Association):查詢優化、推薦
  4. 預測型知識 (Prediction):以「時間」為關鍵屬性
  5. 偏差型知識 (Deviation):對差異值、極端值進行描述

資料探勘技巧

https://www.trendmicro.com/zh_tw/what-is/machine-learning/data-mining.html

  • 模式追蹤 (pattern tracking):這是一種尋找規律和模式的基本技巧,例如:當暴風雪來臨時,除雪鏟的銷量就會增加。只不過,您要尋找的不會是像這麼顯而易見的事實。
  • 分類 (classification):這是另一種將資料分門別類並指派類別的技巧。例如,您可以根據銀行客戶的金融史,來將客戶分成低、中、高三種信用風險等級。
  • 關聯 (association):這是另一種與模式追蹤類似的技巧。它尋找的是與某個些時機相關的變量。例如,當客戶將義大利麵放入購物車時,接下來他們通常會挑選醬汁。或者,在挑選醬汁之後,接著就是挑選帕瑪森起司。
  • 異常偵測 (outlier detection):這是一種專門尋找例外或異常狀況的資料探勘技巧。例如,一家以男性客戶主的商店,在六月份突然暴增了許多女性客戶的消費記錄。結果,這是因為這些女性客戶在父親節前一兩個禮拜來店選購父親節禮物。
  • 集群 (clustering):這是另一個性質上跟分類很像的技巧。只不過,此技巧是依據資料的相似性而將它們歸在一起。例如可利用購物頻率或可支配所得來作為客戶之間的共同點。
  • 回歸 (regression):這是根據過去的資料來對未來進行預測的技巧。回歸技巧主要是尋找過去的平均值,例如,房價通常會隨著時間而波動,其範圍大概是稍微高於或低於當下的平均價格。
  • 預測 (prediction):這是一種讓企業預測未來某項數值的資料探勘技巧。

——–

Knowledge Discovery in Database (KDD)

https://medium.com/marketingdatascience/%E5%AD%B8%E7%BF%92%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92%E5%BF%85%E7%9F%A5%E7%9A%84%E7%A8%8B%E5%BA%8F-%E8%B3%87%E6%96%99%E5%BA%AB%E7%9F%A5%E8%AD%98%E6%8E%A2%E7%B4%A2-72bd2d73781c

步驟1 — 訂定目標(identifying the goal)
從消費者觀點(the customer’s viewpoint),確認此次資料探索的目標。蒐集資料的範圍涵括各種相關的實務應用領域(application domain),以及所該具備的技術知識。

步驟2 — 建立目標資料集(creating a target data set)
選擇選擇一個我們有興趣或想更深入探索的資料集來執行運算分析。

步驟3 — 資料清理與前置處理(data cleaning and preprocessing)
對所選定的資料集做資料清理(data cleaning)與前置處理(data preprocessing)。 刪除資料中的雜訊(noise),例如離群值(outliers)、重複紀錄、不正確的屬性值等,同時對資料不足的欄位進行填補(填補方法通常會以平均值,或是高度類似的範例值進行替代)。當資料越完整,對下一步的分析越有利。

步驟4 — 資料轉換(data transformation)
資料轉換主要在進行資料減縮與投影(data reduction and projection),操作上,使用降維(dimensionality reduction)技術,來減少所考慮變數的有效數目。

(以下步驟5–7,皆為資料採礦(data mining)的程序。)

步驟5 — 選擇資料探勘方法(Choosing the data mining method)
例如:分類(classification)、分群(clustering)、關聯(Association)等分析方法。

步驟6 — 選擇資料探勘演算法(Choosing the data mining algorithms)
選擇一個或多個適當的資料探勘的演算法(例如:Decision Tree、Naïve Bayes、Logistic Regression、Random Forest、SVM、Neural Network、K-means、Apriori…等)。這些過程必須要決定哪些模型與參數的選用是適當的,以及再次確定選定的資料探勘方法與KDD整個過程的衡量指標是否一致(例如:相較於模型的預測能力,最終使用者可能對模型的建立更感興趣)。

步驟7 — 資料探勘(data mining)
選定資料模式(patterns)呈現的形式,如:決策樹圖、迴歸分析圖、聚類分析圖…等。讓最終使用者了解根據前面各程序步驟所獲得的資料探勘結果。

步驟8 — 解釋探勘模式(interpreting mined patterns)
對最終選定的資料探勘模式進行解釋。過程中,可能需要返回步驟一至七中的任何一個步驟並且重複執行。

步驟9 — 鞏固發現的知識(acting on the discovered knowledge)
運用KDD最終發現的知識結果並採取行動。同時,也要檢視該知識結果與過去的觀點是否一致。

最後,KDD程序強調步驟之間的交互影響,並且不斷地反覆運行其中的步驟。