資料礦工小站

我挖!我挖!我哇!哇!哇!



Data Mining 的方法論!

Posted by admin on March 22nd, 2009

參考資料來源:

自然科學與社會科學的 “方法論” 應有其殊途同歸的必然性;雖然研究的對象差異性很大,但透過 “方法論” 的應用,我們勉強可以把研究 “人” 這樣多變性之對象的行為,也納入 “科學” 的領域 (so called 社會科學)。

既然 “社會科學” 之不確定性這麼高,那麼研究 “社會科學” 的科學 (例如:Data Mining) 的準確性就更要小心了。一般來說,社會科學在應用統計方面的 “應用” (例如:市場調查、Data Mining 等) 大多偏重在研究對象 “本身” 行為的異質性,而忽略了

  • “研究對象” 在與 “環境” 互動之狀況下的行為 “誤差”;
  • 不同的時空環境條件下,”研究對象” 的不同反應。

也就是除了 “研究對象的異質性” 外,我們同時應該要重視 “研究對象所處的環境 (Brand, Competitor, SOW, etc.) 與 “研究對象的動態性“。

CRISP-DM 是 SPSS 主導的計劃,提供 Data Miner 一個標準範本,for 如何展開一個 Data Mining 的專案 (項目),照貓畫虎可以,但細部展開來看,還是有許多需要彈性調整的地方。目前的文件版本是 1.0,2007 年開始提議要做版本的更新,不過動作不大,似乎大家也不是很急就是了。

CRISP-DM 是 CRoss Industry Standard Process for Data Mining 的縮寫,它把 Data Mining Project 的進程分為六個階段:

  • Business Understanding
  • Data Understanding
  • Data Preparation
  • Modeling
  • Evaluation
  • Deployment

各階段都提供了許多詳細的說明 (有個 User Guide 可以下載:Click Here!)

每個階段除了 User Guide 中所提到的 Process 外,其實都有許多值得探討的東西;特別是在實務應用方面,這些等小弟後面有時間在慢慢跟大家分享吧!

Regards, 工頭 George

Leave a Reply

You must be logged in to post a comment.