資料礦工小站

我挖!我挖!我哇!哇!哇!



Archive for the 'CRISP-DM' Category

Data Mining 的方法論!

Posted by admin on 22nd March 2009

參考資料來源:

自然科學與社會科學的 “方法論” 應有其殊途同歸的必然性;雖然研究的對象差異性很大,但透過 “方法論” 的應用,我們勉強可以把研究 “人” 這樣多變性之對象的行為,也納入 “科學” 的領域 (so called 社會科學)。

既然 “社會科學” 之不確定性這麼高,那麼研究 “社會科學” 的科學 (例如:Data Mining) 的準確性就更要小心了。一般來說,社會科學在應用統計方面的 “應用” (例如:市場調查、Data Mining 等) 大多偏重在研究對象 “本身” 行為的異質性,而忽略了

  • “研究對象” 在與 “環境” 互動之狀況下的行為 “誤差”;
  • 不同的時空環境條件下,”研究對象” 的不同反應。

也就是除了 “研究對象的異質性” 外,我們同時應該要重視 “研究對象所處的環境 (Brand, Competitor, SOW, etc.) 與 “研究對象的動態性“。

CRISP-DM 是 SPSS 主導的計劃,提供 Data Miner 一個標準範本,for 如何展開一個 Data Mining 的專案 (項目),照貓畫虎可以,但細部展開來看,還是有許多需要彈性調整的地方。目前的文件版本是 1.0,2007 年開始提議要做版本的更新,不過動作不大,似乎大家也不是很急就是了。

CRISP-DM 是 CRoss Industry Standard Process for Data Mining 的縮寫,它把 Data Mining Project 的進程分為六個階段:

  • Business Understanding
  • Data Understanding
  • Data Preparation
  • Modeling
  • Evaluation
  • Deployment

各階段都提供了許多詳細的說明 (有個 User Guide 可以下載:Click Here!)

每個階段除了 User Guide 中所提到的 Process 外,其實都有許多值得探討的東西;特別是在實務應用方面,這些等小弟後面有時間在慢慢跟大家分享吧!

Regards, 工頭 George

Posted in CRISP-DM | No Comments »

什麼是 “方法論” ?

Posted by admin on 11th February 2009

維基百科:笛卡兒 (René Descartes) 於 1637 年出版的哲學著作 (Discours de la méthode) 指出,研究問題的方法分四個步驟:

  1. 只要沒有經過自己切身體會的問題,不管有什麼權威的結論,都可以懷疑。就是著名的「懷疑一切」理論。
  2. 可以將要研究的複雜問題,盡量分解為多個比較簡單的小問題,一個一個地分開解決。
  3. 將這些小問題從簡單到複雜排列,先從容易解決的問題著手。
  4. 將所有問題解決後,再綜合起來檢驗,看是否完全,是否將問題徹底解決了。

方法論:研究 “研究方法” 的方法!

Data Mining 這個 Domain 的廠商都各自有提出所謂的方法論,其中 SPSS 的 CRISP-DM 算是 awareness 比較高的一個吧!其中 Clementine 的普及,應該有不小的功勞。

Regards, 工頭 George

Posted in CRISP-DM | No Comments »