資料礦工小站

我挖!我挖!我哇!哇!哇!



Archive for the 'News' Category

轉貼:SAS 與 IBM/SPSS 加入 R Solution 了 …

Posted by admin on 30th January 2010

資料來源:InfoWorld

Learning:

1. SPSS 好像從 17 開始支援 R 的, 至於 SAS – 有一陣子沒有關心 … 所以就不確知了 …
2. 支援 R … 除了可以放心大膽使用這些商業套件處理一些較基本的 stat 工作外,當碰到不可解的 issue 時,還可以透過 R 自行尋求解決之道 … 對 analyst 來說,確實是一大福音 …

Regards, George …

Posted in News | No Comments »

轉貼:Clarabridge 與 Kapow’s Technology 結盟 …

Posted by admin on 30th January 2010

資料來源:eContent Magazine

www.clarabridge.com :

1. Provides brand-oriented monitoring of numerous social media services and other forms of online discussion.
2. Allowing companies to analyze customer sentiment and impact in real time
3. Derive useful market knowledge, improve customer care, and handle risk management and quality assurance.

www.kapowtech.com :

1. Provides technology for accessing, enriching, and serving real-time, noise-free web data.
2. Enables business and technical people to create innovative business applications.

Learning:

1. Analysis Algorithm 固然是 Mining 中較有趣的一環 … however, 處理 data 的 dirty job 依然是 garbage 要轉換成黃金必要前提 … 特別是在 web 當道、log 氾濫成災的當前 …
2. 爾後的 business 當會分工愈趨精細, 要談 solution … 需要知道的東西勢必越來越多了 …

Regards, George …

Posted in News | No Comments »

轉貼:騰訊鮮爲人知的重武器4 – 秘密武器“數據挖掘”

Posted by admin on 16th October 2009

資料來源:網易

主題:【騰訊鮮爲人知的重武器4】秘密武器“數據挖掘”

在深圳跟一些業內人士聊天,他們甚至認爲,騰訊一個最具門檻性的核心競爭力是“數據挖掘”。數據挖掘不是一個新詞,比如微軟、戴爾,他們都是真正的高手,甚至有一條數字管理神經。數據挖掘的真正含義是,他們就像水質檢測儀,面對一個數億記的消費群,誰能把握消費之水的流動,誰就掌握了規則。

————————————————————————————————

像馬化騰一樣關注産品的互聯網CEO還有不少,比如丁磊和史玉柱,他們也是著名的用戶體驗派。但是,馬化騰用戶體驗戰略的冰山下面,還隱藏著一個不爲人知的巨大基座。

這一冰山基座就是數據挖掘系統,就是從大量數據中獲取有效的、新穎的、潜在可用的、最終可理解的信息,以輔佐公司戰略的數字神經系統。這是一個真正的重武器,即使整個中國互聯網,真正擁有這一系統的公司也極少,只有那些具備平臺級優勢的公司才擁有——騰訊、百度、阿裏巴巴、盛大。

五年前開始,馬化騰開始要求各條業務綫的主管每天給他發送一封反映業務指標數字的郵件,內容包括包月用戶是多少?增加了多少?减少了多少?跟上個周同日比,或者說是跟上個月同日比?分別升跌了多少?有什麽异動?“這個是需要每天都去關注的東西,如果說你做管理者不去看這些東西的話,很久才看一下,中間會錯掉很多東西,或者說你反應速度會慢很多。”馬化騰說。

不僅自己看數字,馬化騰也要求每一個高管、部門負責人、甚至産品經理也要對數字保持密切關注。

去年底,馬化騰開始把數字經營的理念引入到騰訊門戶網站的運營管理中,“原來廣告就有點粗放,往往都是季度末才開始沖業績,找代理,今年開始就每天都有一封信,上面有廣告資源的消耗,黃金位置消耗了多少等。爲什麽會這樣?過去他們還沒有建立這樣的體系,今年我們就開始要求他們每天要看,所有的網絡媒體、廣告銷售部門的領導班子,每人一封信都會看到這個數字,培養這種數字運營的感覺,很重要的。大家就不會人浮于事,到最後找各種理由來推托。有什麽事應該早知道,要多問。希望靠這種思路能够把我們每一塊業務都帶起來。”

數據是每一家互聯網公司安身立命的基礎之一,不過像騰訊這樣長期堅持以數據爲導向的公司幷不多。1999年,騰訊剛剛成立不久,當時天使投資人劉曉松决定向騰訊注資的一個主要原因就是因爲他發現,“當時雖然他們的公司還很小,但已經有用戶運營的理念,後臺對于用戶的每一個動作都有記錄和分析。”

在成爲用戶最多的互聯網公司後,騰訊所掌握的用戶數據量日益豐富,挖掘這些數據成爲騰訊後來在多元業務擴展時屢試不爽的重武器。有分析人士甚至說,“數據挖掘”才是騰訊最具門檻性質的技術。在中國,騰訊絕對是數據挖掘的高手,但是和微軟這類國際强者比起來,仍是起步階段。

數據挖掘的更深層部分是騰訊在IDC(互聯網數據中心)上的積累,比如高速上傳、大容量郵件傳輸的後臺及基礎技術支持。“我們每一天用戶上傳的照片數,可能就是中國一個其他的互聯網公司一個月的數據量。”
2007年,騰訊成立了騰訊研究院,研究院共有六大研究方向,數據挖掘正是其中之一,“以用戶爲中心,如果你對用戶什麽都不瞭解,那是空話。”鄭全戰說。

“用戶一嘗試,用一兩秒鐘就退出來了,這說明這個可能沒做好,而不是他不想用。或者他連光顧都不光顧,沒這個需求。這是通過我們後臺都可以看出來。我們也有對競爭産品相同功能的一些監測,這樣的話我們可以有個比較,比如一個功能用戶(在競爭産品上)停留了二十分鐘,我們這邊只有五分鐘,那說明我們的性能有問題。”鄭全戰介紹。

數據挖掘還有一個特種部隊,T4專家組。T4就是專家工程師,在騰訊的技術職業路徑裏,一共6級,從T1(工程師)到T6(首席科學家),T4是一個中流砥柱般的存在,必須做過億次級的用戶量級才能當選,目前不到50人。一旦遇到重大的産品難題,由T4組成的特別小組就會加入,他們億次級用戶量級的經驗將發揮作用。

對用戶的數據挖掘後來在騰訊網絡游戲的崛起中也發揮了大作用。騰訊從2003年開始運營網絡游戲,曾遭遇挫折,直到2008年,騰訊才在多個細分市場找到了合適的韓國游戲作品,在代理韓國游戲的過程中,騰訊提出來要介入所代理游戲的研發,例如對《穿越火綫》中子彈射出後的彈道設置,騰訊根據對用戶的挖掘數據認爲,韓方原本設計的逼真效果對中國用戶幷不合適,用戶對騰訊設計出的“比較爽快的,節奏快的,鮮明的”的彈道設計更加興奮。最後的結果表明,騰訊是對的。

騰訊强大的數據挖掘和産品能力僅有的幾次失效出現在搜索和電子商務。搜索的技術門檻頗高,“搜索的研發需要時間。”馬化騰說。

“那是最難了。”馬化騰承認騰訊拍拍網在C2C領域的處境困難。“C2C是有很强的網絡效應,不是你單方面做好系統就行了,還要買家、賣家都要一起成長,如果是賣家不多,買家自己不來;買家不來,那賣家也不願意在裏面花精力去伺候你,淘寶應該說是占了很大的先發優勢。”

對數據的挖掘不僅可以用來進行用戶研究,還大大提升了騰訊的運營效率。早期,騰訊曾經過度使用群發廣告來推廣産品,這樣的大規模推送廣告不僅“大部分是浪費掉的,而且還引起很多人的反感”。這兩年,騰訊開始進行推廣資源的控制。

比如,公司分配給業務單位的群發數保持恒定,同時公司的戰略發展部門派出一個小組來專門管控群發廣告的效率,這個小組會先給業務部門做測試,比如業務部門要發幾千萬條廣告,就會被要求先發幾萬條試一下,一旦發現效果不好,必須進行修改,或者是更換廣告發送的用戶群,如果廣告後發送的點擊率和用戶滿意度下降,下個月分配給這個業務的推廣預算就會被扣除,反之,如果效率高,這個産品就會得到更多的營銷資源獎勵。這一模式逼迫得業務部門對用戶數據挖掘得更加精細後才會進行廣告群發。“要靠這個獎懲來控制營銷的資源”。

這一制度執行的結果是,“起碼把四分之三的水分擠掉了,只有以前四分之一的推廣量,但是效果其實沒有變化太大。”馬化騰說。

- End -

Regards,

Posted in Data Mining, News | No Comments »

轉貼:Visual Numerics – Developers of IMSL and PV-WAVE

Posted by admin on 23rd February 2009

資料來源:Visual Numerics

主題:威能信息的產品信息

PV-WAVE 產品家族:PV-WAVE、TS-WAVE 以及 JWAVE!

主要的運算 Function 來自 IMSL (International Mathematics and Statistics Library)

我們可以在 Wikipedia 找到更詳細的說明:Click Here!

Regards, 工頭 George

Posted in News | No Comments »

轉貼:危機下 BI 迎來新契機

Posted by admin on 22nd February 2009

資料來源:睿商在線 – 新聞中心

主題:危機下 BI 迎來新契機

人物:SAP 子公司 Business Objectives 中國區首席顧問 魯百年博士

2008 年的突破

  • 應用內容的增加
  • 行業應用的增加 (從電信、金融為主,擴大到其他行業)
  • 內容方面 “質” 的提昇 (從 75% 報表 + 20% 多維分析 + 5% 數據挖掘 到 “更多的數據分析”)
  • 由部門級的應用 (銷售、績效分析) 提昇到企業級的應用 (財務獲利分析、ERP、整體企業績效管理、等)

2009 年的熱點應用

  • G (公司治理)
  • R (風險管理)
  • C (合規?)

Said:

1. SI 公司的 Solution 主要還是落在平台與軟件上,訣竅在公司治理、風險管理的制度規劃與策略選擇,S/W 只是實現這些 concept 、 construct 與 Measure 的工具。
2. SI 公司為了協助客戶解決這些問題、either 是自己培養行業的顧問 or 將這部份高端的諮詢委外。
3. 隨著 BI 在業界的使用越來越普遍、簡易型的 BI Solution 將由企業自行解決。
4. 對外部的 consultant 而言,往高端走、專注於某些行業,應該是比較 OK 的發展與成長策略。

Regards, 工頭 George

Posted in News | 2 Comments »

轉貼:數據問題掣肘零售業 CIO 探討數據分析

Posted by admin on 10th February 2009

資料來源:IT 商業新聞網 – 信息化

主題:數據問題掣肘零售業 CIO 探討數據分析

文章先將 CIO 與 Analyst 的 責任 區隔為

  1. CIO 是要從戰略層面上規劃企業的商業智能架構、而
  2. Analyst 則是從邏輯層面上將 “數據分析主題” 推導出有實用價值的 Model 與算法

對於 CIO 的責任、值得關注的有兩項:

  • 數據倉庫平台的選擇
  • 商業智能項目的階段特徵 (導入前後角色的轉換)

對於 Analyst 的 Demo and/or Example:

  • 客戶價值矩陣分析
  • RFV 三維分類模型 (即 RFM 模型)
  • 客戶生命周期分析
  • 啤酒與尿布 (Basket Analysis)

Said:

首先想要討論的是 Analysis 這一塊 Outsourcing 的問題

  1. 從工具的 Distribution 趨勢看:隨著 BI 工具的功能越來越多,對參與分析人員的 Skill 要求將會越來越低,Entry Level 的分析將會類似 Office 套件般的日益普及。
  2. 從分析人員的培養與需求看:一般 Analyst 的培養在 3~5 間會是較成熟的程度,但很少能夠持續停留在純 Analyst 的 Career 上,不是離開企業成為獨立的 SOHO、就是轉為管理者的角色。
  3. 所以探討 CIO vs. Analyst 的責任,不若討論 Client vs. Agent 的關係。

至於 Analysis 的課題? Depends on 分析的目的 and 架構:

  • 跟 Acquisition 有關的分析:如何找到 “對” 的 Prospects,所以 Classification、Segmentation、Probability of Acquired、等 
  • 跟 Penetration 有關的分析:如何 “增加” Customer 的 Spending?所以需要 Basket Analysis、Probability of Cross Sell、RFM、SOW、等
  • 跟 Retention 有關的分析:Attrition Analysis、生命周期分析、Markov Chain Migration 分析、等
  • 跟 Efficiency 有關的分析:ROI Analysis、組合模型的最佳化、等

解決方案的設計還要看 Marketing Model 的假說 (Hypothesis),依 Hypothesis 解釋 Customer 的行為與需求!所以除了上面的一些 example 外,其實還有許多其他的 ideas 有待我們去 explore 的。

AND 其次;對 customer 需求的探索經常需要結合 Database 與 Research 的資料,所以這個時候,類似 Conjoint Analysis 與 Hierarchical Bayesian 這樣的 technology 就必須要考慮進來了。

Posted in Data Mining, News | No Comments »

轉貼:改善 Medicaid 紐約年省10億

Posted by admin on 8th February 2009

資料來源:世界日報

Data Mining 在 醫療、保險 的 Fraud 是相當普遍的應用,一般多是透過 outliers 的分析,找異常的狀況,或是透過 Predictive Model 找 Fraud 的 probability …

這個是 2007/12/27 quote 的文章,當時接 BLI 的項目,所以對這方面的資料也比較留意一些,總的來說,跟 Financial 相關的行業,對 Fraud 都相對比較重視,只是 Fraud 主要是在節流與防弊,對行銷來說,似乎開源會比較重要吧 ???

找時間再把這方面的 paper 整理一下 …

Regards, 工頭 George

Posted in News | No Comments »

轉貼:從營銷角度認識 CRM 與數據庫營銷體系

Posted by admin on 4th February 2009

資料來源:IT 商業新聞網

主題:從營銷角度認識 CRM 與數據庫營銷體系

Said:

1. 大陸 said “數據庫營銷”,這邊說 “資料庫行銷”、就是 “Database Marketing” 啦,並不是個新的 Term,只是這個 term 通常不像它的應用 (例如:CRM, Direct Marketing, Data Mining, etc.) 那樣被提及,但這些東西的核心其實是差異不大的。

2. 從 Business 的角度來看,能解決 Bottom Line 的才是正道理,不管是什麼 Term,要處理的就是 Customer Needs and/or Corporate Profitability … “We Sell, or Else!”

3. 個人覺得:在這個 Domain 要有些成就的話 (不談 SI 方面的發展),可能需要在 Database (SQL, Data Preparation, etc.)、Statistics (特別是多變量分析, HB, etc.)、以及 Domain Knowledge (行業知識) 等三個方面要有些經驗與能力才是。

Regards, 工頭 George

Posted in News | No Comments »

轉貼:向 Google 發戰書、微軟將發佈”群体搜索”

Posted by admin on 2nd February 2009

資料來源:技術開發 @ IT168

To be Followed, this February …

Regards, 工頭 George

Posted in News | No Comments »