資料礦工小站

我挖!我挖!我哇!哇!哇!



Archive for October, 2009

轉貼:騰訊鮮爲人知的重武器4 – 秘密武器“數據挖掘”

Posted by admin on 16th October 2009

資料來源:網易

主題:【騰訊鮮爲人知的重武器4】秘密武器“數據挖掘”

在深圳跟一些業內人士聊天,他們甚至認爲,騰訊一個最具門檻性的核心競爭力是“數據挖掘”。數據挖掘不是一個新詞,比如微軟、戴爾,他們都是真正的高手,甚至有一條數字管理神經。數據挖掘的真正含義是,他們就像水質檢測儀,面對一個數億記的消費群,誰能把握消費之水的流動,誰就掌握了規則。

————————————————————————————————

像馬化騰一樣關注産品的互聯網CEO還有不少,比如丁磊和史玉柱,他們也是著名的用戶體驗派。但是,馬化騰用戶體驗戰略的冰山下面,還隱藏著一個不爲人知的巨大基座。

這一冰山基座就是數據挖掘系統,就是從大量數據中獲取有效的、新穎的、潜在可用的、最終可理解的信息,以輔佐公司戰略的數字神經系統。這是一個真正的重武器,即使整個中國互聯網,真正擁有這一系統的公司也極少,只有那些具備平臺級優勢的公司才擁有——騰訊、百度、阿裏巴巴、盛大。

五年前開始,馬化騰開始要求各條業務綫的主管每天給他發送一封反映業務指標數字的郵件,內容包括包月用戶是多少?增加了多少?减少了多少?跟上個周同日比,或者說是跟上個月同日比?分別升跌了多少?有什麽异動?“這個是需要每天都去關注的東西,如果說你做管理者不去看這些東西的話,很久才看一下,中間會錯掉很多東西,或者說你反應速度會慢很多。”馬化騰說。

不僅自己看數字,馬化騰也要求每一個高管、部門負責人、甚至産品經理也要對數字保持密切關注。

去年底,馬化騰開始把數字經營的理念引入到騰訊門戶網站的運營管理中,“原來廣告就有點粗放,往往都是季度末才開始沖業績,找代理,今年開始就每天都有一封信,上面有廣告資源的消耗,黃金位置消耗了多少等。爲什麽會這樣?過去他們還沒有建立這樣的體系,今年我們就開始要求他們每天要看,所有的網絡媒體、廣告銷售部門的領導班子,每人一封信都會看到這個數字,培養這種數字運營的感覺,很重要的。大家就不會人浮于事,到最後找各種理由來推托。有什麽事應該早知道,要多問。希望靠這種思路能够把我們每一塊業務都帶起來。”

數據是每一家互聯網公司安身立命的基礎之一,不過像騰訊這樣長期堅持以數據爲導向的公司幷不多。1999年,騰訊剛剛成立不久,當時天使投資人劉曉松决定向騰訊注資的一個主要原因就是因爲他發現,“當時雖然他們的公司還很小,但已經有用戶運營的理念,後臺對于用戶的每一個動作都有記錄和分析。”

在成爲用戶最多的互聯網公司後,騰訊所掌握的用戶數據量日益豐富,挖掘這些數據成爲騰訊後來在多元業務擴展時屢試不爽的重武器。有分析人士甚至說,“數據挖掘”才是騰訊最具門檻性質的技術。在中國,騰訊絕對是數據挖掘的高手,但是和微軟這類國際强者比起來,仍是起步階段。

數據挖掘的更深層部分是騰訊在IDC(互聯網數據中心)上的積累,比如高速上傳、大容量郵件傳輸的後臺及基礎技術支持。“我們每一天用戶上傳的照片數,可能就是中國一個其他的互聯網公司一個月的數據量。”
2007年,騰訊成立了騰訊研究院,研究院共有六大研究方向,數據挖掘正是其中之一,“以用戶爲中心,如果你對用戶什麽都不瞭解,那是空話。”鄭全戰說。

“用戶一嘗試,用一兩秒鐘就退出來了,這說明這個可能沒做好,而不是他不想用。或者他連光顧都不光顧,沒這個需求。這是通過我們後臺都可以看出來。我們也有對競爭産品相同功能的一些監測,這樣的話我們可以有個比較,比如一個功能用戶(在競爭産品上)停留了二十分鐘,我們這邊只有五分鐘,那說明我們的性能有問題。”鄭全戰介紹。

數據挖掘還有一個特種部隊,T4專家組。T4就是專家工程師,在騰訊的技術職業路徑裏,一共6級,從T1(工程師)到T6(首席科學家),T4是一個中流砥柱般的存在,必須做過億次級的用戶量級才能當選,目前不到50人。一旦遇到重大的産品難題,由T4組成的特別小組就會加入,他們億次級用戶量級的經驗將發揮作用。

對用戶的數據挖掘後來在騰訊網絡游戲的崛起中也發揮了大作用。騰訊從2003年開始運營網絡游戲,曾遭遇挫折,直到2008年,騰訊才在多個細分市場找到了合適的韓國游戲作品,在代理韓國游戲的過程中,騰訊提出來要介入所代理游戲的研發,例如對《穿越火綫》中子彈射出後的彈道設置,騰訊根據對用戶的挖掘數據認爲,韓方原本設計的逼真效果對中國用戶幷不合適,用戶對騰訊設計出的“比較爽快的,節奏快的,鮮明的”的彈道設計更加興奮。最後的結果表明,騰訊是對的。

騰訊强大的數據挖掘和産品能力僅有的幾次失效出現在搜索和電子商務。搜索的技術門檻頗高,“搜索的研發需要時間。”馬化騰說。

“那是最難了。”馬化騰承認騰訊拍拍網在C2C領域的處境困難。“C2C是有很强的網絡效應,不是你單方面做好系統就行了,還要買家、賣家都要一起成長,如果是賣家不多,買家自己不來;買家不來,那賣家也不願意在裏面花精力去伺候你,淘寶應該說是占了很大的先發優勢。”

對數據的挖掘不僅可以用來進行用戶研究,還大大提升了騰訊的運營效率。早期,騰訊曾經過度使用群發廣告來推廣産品,這樣的大規模推送廣告不僅“大部分是浪費掉的,而且還引起很多人的反感”。這兩年,騰訊開始進行推廣資源的控制。

比如,公司分配給業務單位的群發數保持恒定,同時公司的戰略發展部門派出一個小組來專門管控群發廣告的效率,這個小組會先給業務部門做測試,比如業務部門要發幾千萬條廣告,就會被要求先發幾萬條試一下,一旦發現效果不好,必須進行修改,或者是更換廣告發送的用戶群,如果廣告後發送的點擊率和用戶滿意度下降,下個月分配給這個業務的推廣預算就會被扣除,反之,如果效率高,這個産品就會得到更多的營銷資源獎勵。這一模式逼迫得業務部門對用戶數據挖掘得更加精細後才會進行廣告群發。“要靠這個獎懲來控制營銷的資源”。

這一制度執行的結果是,“起碼把四分之三的水分擠掉了,只有以前四分之一的推廣量,但是效果其實沒有變化太大。”馬化騰說。

- End -

Regards,

Posted in Data Mining, News | No Comments »

工作:阿里巴巴博士後

Posted by admin on 8th October 2009

資料來源:優訊-中國網 china.com.cn/info
時間: 2009-10-07
責任編輯: 香頌

公司行業: IT服務(系統/數據/維護)/多領域經營
公司類型: 合資
公司規模: 10000人以上
職位類別:計算機軟、硬件/互聯網/IT
工作地點:北京 正在加載更多城市 發布日期:2009-10-03
工作經驗:不限 最低學歷:博士
管理經驗:否 工作性質:全職
招聘人數:1人

職位描述/要求:

崗位描述:

研究大規模數據存儲及幷行計算系統的自反饋機制,通過對系統運行日志及監控數據的自動化分析,對大規模數據存儲及幷行計算系統在安全性,可靠性和性能方面進行改進,對系統的運行狀態加以展現、預警以及進行邏輯檢查和參數的自適應調整。涉及關鍵技術包括模式檢查(Model Checking),機器學習(Machine Learning),數據挖掘(Data Mining)等

崗位要求:

  1. 取得計算機相關專業國內外博士學位;
  2. 計算機理論知識扎實,瞭解大規模系統設計的關鍵因素和相關技術;
  3. 具有模式檢查、機器學習、數據挖掘或者分布式系統相關工作背景優先;
  4. 熱愛科研,具有帶領團隊獨立研究的能力以及良好的團隊合作精神

關于阿里巴巴集團

阿里巴巴集團是全球電子商務的領導者,是中國最大的電子商務公司。自1999年成立以來,阿里巴巴集團茁壯成長,現已擁有7家子公司,截至2008年1月31日共有8800餘名員工:

  1. 阿里巴巴B2B公司—-阿里巴巴集團的旗艦公司,2007年11月6日于香港上市;
  2. 淘寶—-中國領先的個人網絡購物市場。
  3. 支付寶—-中國領先的在綫支付服務;
  4. 阿里軟件—-服務于中國中小企業者的以互聯網爲平臺的商務管理軟件公司;
  5. 中國雅虎—-國內領先的搜索引擎和社區;
  6. 阿里媽媽—-中國領先的網上廣告交易平臺。
  7. 口碑網—-中國領先的生活搜索引擎。

自2008 年 1 月起阿里巴巴集團宣布成立阿里搜索技術研發中心( ASC ),ASC是阿里巴巴開設的第一家集團層面的大型科研機構。中心的使命是讓天下沒有難找的信息,將圍繞電子商務生態圈的信息流構建基于搜索技術的各種平臺和應用。

隨著互聯網信息的爆炸性增長,搜索技術目前已日益成爲網絡應用的基礎。阿里搜索技術研發中心將致力于搜索技術在中國的應用研究和技術普及,關注的研發方向包括:

  1. 信息檢索和數據挖掘技術:致力于研發海量網頁和結構化信息的搜索基礎技術,爲用戶提供最佳的搜索體驗,包括自然語言處理、分類和聚類、機器學習、相關性排序、反作弊、個性化內容推薦等領域。
  2. 系統、網絡和架構:通過對分布式計算、存儲和搜索引擎和信息搜集平臺的研發,建立高性能的大型分布式基礎架構,完成對于海量網頁的抓取和精確抽取,應對每日上億次的查詢,幷有效地管理成千上萬台服務器集群
  3. 計算廣告技術:互聯網廣告,特別是基于搜索技術的關鍵字廣告和內容匹配廣告,正成爲廣告行業的新增長點。我們將通過對上網用戶的瀏覽和搜索行爲數據挖掘,進行精確匹配廣告算法的研發。
  4. 移動搜索技術:中國手機用戶已經超過5億,擁有全球第一大移動通信市場,移動互聯網市場潜力無窮。我們將關注在網頁信息處理、移動電子商務、人機界面、本地搜索等應用研究領域。

在研發成果的産品化上,阿里搜索技術研發中心將與阿里巴巴、淘寶、中國雅虎、阿里媽媽等兄弟公司密切合作,將中心的創新成果直接應用到海量的網頁、商品、服務信息、廣告匹配等搜索服務中。

我們歡迎有志于搜索研發的人才加入到我們的隊伍當中。在這裏你將和一流的搜索技術人員一起工作,你的工作成果直接影響億萬網民的生活,你的工作將對中國的電子商務産生深遠的影響,加入我們和中國最大的電子商務公司一起成長。

公司網站:http://www.alibaba.com
公司地址:中國浙江省杭州市文二路391號西湖國際科技大厦A座18、19樓
聯 系 人:人力資源部
聯繫方式:postdoctor@alibaba-inc.com

- End -

Posted in Jobs | No Comments »